4.1. 数据采集

业务风控主要是依赖业务数据进行判断感知, 需要有数据才能做后续的分析等等一系列的处理, 所以数据采集几乎是决定风控系统成败的关键. 下面我们来介绍我们在风控系统数据采集这一块的考虑.

数据数量

我们在做数据采集的时候, 应该尽可能拿到更多的数据, 拿到的数据越详细越好.例如分析账号风险, 如果我们拿到了用户登陆注册的数据, 我们可以从登陆注册的频率, 登陆注册的时间以及登陆注册的地点等相关特征类进行分析; 如果我们可以拿到用户在执行登陆注册时的上下文操作数据, 比如执行操作之前访问的页面, 加载的资源以及执行操作之后访问了什么页面或者数据, 这样我们就可以根据用户操作的行为轨迹增加更多可供分析的维度.

数据格式

在确认好可以拿到的数据之后, 我们就有必要定义一个标准的数据格式, 这点我们在后面的数据分析中会做详细说明.比如常见的登陆, 注册, 下单, 结算等等都需要给出一个标准的数据格式, 并且属性字段命名一定要统一, 这样方便后续的管理以及一系列的计算操作, 避免由于字段命名不统一这种可以避免的疏忽造成不必要的麻烦.

数据的质量

数据的质量主要从两个方面来考虑:

数据字段完整性

数据字段比如IP地址, 端口, User-Agent, Cookie等字段都是后续分析不可缺少的字段, 这些字段的缺失可能会造成很多后续的工作没法开展, 我们在采集的时候就要有一个明确的字段列表, 这样后续的工作才好以这个为基础开展.

数据的准确性

数据准确性主要体现在数据字段对应和数据采集方式上.
数据采集入库, 我们需要保证数据与字段的对应关系, 这点需要在部署前期跟客户沟通确认, 以保证服务的质量.
数据采集手段主要有主动采集和被动采集两种:

  • 主动方式
    主动方式就是去客户的数据库, 日志里面去读取数据.这种方式实时性较差, 并且数据不能保证能拿到我们想要的字段.当然也有些公司有自己成熟的消息处理能力, 我们可以直接将此作为数据源进行采集, 但是总体来讲这种情况比较少.

  • 被动方式
    被动方式是指客户提供接口, 我们按照标准的数据格式将数据接收过来.
    这里也存在两种方式, 第一种是通过在客户前端埋点的形式将数据流量发送过来; 第二种是通过旁路数据转发的形式将数据流量发送过来.被动接收的方法配合周期相对较长, 但是我们可以拿到高质量的数据, 所以这个是比较常见的风控系统的搭建方式.

上面说的这几种情况只是我们一些很基本的想法, 真正实际操作起来需要考虑的远远不止如此, 在这里就不一一赘述.