如何获得高质量的数据

对于投票、调查类的表单,往往会遇到随意填写或刷票的数据,这些数据不仅浪费提交量,也影响分析结果。从技术上讲,刷票不能完全避免,但可以提升刷票成本,从而降低刷票几率。

限制填写权限

开启方法:表单「设置」——「数据收集」上部,如图 1 所示:

如何获得高质量的数据 - 图1

图1 表单填写限制

图中的设置有如下效果:

  • 所有人可填 杀伤力:★

这是默认设置,打开表单的任何人都能够任意次数地提交数据。

  • 仅金数据用户可填 杀伤力:★★★★

用户需要登录金数据才能填写表单,如果没有金数据账户,则需要创建一个账户才能填写。这个限制可能会因为注册流程而让潜在填表者望而却步,但能够极大地增加刷票成本,提升数据质量。

  • 仅管理员可填 杀伤力:★★★★★

这个配置主要用来进行内部数据填报,无法被外部填写。

  • 每台电脑/手机限填一次 杀伤力:★

该限制依赖于用户浏览器的 Cookies,如果用户禁用 Cookies ,或每次提交后清除 Cookies ,或者更换多个浏览器多个填写设备填写,限制都将失效。这项限制对于机器刷票或清除 Cookies 刷票毫无帮助。 表单如果在微信中填写,用户退出微信会自动清除 Cookies,这也会导致该限制失效。

  • 每个 IP 限填一次 杀伤力:★★★

这项限制对机器刷票有较好的抑制效果,但容易误伤。因为学校、公司等公共场所的对外出口只有一个或者几个 IP 地址,来自这些区域的填表者会无法正常提交;来自省内同一个运营商的手机用户也可能是通过有限的 IP 地址池访问互联网,这些用户也有可能无法正常提交。

限制收集量和收集时间

杀伤力:★★

开启方法:表单「设置」——「数据收集」中部,如图 2 所示。

如何获得高质量的数据 - 图2

图2 限制表单收集数量和时间
  • 表单开启/停止: 如果你的表单已经不需要收集数据,还不断有数据提交,可以直接关闭,关闭后就再收不到任何新数据了。

  • 设定开启/停止时间: 相当于一个自动计时器,可以设置从 XX 日 X 分 X 秒自动开启,至 YY 日 Y 分 Y 秒自动停止。

  • 设定每日开启时段:与上条一样的功能,但细化到以天为单位的循环。

  • 设定数据量上限: 设定数据总的收集量上限,但可以不断更改,例如将收集量设置为 700,下周一改为 1400,这样就可以控制每周的数据收集量了。

以上方法需要你对刚开始收集的数据进行评估,再做调整,例如你发现每晚都会有大量垃圾信息提交,就可以在晚上关闭表单。

使用手机字段

杀伤力:★★★

手机字段是减少刷票行为最重要的工具之一,它不影响正常的填写者,同时可以大幅提高刷票成本。

在设置中开启必填+使用短信验证可以大大增加刷票成本,加上「不能和已有数据重复」,如图 3 所示。可以限制为更加严格的「每个手机限填一次」。不过也会消耗你的短信余量,需要注意你的账户及余额。

如何获得高质量的数据 - 图3

图3 手机字段的设置

把表单变得复杂

杀伤力:★★★★

首先,表单验证码是最简单,有效的设置,请在「设置」——「填写设置」中开启这个功能,如图 4 所示。

如何获得高质量的数据 - 图4

图4 开启验证码

如果你对数据的质量有更高的要求,可以考虑增加用户的输入成本,例如设置必填的文本字段、选项不设置默认值。

对于某些关键问题,可以采用同一个目的、多个问题反复问的方式,获得真实数据。你在后期筛选的时候可以通过组合筛选,过滤掉这些无效数据。例如,在一个调查问卷中,询问现在的幸福感,你可以给出两个问题:

你觉得现在的工作满意吗? 不满意/还行/非常满意

你对下一份工作充满期待吗? 好不期待/一般/非常期待

如果用户填写了「非常满意」,又填写了「非常期待」,这条数据的价值就不大了。

字段白名单

杀伤力:★★★★★

如果你的表单只希望公司内部,或已知姓名、电话等信息的人填写,可以使用此功能,目前「姓名」、「手机」、「单行文字」这三个字段可以设置白名单:添加相关字段后,在右边「字段编辑」面板下点击「设定允许范围」进行设置,如图 5 所示。这样,只有在白名单内的数据才能正常提交。这也代表了此表单基本无法被外人填写。

如何获得高质量的数据 - 图5

图5 设定字段白名单