八、数据隐私和匿名化

原文:Data Privacy & Anonymization

译者:飞龙

协议:CC BY-NC-SA 4.0

许多数据,可能是数据科学中通常使用的绝大多数数据,直接或间接地与人有关。

个人拥有某些隐私权,关于谁可以知道或分享有关特定身份个人的信息。 对于某些类别的敏感信息(例如,与健康相关的信息具有特殊保护)尤其如此,但也适用于所有其他数据。

信息隐私

信息(或数据)隐私是指收集,使用和发布数据的法律,道德和实际问题,其中包含数据集中包含的人员的可识别信息。 它还涉及何时以及如何处理数据隐私问题,以及如何保护用户的隐私。

Wikipedia拥有信息隐私的概述。

匿名化

数据匿名化是一种信息清理 - 即删除敏感信息 - 用于隐私保护。这是一个修改数据集的过程,使其反映的个体是匿名的。 大多数情况下,这通常意味着从数据集删除个人身份信息,使得数据集中包含的个人的身份是匿名的。

Wikipedia 也拥有数据匿名化的概述。

数据保护和匿名化是数据科学和数据实践的跨学科组成部分,包括从数据使用的伦理和合法性考虑,到数据保护和匿名的实际和技术挑战。

匿名数据通常归结为从数据集中删除任何个人可识别数据,或者,如果必须保留此信息,则将可识别数据与敏感信息分开。

数据匿名化的部分困难在于,虽然我们可以证明给定数据集是匿名的,但这取决于特定的假设 - 最值得注意的是,在没有额外的外部信息用于尝试解密的假设下,数据集才可证明是匿名的。

在实践中,通常可以通过组合多个数据集来完成对数据的去匿名化 - 使用来自一个或多个可用信息源的信息来解码包含在一些其他数据集中的个体。

规定

有许多关于数据隐私和用户身份保护的官方指南,规则和标准,尽管其中大部分都是针对具体案例的。

至少,在数据保护方面,除其他外,法律要求的内容依赖于:

  • 数据是什么/包含什么,以及关于谁,
    • 某些数据类型和/或群体可能具有特殊保护,例如与健康相关的信息。
  • 谁拥有数据以及他们以何种身份行事(公司,大学等)
    • 科学研究的规定与公司的规定不同
  • 收集数据时的用户协议/同意程序。
    • 个人有权根据其数据使用的内容进行自我决定。数据仅应用于其使用条款/收集/同意程序所涵盖的内容。
  • 数据用于什么。
    • 根据拥有和使用数据的目标,通常是什么和谁的组合,可能有具体规定,关于你必须如何处理,以及你可以做什么。
  • 收集数据的位置,存储位置以及关于谁。
    • 不同地区(国家等)通常有不同的规定。

这些法规中的大部分更直接地应用于数据集的收集,存储和发布,但是方面也适用于数据集的使用,包括公开可用的数据集。可用数据集通常具有使用数据的用户协议,特别是,尝试从数据集中识别个体可能至少打破用户协议,和/或是非法的(取决于数据的性质),基于消费者和研究主体保护法。

研究标准

为研究目的收集和使用的数据,有自己的一套指导方针和要求,关于人类主体治疗以及数据收集,储存,使用和传播。除其他外,这些法规的重点是人类主体的自决权,同意收集哪些数据,以及如何使用这些数据。为研究目的而收集的数据必须遵循基于这些同意程序的限制。

研究根据赫尔辛基宣言进行保护。

HIPAA - 保护健康相关信息

健康保险流通与责任法案(HIPAA)是美国联邦政府的一项法规,规范和保护了个人医疗记录和健康相关数据。它包括如何存储数据,以及如何使用和共享数据的条款。

美国联邦政府官方 HIPAA 信息指南包含 HIPAA 的概述。

安全港方法

安全港是如何处理具有个人数据的数据集的官方协议,特别是从数据集中删除哪些信息,来对其进行匿名化的具体指导。它是在许多环境和国家之间共享的一组数据保护要求。

安全港的官方文档包含如何匿名数据的指南。

安全港方法要求删除个人或亲属,雇主或家庭成员的以下标识符:

  • 姓名
  • 小于州的地理细分
  • 日期(如出生日期等),以及所有年龄超过 90 岁的人
  • 电话号码
  • 车辆识别号码
  • 传真号码
  • 设备标识符和序列号
  • 电子邮件地址
  • Web 统一资源定位器(URL)
  • 社会安全号码
  • 互联网协议(IP)地址
  • 医疗记录编号
  • 生物标识符,包括手指和声纹
  • 健康计划受益人数量
  • 全脸照片和任何类似的图像
  • 帐号
  • 证书/许可证号码
  • 任何其他唯一标识号,特征或代码

**邮政编码的前三个数字可以保留,前提是超过 20,000 人居住在所有邮政编码覆盖的区域,这些邮政编码共享相同的初始三位数(相同的地理细分)。

唯一标识符

逻辑安全港(和/或一般数据匿名化)是删除可用于识别你的任何唯一信息。

对于像名字这样的事情来说,这可能是最明显的,但是一些看似不那么明显的安全港规范,也与这个想法有关,将指定信息留在数据集中,具有识别数据集中包含的个体的风险。

例如,虽然谈论住在洛杉矶的 37 岁男性可能是无害的(因为有许多候选人,没有透露特定的个人),但谈到约有一名 37 岁的男性居住在加利福尼亚州的波特雷罗,这个小镇约有 700 人,可能真的很明显。 这与 90 岁以上的人被移除的原因相同 - 即使在相当大的地区,假设圣地亚哥,一位 98 岁的女性参与者可能是相当明显的。

基本上 - 任何让你脱颖而出的信息都有可能识别你,所以匿名试图从数据中删除这些特质,这样个人就不会以某种方式让人知道他们是谁。

这也是在面对多个数据源时保护数据的难度基线,因为收集观测结果使得更容易更加独特地挑选个体 - 因此从洛杉矶识别出 37 岁的男性,可能仍然相对容易,如果你也碰巧知道(或弄清楚)他有一只 5 英尺 6 英寸的狮子狗,在加州大学洛杉矶分校工作,并于 4 月 15 日星期六在格里菲斯公园,通过组合公开可用的或易于获得的数据,所有这些都可能相对容易来弄清楚。