仅仅已知有限几个属性,就可以在数据海洋中准确识别你的身份吗?据英国《自然·通讯》杂志23日发表的一项研究,英国科学家利用一种新开发的统计方法,评估了一个人的身份能否从一个不完整的匿名化数据库中被识别出来。结果认为,目前的匿名化和数据共享方法,可能不足以保护个人隐私或满足数据保护法律法规的要求——如欧盟的《通用数据保护条例》(GDPR)。
数据科学和人工智能有望变革我们日常生活的方方面面,如医疗、卫生保健、商业和治理。这些方法依赖于大规模的详细个人数据,但是收集和共享个人数据,已经引发了有关个人隐私的担忧。针对这个问题,目前的解决措施包括匿名化处理和公布不完全的数据集。但是,近期已经发生了利用匿名数据集,包括浏览历史记录、手机和信用卡数据,成功重新识别出个体身份的情况,这表明上述措施还不够充分。
为了进一步证明这一问题的严重性,英国帝国理工学院研究团队新开发了一种统计方法,能够准确估算通过匿名数据集正确地重新识别个体身份的可能性。研究人员发现,只需要知道少数几个属性,如邮政编码、出生日期、性别和子女数量,一般就能够以高可信度重新识别出个体身份——即使数据集是不完整的。而已知属性越多,识别的可能性越大。例如,99.98%的马萨诸塞州人口,可以通过15个人口统计学属性识别出来。
因此,研究团队总结认为,目前通常所采用的只公布取样数据集或不完全数据集,尚不足以很好地保护个人隐私。