日期: 作者: 新闻

《新科学人》报道称 ,剑桥大学的研究人员曾收集 300 多万 Facebook 用户以及他们的一系列个人信息,而在 4 年左右的时间里,任何人都可以下载这个数据集。在 Facebook 服务条款比较宽松的时期,这可能只是众多收集庞大用户数据集的地方之一。

这些数据是个性测试应用 myPersonality 收集的,根据该应用自己的 网站(目前网站已经下线),myPersonality 于 2007-2012 年期间上线运行,但截至 2016 年 8 月,仍有新数据被添加进来。myPersonality 一开始是 剑桥大学心理测量中心(Cambridge Psychometrics Centre)研究人员大卫·斯第威尔(David Stillwell,他目前是该中心的副主任)进行的一个附带项目,但之后发展成为一个更有组织的研究项目。网站声称,该项目“在学术界拥有密切的联系,但它本身是一项独立的业务”。(想必是出于规避责任的考虑,myPersonality 从未收取访问数据的费用。)

虽然名称里都有一个“剑桥”,但这个剑桥跟剑桥分析公司(Cambridge Analytica)并没有实际的联系,只是通过亚历山大·科根(Aleksandr Kogan)搭了一点边(后面将对此进行解释)。

跟其他测试应用一样,myPersonality 要求用户同意应用访问其个人资料(应用没有收集用户好友的数据),这些数据跟用户给出的问卷答案结合起来,生成了拥有数百万用户资料的丰富数据集。myPersonality 收集的数据包括人口统计资料、状态更新、一些个人资料图片、点赞内容,等等;但不包括用户的私人消息或来自好友的数据。

我们很难说清究竟有多少用户受到了影响:myPersonality 网站声称其数据库中拥有来自 400 万用户(因此本文标题就采信了这个数字)的 600 万个测试结果,但可供下载的数据集中只包含了 310 万用户的个性测试得分,而关于特定指标(比如雇主或学校)的数据点就更少了。无论如何,总数就在那个量级上,而每个用户的数据不尽相同。

吉祥坊这个数据集已经移除了身份识别信息(比如用户的真实姓名),但考虑到数据集的容量和广度,某些人有可能对它进行“去匿名化”处理(这里应该补充的是,没有证据表明有人曾经那么做过)。

注册的学者可以通过一个维基网站获取该数据集,但他们必须同意 myPersonality 自己的服务条款。来自数十家机构和公司的数百位研究人员曾在众多论文和项目中使用过这个数据集,这当中包括谷歌、微软、雅虎,乃至 Facebook 自己(笔者向 Facebook 问到了这件奇怪的事情,该公司的一位代表说,列名的两位研究人员是在入职 Facebook 之前提出使用数据集申请的;笔者看到那两位研究人员标明自己隶属于 Facebook,为什么会这样目前尚不清楚,但 Facebook 的回应就是这样)。

myPersonality 的行为本身就违反了 Facebook 的服务条款,其中禁止将此类数据分发给第三方。然而,就像我们在过去一年中看到的那样,Facebook 几乎没有费心去执行这项政策,数百个(乃至 数千个)应用都在堂而皇之地分享收集自 Facebook 用户的数据,将这些条款践踏在地。

就 myPersonality 而言,用户数据本来只应该分发给真正的研究人员。斯第威尔和他当时的研究合作者米哈·科辛斯基(Michal Kosinski)会亲自对申请者进行审查,后者需要列明他们所需的数据和原因,正如下面这张申请表样表所示:

我是一名全职教员(如果你是一名学生,请让你的指导老师替你申请数据访问权)。我已经阅读并同意 myPersonality 数据库使用条款(不开玩笑,请认真阅读)。我将为研究小组中任何学生对这些数据的使用负责。

我打算使用下列变量:

*(列出你想要使用的变量

*告诉我们你打算

* 如何对它们进行分析。)

然而,一位讲师在 GitHub 上公布了自己的用户名和密码,以便学生可以使用这些数据。《新科学人》估计,在大约 4 年时间里,任何搜索 myPersonality 数据库访问权的人都可以获取那些认证信息。

这似乎表明,Facebook 在管理其本应保护的数据方面十分马虎。一旦这些数据离开 Facebook,该公司就没有办法进行控制。但事实是,一个包含数百万条目的数据集被开放给任何提出请求的学者以及任何使用公开认证信息的人,这表明 Facebook 根本没有做出过努力。

Facebook 的研究人员请求访问违反了自家公司政策的数据,这除了表明 Facebook 无意于保护这样的数据集以及更关心规避责任之外,我想不出还能得出其他什么结论。毕竟,如果 myPersonality 违反了政策,Facebook 可以关停该应用——顺便说一句,该公司上个月就是这样做的——然后把责任全都推给了违规者。

“我们在一个月前关停了 myPersonality 应用,因为我们认为它可能违反了 Facebook 的政策。”该公司的产品合作副总裁伊米·阿奇博格(Ime Archibong)在一份声明中表示,“我们目前正在对该应用展开调查,如果 myPersonality 拒绝合作或未通过我们的审查,我们将封杀它。”

在提供给 TechCrunch 的声明中,大卫·斯第威尔为 myPersonality 项目的数据收集和分发进行了辩护。

“myPersonality 项目的合作者已经发表了 100 多篇探讨重要话题的社会科学研究论文,这些研究成果促进了我们对社交网络使用及其影响的理解。”“我们认为,学术研究可以从这种举措中受益,也就是合理控制匿名数据在研究社区中的共享。”

在另一封电子邮件中,米哈·科辛斯基还强调了基于他们数据集发表的研究成果的重要性。 近期的一个项目 研究了人们如何评估自己的个性,并跟其他人以及计算机的评估进行了对比。

图表来自基于 myPersonality 数据库发表的研究论文,计算机的表现跟被试者的配偶差不多。

“至少从 2011 年起,Facebook 就知道我们的研究,并采取鼓励的态度。”这份声明继续道。这种说法跟 Facebook 发言人给出的解释并不一致,后者声称 Facebook 基于违反政策而关停了 myPersonality,依据就是该应用在数据再分发条款中所使用的措辞。一个可能的解释是,Facebook 从未对此给予密切关注,直至这种类型的个人资料共享变得不受欢迎,以及数据在学者中间的使用和分发开始受到更严格的审查。

斯第威尔表示(剑桥大学心理测量中心也 特别说明),亚历山大·科根没有参与 myPersonality 项目;不过,他是拥有数据访问权的项目合作者之一,就像其他机构的研究人员一样。科根显然已经证明,在跟 SCL 和剑桥分析公司的交易中,他并未使用这些数据。

声明还说数据集中最新的数据是 6 年之前的,据我所知,这基本准确,只不过在 2016 年 8 月的时候有一组新数据被加入进来,那是涉及 2015 年彩虹头像运动的 80 万用户数据。这无关宏旨,但我认为值得一提。

Facebook 已经关停了数百款应用和服务,并且正在对更多应用和服务展开调查。此前,剑桥分析数据泄露事件已经让一件事情变得显而易见,即为了一个目的收集的用户数据正在被重新部署到其他各种目的当中。举例来说,剑桥心理测量中心还搞了一个名为 Apply Magic Sauce 的独立项目;笔者向研究人员询问了它跟 myPersonality 数据之间有什么联系。

我们从目前已公开的一小部分关停行动和数据收集方法中可以得出结论,在其管理最宽松的时期(即在 2014 年之前),Facebook 允许不计其数的用户数据脱离其管控,而这些数据仍然在外面流传,完全不在该公司的控制范围之内,并且被各种人用于各种目的。

研究人员在获得同意之后使用用户数据并不是问题所在,但 Facebook(以及在某种程度上那些研究人员自己)无力对数据进行任何有意义的控制,这表明他们在数字隐私方面存在着严重失误。

归根结底,Facebook 似乎应该肩负起监管责任,但正如马克·扎克伯格在国会的表现所凸显的那样,除了悔过和承诺做得更好之外,他们还不清楚负责任到底是要怎么做。

翻译:王灿均(@何无鱼

Anyone could download Cambridge researchers’ 4-million-user Facebook data set for years

查看相关文章吉祥坊wellbet,访问手机版android和IOS吉祥坊APP吉祥坊(www.winjxf.com)

Comments are closed.