隐私已死：Facebook数据“泄露”事件解读（Facebook隐私政策的弱点）_facebook知识

►图源：ELLEN PORTEUS

本次该事件的核心可总结为几点：

第一，Facebook和牛津预测（Cambridge Analytica）所导致的此次该事件，其或者说意念来源自Kosinski和Stillwell的科学研究，而主谋Kogan仅仅是一个剽窃者和操作员。

第二，Facebook并没有被骇客入侵，也不存在统计数据”外泄“或”偷窃“一说，所有的统计数据都是采用者她们一致同意卖地的（个人隐私其实很低成本）。

第三，这

第四，根据现有信息，他们无法确定利用这一千万大统计数据所构筑的模型是不是或者说影响了美国总统大选和爱尔兰脱欧，做为自然法则推测的该案。只要他们竭尽全力在网络上留下电子足印，他们的个人隐私就会竭尽全力被发掘和用于他途，删掉Facebook帐号并不能解决今天的个人隐私危机。

发表文章 | 沈粹华（加利福尼亚大学布鲁克斯附属小学传播系）

白眉林 | 赵亚杰

●●●

Facebook和牛津预测（Cambridge Analytica）统计数据外泄性丑闻刮起了全球的SNS媒体。在《泰晤士报》和《华盛顿邮报》的报道上，居然看到了我的三位商业伙伴的名字：Michal Kosinski和David Stillwell, 可以说是相当梦幻了。这三位学者都是社会学家。Kosinski现在在史丹福MBA读书，Stillwell在牛津MBA读书。虽然她们没有参与此次Facebook统计数据外泄该事件，但称她们为主谋，应称不上。

事情要从2007年讲起。当时还在爱尔兰墨尔本大学念社会学专科的David Stillwell平时爱写一些小流程。毕业前，他在Facebook上发布了一个专门用于个性试验的服务器端小流程：myPersonality。和大部分不见得可信赖的焦虑试验不同，这个小流程上的试验题是基于经典的社会学测验，比如Roybon心智测验（发展性，内向性，情绪复杂性，和蔼可亲性，尽职尽责性）。参加试验是完全免费的，同时参加者还可以非官方捐赠她们在Facebook上的犯罪行为统计数据做为科学研究采用。这个小流程取得了巨大的成功，据Stillwell她们统计，有五百万采用者采用过此款小流程。其中少部分采用者一致同意捐助她们在Facebook上的犯罪行为统计数据供科学研究采用。采用者的焦虑个性试验统计数据与Facebook犯罪行为统计数据相共振，就形成了包含有数千采用者的统计数据的myPersonality统计数据集。这个统计数据集目前还有很多学者在采用，包括笔者所在的实验室（http://www.mypersonality.org）。

就样本量而言，myPersonality统计数据集远远小于此次Facebook和牛津预测所造成的统计数据外泄的数量（据说有一千万之多）。但对于社会科学科学研究者，这个统计数据集无疑是一个金矿。这是为什么呢？传统的定量社会科学科学研究，收集统计数据的方法很有限，主要是实验和问卷两种。实验很难规模化，能达到几百人就相当不容易了。问卷方法也许可以收集几千人甚至上万人的统计数据，但是只能知道人们当时是怎么说的/想的（态度），而不是怎么做的（犯罪行为）。填过问卷的人都知道，怎么说和怎么做经常是两回事。但myPersonality统计数据集把个性测验和采用者的Facebook犯罪行为结合在了一起。而且样本量之大，远远超过了传统定量科学研究。（众所周知，样本量对社科的结论可信度有很大的影响，有兴趣的读者可以关注一下社会学界最近的实验重复危机和关于p值的讨论）

2008年，Michal Kosinski进入了牛津大学，在焦虑测量中心攻读硕士。他和Stillwell带领了一个团队，用myPersonality这个金矿，在《美国国家科学院院刊》上发表了两篇极有影响的文章。第一篇文章发表于2013年，题目是”Private traits and attributes are predictable from digital records of human behavior” （个人个性特质可以用犯罪行为统计数据来预测）。这篇论文的大意是，她们用采用者的Facebook犯罪行为统计数据（主要是Facebook上点赞）建立模型，来预测采用者的个性和其他特质（比如性别，性取向，党派），并且得到比较高的准确率。比如，赞Hello Kitty的人较神经质，更可能支持民主党而非共和党。第二篇文章发表于2015年，题目是“Computer-based personality judgments are more accurate than those made by humans”（基于电子足印的算法模型比你亲近的人更了解你）。这篇的大意是，运用她们之前建立的模型来预测你的个性，竟然比你好友的预测还准确。

Kosinski和Stillwell的科学研究成果在当时取得了轰动，有两大原因。

第一，大家意识到海量犯罪行为统计数据建模能够精准地预测采用者性别、年龄、性取向、政治倾向、购买意愿……之前不管是营销公司，广告公司，还是公关，民调机构，要了解采用者，只能辛辛苦苦做访谈，问卷，焦点小组。这些方法不但劳民伤财，准确率也不够高。电子足印不但精准，而且俯拾皆是，只要是上网，每个人都会有她们的电子足印。这是也大统计数据结合人工智能的一次胜利。过去的几十年（弱）人工智能已经发展到了一定高度，但是算法再先进，也遵循GIGO（Garbage in, garbage out）原则：如果输入（统计数据）精度不够，输出（预测）也不会准确。Kosinski和Stillwell所用的算法并不高深，但海量的电子足印充分发挥了算法的优势，因此取得了精准程度很高的采用者焦虑画像。

第二，她们的科学研究启发了很多人，原来科研还可以这么做，原来可以通过服务器端app获取Facebook的采用者统计数据。要知道Facebook的海量犯罪行为统计数据极少对外界开放。虽然在Facebook上可以精准投放广告给采用者，但是没有可信赖的犯罪行为模型做支撑，广告仿佛大炮打苍蝇，对绝大部分的受众都是打水漂。但是有了myPersonality这样的先例，为大家提供了一个崭新的思路，那就是通过服务器端小流程以获取Facebook的犯罪行为统计数据。

毫无意外，牛津预测（Cambridge Analytica）找上了Kosinski和Stillwell。虽然叫牛津，这家公司和牛津大学没有任何关系。值得一提的是，这家公司的背后金主是Robert Mercer，他为爱尔兰脱欧和特朗普2016年总统大选做出了贡献。而Mercer的另一重身份是伊利诺伊大学计算机系博士，曾经的科学研究课题就是人工智能。但牛津预测并没有买到Kosinski和Stillwell的统计数据。根据《泰晤士报》的报道，问题出在价格上。Kosinski和Stillwell要价50万美金，最终导致谈判流产。（这一点颇有争议，因为牛津预测在之后和Kogan的合作时付出了更高的价格，花了近一百万美元。）

Kosinski和Stillwell的退出，给别人创造了机会。牛津预测最后和同在牛津大学焦虑系担任的讲师Aleksandr Kogan达成了协议（到底是怎么达成的协议，现在众说纷纭。Kogan本人说是牛津预测找上门来；而牛津预测却说是Kogan毛遂自荐）。在牛津预测的资助下，Kogan直接剽窃了Kosinski和Stillwell的科学研究设计，也写了一个专做焦虑试验Facebook服务器端小流程：this is your digital life （据爱尔兰泰晤士报报道，Kosinski和Stillwell早在2014年就举报Kogan侵犯了她们的知识产权，而Kogan则认为已发表的知识产权属于公众领域，谁都可以采用）。

在Mechaincal Turk和其他网络平台上，Kogan以五美元的酬金，吸引了27万采用者答题并卖地她们的Facebook统计数据。五美元是什么概念呢？Mechanical Turk是亚马逊旗下的兼职网站，上面有很多小任务，完成一项任务会有一定的报酬，但是任务的价格都非常低廉，耗时十分钟的任务的报酬在一角到一元美金不等。相较之下，五美元不亚于是一个天文数字。所以这样一个小流程能够吸引27万人参加试验，也就不奇怪了。注意，所有的参加者都是心甘情愿地让出她们的Facebook犯罪行为统计数据的。Facebook并没有被骇客入侵，也没有所谓的统计数据“外泄”或是“偷窃”。因为在当时，Facebook小流程在采用者一致同意的情况下收集统计数据是完全合法的。

那么，所有的报道中都提到了一千万采用者，又是从哪里来的呢？因为Kogan的流程不仅收集了采用者本人的统计数据（以五美元做交换），也收集了采用者的Facebook好友统计数据。一个采用者可能有几百个好友，所以27万个“种子”最后就变成了一千万采用者。

这里有一个很有意思的问题，就是统计数据的归属问题。张三有个朋友叫李四，这个信息是张三个人的信息，还是李四的信息？张三为了五块钱出卖她们的统计数据（其中包括李四的姓名，三玩的很嗨，你要不要也试试？2015年，Facebook调整了个人隐私设置，采用者不再能够轻易地和小流程“分享”她们的好友信息。这一改变还遭到许多Facebook 小流程开发者的诟病。

到了这里，整件事情都还是合理合法的。下一步则不然。

Kogan本人也是社会学家，他设计这个小流程时声称要科学研究SNS媒体和焦虑健康。Facebook也是基于这个科学研究目的，才一致同意了他收集了一千万采用者的统计数据。但不久以后，Kogan

但也有人说，这时的统计数据集属于”二手统计数据“（secondary data），在统计数据的监管上属于灰色区域。Kogan当时和Facebook的采用者签订协议时，明确指出收集统计数据是供科学研究采用，并且他也的确做了科学研究，那么统计数据完成了它的使命之后，是否应该直接删档（这是Facebook对Kogan的要求）？这时的统计数据到底归谁所有？（欧美多数的大学和科学研究机构在做人类相关科学研究时（human subjects），都会专门设立一个委员会（Institutional Review Board，IRB）来监管类似的伦理问题。就笔者个人的经验，IRB对二手统计数据一般都网开一面。至少在学术界，因为A而收集的统计数据后来用于B用途并不少见。很多统计数据集都是开放下载的，比如史丹福的SNAP， Data verse等等。前文提到的myPersonality统计数据集，也对学术界全盘开放。）

之后的故事大家都知道了。

牛津预测运用这个统计数据量超过一千万的超大规模的采用者统计数据建立模型，其目的就是找出符合某种特定焦虑画像的选民（低开放心性，高情绪复杂性）。在美国“赢者通吃”的总统大选制度下，绝大部分的选票对选举结果都没有影响（比如说深红州和深蓝州的选票）。还有一部分选票，无法被广告左右（比如民主党或者共和党的死忠粉）。能左右选举结果，且可以被广告影响的选票数量微乎其微。但是一旦有了一个特定的焦虑画像，牛津预测就可以在茫茫人海中找出她们要的这少部分选民，然后集中精力给这少部分选民施加影响就可以了。她们买了大量Facebook广告对这些人进行狂轰滥炸，进行所谓的“信息战争”（information warfare），以达到操纵总统大选的目的。

那么，这一千万统计数据和模型，真的如牛津预测所说，操纵了2016年美国总统大选，影响了爱尔兰脱欧吗？对于这个问题，他们可能永远也不会知道答案。不管媒体如何渲染报道，科学上的自然法则推定有严格的标准。当因变量X存在时，他们观察到了结果Y，无法做出X导致Y的推测。就像一个小朋友爱吃冰激淋，后来发现了蛀牙，很难说冰激淋直接导致了蛀牙（可能这个小朋友同时爱吃糖，不刷牙，或者其他原因导致蛀牙）。只有当他们能直接对照两个一模一样的平行宇宙，在一个宇宙里这个小朋友爱吃冰激淋，另一个宇宙里不吃，然后比较结果，才能得出最令人信服的自然法则推测。

可惜，这样的平行宇宙并不存在。所以，牛津预测究竟有没有影响总统大选结果，影响有多大，也只能永远存疑了，这就是整个证据链里最为薄弱的一环。就连Kogan本人，也对此不置可否。一位教授直接发信去问Kogan，牛津预测所用的模型究竟有多精准。Kogan的回答是，根据Facebook大统计数据建模预测出来的选民个性和选民的实际个性（根据社会学测验）仅有30%的相关性，而这个准确率比之前Kosinski和Stillwell的模型所给出的准确率还要低。

不管Kogan的回答是否可信，即使他的模型有效，能找出符合特定焦虑画像的选民。但是用假信息广告轰炸符合这个焦虑画像（低发展性，高情绪复杂性）的选民究竟有没有作用？是不是真的让她们选择了特朗普？永远都只是一个未知数。

该事件发生以后，Facebook的股价大跌，市值蒸发超过700亿美元。另有很多人发起了删掉Facebook帐号的行动。但是这一切现象都只是表面，并不需要当真。因为删掉Facebook帐号并不会从根本上解决今天他们所面临的个人隐私危机，原因如下：

第一，Facebook有超过20亿活跃帐号。也许Facebook已经不是年轻一代最爱用的app了，但它依然是全球最为广泛采用的SNS媒体平台，拥有全球最多最广最全的犯罪行为统计数据集。

第二，删掉了Facebook，他们还有Google，Twitter，Snapchat，Netflix，微博，微信，淘宝，今日头条等各种互联网接入商……他们的统计数据不给Facebook，也会给别的网络平台。当采用者统计数据变成所有平台核心竞争力的今天，牛津预测所导致的该事件只不过是众多类似该事件中的冰山一角罢了。

笔者给学生上SNS媒体课的时候，都要问一问大家：怎样操作才能保证她们的裸照不被外泄？正确答案是，不要拍裸照。只可惜，这个答案在今天已经不现实了。他们在互联网上做任何事情都会留下电子足印。买东西，叫外卖，看剧，打车，乘坐高铁和飞机，上各种SNS平台……当一切都电子化，所有的信息都有电子存档，他们的足印也一览无遗。大统计数据结合人工智能，可以根据这些海量足印建模型，卖给他们东西，灌输给他们思想，改变他们的犯罪行为，这一切早已发生，并不会因为一个牛津预测的爆料就有任何改变。

从前意义上的“个人隐私”早已死去。如今他们尚能做的，也许就是更好管理她们的个人隐私，呼吁监管，要求各平台对统计数据的存储，建模和买卖，更加透明。再大胆预测一下，也许某一天，“统计数据烟幕”公司会出现，为客户建虚假帐号，留下虚假电子足印，也许这才是保护个人隐私的新方法。