百万个冷知识百万个冷知识

百万个冷知识
一起学习百万个冷知识

Facebook效应:流量生意背后有哪些数据逻辑-上篇(哪个数据不是Facebook广告收入的基础)

文/Weijie Deng

在 facebook 上的曝出关键么?是的,很关键,它基本上让相关联热门话题在维基网页的搜寻率翻了三倍,让“交叉口据说”,变为了“竞相搜寻”。

2018年2月21日,英国爆款 Kylie Jenner 在对个人twitter上回帖:“呢我们都无须关上Snapchat了?还是只有我… 呃这Farlay哀伤。”

在那条贴文收到后24半小时内,Snapchat 的公司股价暴跌6%,约莫阻档16万美元总市值。

(左图:珍娜·克莉丝汀·爱黛儿是一名英国电视节目名流、模特她第二次出现在荧幕是在英国E!电视节目频道的实境《与Adele姐妹南埃尔普》,右为她的twitter书名;相片作者:twitter)

Kylie Jenner的twitter有约2500万影迷,单单是这两条twitter就得到了超过37appledaily赞和整整7.5亿次的转贴。她的那条转贴,就是SNS新闻媒体毁灭商业性运转的真实写照——这些犯罪行为有时候可以增添非常大自身利益,而有时候,就像发生在Snapchat头上的那般,会增添巨大危害。

在我的工程项目中,我试著研究两个问题。第三,在SNS新闻媒体上盛行的事会增添什么影响?以及,怎样提升两件事在SNS互联网上大行其道的几率。我优先选择的研究对象是最大的SNS新闻媒体公司——Facebook。

这一热门话题我将分为上下两篇来写,在这篇文章中,我将集中研究一家公司在 Facebook 上获得的曝出所增添的影响。

各类公司一直在撰写内容、分享链接以及评论帖子,以期提升自己在 Facebook 的曝出度,进而提升自己的受欢迎度。但曝出增加增添的真实影响究竟是什么呢?

研究这一问题的最好方式,就是看一看 Facebook 平台上的 “Trending” 列表,这是 Facebook 用户阅览最多的部分。2014年,Facebook 在主页增添了 “Trending” 的功能,将用户们正在讨论和分享的热门话题以列表形式展示出来。

决定这一列表的真实算法是怎样的,在我这一工程项目中并不关键,不可否认的是,进入 Trending 列表的热门话题会被所有2亿 Facebook 用户(至少在英国是这样)看到。

所以,如果能找到一种方法来衡量两件事出现在 Trending 后增添的影响,那么我们就可以了解在 Facebook 平台的曝出有多么关键。但这不简单。除非是 Facebook 雇员或支付一笔费用,否则一般很难知道确切的单个帖子的点击量。我需要公开的而且直接与之有关的信息。所以我转向维基。

在 Facebook 上盛行的热门话题有一个共同模式,就是人们在之后会希望了解关于它的更多信息。比如,一个演员在 Facebook 上因为结婚或卷入一场丑闻而大行其道,我的第三反应就是去获取更多信息。根据谷歌的公开说法,当一对个人被搜寻时,10次中有9次第三个弹出的结果是他的维基网页。

所以,如果我可以将 Facebook 的 Trending 与维基的阅读情况建立颗粒级的关联,我可能就得到一个研究 Facebook 流行负面效应的很棒的方法。更棒的是,维基会公布每个网页的每半小时阅读量。

(左图:facebook 中的 Trending 板块)

所以,我记录下了从1月30日到2月5日一周的 Facebook 的 Trending 统计数据。

抓取时间为美东时间每天早上8点,这是 Facebook 用户最活跃的时间点之一。其次,我下载了同一时间段维基各个网页的每半小时阅览量。

接下来的工作就是将这些统计数据进行准确结合。

维基百科网页统计数据的下载和整理耗费不少时间,这包括:首先,撰写一个脚本来自动下载维基上相关联的统计数据;其次,使用正则表达式将facebook上的盛行热门话题转为一个独有字符串,以相关联它的维基网页;然后,建立一个循环,完成下载,按照当日Facebook的Trending情况对这些统计数据进行分类,然后再将每个文档按照一个组织好的层级结构进行组合。

最终,基于一周的 Facebook Trending 统计数据,我得到1200多观测统计数据。

所以,一个热门话题在 Facebook 上的盛行,会影响它的维基网页阅读量么?

让我们来看看结果。

从上图来看,好像是的。y轴是阅览量,x轴是一天的不同时间段(相关联的图上的点代表这一时刻的累积阅览量),蓝色线代表一个热门话题在 Facebook 上盛行,黑色线代表盛行的热门话题的平均维基网页浏览量。可以看到,蓝色线以后,黑色曲线有一个陡增的变化,这说明:一个热门话题盛行后阅览量急剧增加。

然而,聚合图会模糊每个具体热门话题的独特情况,因此我制作了每一个热门话题相关联的曲线图。

总的来看, 可以看到,一个在Facebook上盛行的热门话题,会在维基上也出现浏览量的激增,几半小时后才掉头向下。几个很突出的例子包括:

对这些不同热门话题的表现上的分析则更加有趣:

(左图:红色表示政治热门话题,绿色表示盛行文化热门话题,蓝色表示体育热门话题)

我们把 Facebook 的盛行热门话题进行分组,划分为三类:政治、盛行文化和体育,整体上维基的阅览增长趋势是相似的。然而,体育类热门话题与他有明显区别:它在Facebook上盛行后,在维基上阅览了增加的最快,而当风潮过去,它的回落也是最剧烈。所以,Facebook增添的负面效应对各种不同热门话题还是不同的。

那么,这些不同影响的程度有多大?我做了两个分析。首先,我制作了一个热门话题在盛行前后维基每半小时网页浏览量变化的箱线图,接下来,我对它们进行了T检验(即用T分布理论来推论差异发生的概率,适用于这种样本含量较小的情况)。

结果显示,当p值小于0.001时,盛行后的维基浏览量的平均值比盛行前要高很多。

不过,尽管如此,T检测并不说明在 Facebook 上盛行就是维基浏览量变化的唯一原因。下面就是一个可以用来反驳的假设关系:

我们假设的关系是:

(左图:真实事件发生——在Facebook Trending大行其道——维基浏览量变化)

一种可能的反驳为:

(左图:真实事件发生——在Facebook Trending大行其道(上);或者,维基浏览量变化(下))

所以要弄清楚这一点,我们可以进行一个思想实验。其中,实验组(treatment group )就是我们所说的逻辑:现实世界发生了两件盛行的事件,之后 Facebook 上也引发讨论。而控制组则是,现实世界发生了盛行事件,但 Facebook 上并没有大行其道。当我们使用观察统计数据从而让两者可控时,这样的任务是可以完成的。

另外,我们还可以让两个对比组只改变一项变量:在 Facebook 上盛行。

当然,我们无法直接操控一个事件是否在 Facebook 上盛行,但是我们可以用另外一种方法替代:拿在 twitter 上盛行但并未在 Facebook 上盛行的事件做对比。2017年1月 Facebook 对盛行热门话题的算法进行调整,此前备受批评的千人千面,改为同一地区的用户会看到同样的盛行热门话题。因此,如果我们可以拿到 Twitter 盛行热门话题的历史统计数据,就可以进行对比。

于是我重新收集统计数据。我爬取了收集记录 Twitter 盛行热门话题的网站 trendogate.com 的统计数据。我在时间上优先选择了 facebook 调整算法前两周的统计数据,以让它们更加有可比性。

之后我再次对相关联的维基浏览量做了相似处理。两者对比分析得到下面这组图。

我也再次进行了相同的T检测,结果显示当p小于0.05,平均值方面就会区别不明显。

因此,对比 Facebook 的实验组,可以说明,热门话题在 Facebook 上盛行会给他相关联的维基界面浏览量增添明显提升,但 Twitter 上盛行则并不会增添明显变化。

因此回到最初的问题:在 Facebook 上的曝出关键么?是的,很关键。它基本上让相关联热门话题在维基网页的搜寻率翻了三倍。

那么问题来了,既然引爆SNS互联网这么关键,那么我们为了「制造盛行」,我们究竟应该做些什么呢?敬请期待下篇的解答。

注:本文翻译自技术博客《The Facebook Effect。内容仅为作者观点,不代表DT财经立场。

关于DT×NYCDSA

DT×NYCDSA是DT财经与纽约统计数据科学学院合作专栏。纽约统计数据科学学院(NYC Data Science Academy)是由一批活跃在全球的统计数据科学、大统计数据专家和SupStat Inc. 的成员共同组建的教育集团。

统计数据侠门派

本文统计数据侠是William Kye。他拥有英国圣母大学社会学博士学位,对分析和理解人类犯罪行为有浓厚兴趣并富有经验。Kye喜欢用统计数据解决问题,不只将统计数据看作生硬的数字,他还希望将其置于人类社会犯罪行为的大背景下进行理解。他此前做过大量的人口统计数据与他统计数据的交叉分析,比如社区自杀率与种族构成的关系,私立学校的数量与社区士绅化趋势的关系等。Kye掌握R语言、Python等,同时希望将统计数据分析以有洞见的故事形式展现出来,并将自己的能力用在解决现实世界的难题上。

举报/反馈
未经允许不得转载:百万个冷知识 » Facebook效应:流量生意背后有哪些数据逻辑-上篇(哪个数据不是Facebook广告收入的基础)
分享到: 更多 (0)

百万个冷知识 带给你想要内容

联系我们