百万个冷知识百万个冷知识

百万个冷知识
一起学习百万个冷知识

干货!VigDet:一种结合领域知识和数据驱动的虚假账号检测(干货加盟店哪个品牌好,贵阳干货批发店在哪里)

张一舟:

旧金山大学迪克比工程系数学系科学研究生,指导老师为Yan Liu教授。他的科学研究兴趣包括图统计数据与排程统计数据上的机器自学及其应用,如SNSABM,曾在NeurIPS, KDD, TheWebConf, IJCAI, ICDM等讨论会和学术期刊上发表学术论文。他于2019年获得清华大学软件工程与技术硕士学位。

不实协同帐号检验

近几年,在许多大型SNS新闻媒体平台,如twitter上,出现了许多不实帐号,比如说机器。她们透过协同的的方式,如互相雅雷、评论和转贴,来干涉信息的传播,进而影响公众观点。图1展现了三个被twitter非官方揣测存有违法犯罪行为的帐号的部分公益活动。这些不实帐号的活跃促使人类学家追寻如何智能化地检验她们。传统的方式主要来自计算人类学和可视化式应用领域。该应用领域的人类学家们通常会借助许多本体论科学知识来构筑一个来衡量帐号之间犯罪行为连续性的图(graph,不是图片),接着在那个图上展开控制点或者检验。这种方式过于倚赖本体论科学知识的产品质量,并且表达能力也较弱,许多复杂的可视化犯罪行为被简单的组合成了一个纯量Behren。因此,这类方式的准确度普遍较高,尤其是在无监督情景下。为的是化解那个难题,近几年的科学研究开始使用统计数据驱动力的的机器自学方式来为帐号自学则表示矢量,接着在则表示矢量空间展开检验。比如说AMDN-HAGE,透过最小化SNS新闻媒体上探测到的排程统计数据的似然值(类似语义处理中的词矢量自学,用过去的该事件的则表示矢量来预测未来该事件)来自学帐号的则表示矢量。但是这类方法又很倚赖统计数据的产品质量和规模。对于许多公益活动振幅低、相对沉默的帐号,这类方式往往学不到较好的则表示。为的是化解这一难题,我们提出了VigDet。这一数学模型借助应用领域科学知识来帮助脊髓排程点操作过程(一类统计数据驱动力数学模型)教给更好的则表示。

图1: 协同犯罪行为的实例。这三个帐号被twitter非官方揣测存有违法行

排程点操作过程与其数学模型可视化

图2: SNS新闻媒体上排程点操作过程的实例

排程点操作过程(如泊松操作过程)是一类常见的随机操作过程。它描述了连续时间轴上发生的一系列离散该事件。SNS新闻媒体上的该事件(如发布信息、雅雷、转贴和评论)是一类非常典型的排程点操作过程。图2展现了如何将一条信息的传播可视化为排程点操作过程。一条信息(比如说一条twitter)发布的时刻即为时间轴上的0点,之后每个与该条信息的可视化(如雅雷评论转贴)即为一个该事件。每个该事件包含三个信息:用户id和时间戳(此处为的是适应不同平台的设计,我们略去了具体的该事件类型)。每个该事件发生的概率被可视化为给定之前发生的所有该事件的条件概率。我们使用数学模型来可视化这一分布:

其中S[1:i-1]则表示第i个该事件前的所有该事件,我们可以用RNN或者Transformer来讲她们编码为一个矢量Ci,接着分别用三个解码器fm和ft来预测未来交互的用户和时间。接着我们透过最小化已探测到该事件的似然值即可自学数学模型参数。具体流程如图3所示。

图3:使用数学模型可视化排程点操作过程

VigDet:结合应用领域科学知识与脊髓点操作过程

为的是将应用领域科学知识表达为可供机器自学数学模型学习的形式,我们先像传统方式一样,借助本体论科学知识构筑一张来衡量帐号之间犯罪行为连续性的图。本文中,我们使用“共同公益活动”(co-activity)这一本体论科学知识,即经常和同一条信息可视化的用户犯罪行为更一致。在以此本体论知识构筑的图中,三个用户间的Behren为她们共同出现过的时间序列的总量。然而,传统方式构筑的图往往含有噪音,这是因为受不实帐号影响的真实帐号也可能会和不实帐号共同出现。因此我们需要对图展开降噪。此处我们提出了两种方式:幂函数降噪与排程逻辑降噪。

幂函数降噪(Power Function,PF):尽管真实帐号可能和不实帐号共同出现,但是统计意义上不实帐号共同出现的概率更大,因此我们可以使用幂函数来放大这种差异,接着对Behren展开归一化。

排程逻辑降噪(Temporal Logic,TL):我们可以将更多的本体论科学知识则表示为排程逻辑,接着借助这些排程逻辑去除掉许多没有意义的共同出现,比如说过于热点的序列(所有人都回应过)

借助以上两种策略,我们可以获得一个降噪后的本体论科学知识图。接下来,我们需要考虑如何结合图和排程统计数据来展开协同检验

结合应用领域科学知识与则表示自学展开检验

为的是将图和基于排程统计数据的用户则表示自学结合到一起,我们提出借助用户的则表示矢量与本体论科学知识图共同构筑一个条件随机场(Conditional Random Field,CRF)。条件随机场是一类概率图数学模型。概率图中的每个节点是一个待检验的用户。我们把整个图中所有节点的检验结果合集记为Y,则每个可能的Y的概率为:

其中是能量函数,包含两项,第一项是基于单个节点的embedding计算出的标签的倾向性,第二项是基于每条边上的用户标签的连续性计算出的倾向性。直观来看,第一项包含了来自用户则表示矢量的信息,而第二项包含了应用领域科学知识图的约束(犯罪行为连续性更高的用户更有可能具有相同的标签)。Z是对所有可能的Y的能量函数求和以保证P是一个概率分布。然而,Z本身是对指数多的Y展开求和,因此时间复杂度极高。为的是化解那个难题,我们提出透过图4所示的EM算法来同时自学P和P的平均场近似Q。在那个算法中,E-step和M-step交替展开。E-step中我们固定P和能量函数,只计算P的最优平均场近似Q(最小化P和Q的KL散度)。在M-step中,我们固定Q不动,转而透过优化统计数据似然值的证据下界(Evidence Lower Bound)来自学数学模型参数。

图4: 用于联合自学能量函数和平均场近似的EM算法

实验结果

我们首先在一个带有真实标签的统计数据集上比较了我们的数学模型和已有数学模型的准确性。除已有数学模型,我们还加入了我们的数学模型的三个变体。一个只包含了我们算法中的E-step,另一个则是实用伪似然来展开自学。比较结果如表1表2所示。可以看到我们的数学模型表现显著超越了已有数学模型和自身变体。

我们进一步在一个新冠新闻相关的twitter统计数据集上做了检验。由于那个统计数据集很新,所以没有真实标签。因此无法展开计算准确率和展开对比。但是我们仍对检验结果展开了一定的分析。图5展现了我们检验出的疑似不实帐号的主要回应话题和其余帐号的主要回应话题。可以看出二者之间的显著差异。

表1: 无监督自学的结果

表2: 半监督自学(提供5%的用户标签)的结果

图5:疑似不实帐号群体的主要可视化话题(左)和其余用户的主要可视化话题(右)

未经允许不得转载:百万个冷知识 » 干货!VigDet:一种结合领域知识和数据驱动的虚假账号检测(干货加盟店哪个品牌好,贵阳干货批发店在哪里)
分享到: 更多 (0)

热门推荐

百万个冷知识 带给你想要内容

联系我们