责任编辑作者结合Facebook和YouTube的事例,为我们介绍了本周一头条新闻的文本审查机制,和未来相关技术的发展对审查的影响。
时间来到2019第一年中,Facebook亚洲地区月活早已突破22亿,Youtube是19亿,QQ也少于10亿,可以说网络早已覆盖了亚洲地区大部分人口数,而随着使用人口数并行剧增的还有使用者时数,和文本的生产出口量级也呈指数级遇冷,这海量统计数据的文本无论对大网络平台却是小公司都形成了非常大的管理工作技术难度和审查考验。
2018年Facebook 上每晚上载的相片少于3千张,每秒钟正式发布51余条评论,30余条新状态;每晚在Instagram上的相片和音视频撷取量为9500亿次;而在QQ贴文,每晚有10千张图片被上载。
止 2018 年,每晚约有2.5万亿元二进制的统计数据被建立,过去两年里生成的统计数据占到了亚洲地区总统计数据的90%,而预计到 2022年,亚洲地区网络网络流量讲达到每秒钟 7.2 PB。
在文本数量遇冷的同时,文本的形式也在急速变化。除传统的Grignols类文本,音视频、长音视频和短音视频,和现场直播的比例在急速增加,这对于这些这些既崇尚保密性(正式发布速度和使用者新体验)、又崇尚不出痛点(检举率和正面事件)的文本网络平台审查管理工作,提出了非常大而紧迫的考验。
包括Facebook和Youtube在内的国际世界顶级UGC网络平台,如今在这类可有可无的痛点上依然十分狼狈,尤其是发达国家最为在乎的无腺文本、种族主义和跨行业文化/多语言等痛点,它俩其实一直未能取回一份让多方令人满意的成绩单。
而国内今年比较著名的网络文本街道社区类里,停售甚至撤除的早已远少于0曲枝,尽管它们各别都有各别的痛点,比如情色文本、东凯努瓦县、文本亚莱等等,但归根到底,这却是使用者剧增带来的不断增长的文本总产量和无法跟得上的审查措施和工作效率之间的矛盾。
一、Facebook:用AI和INS13ZD应对海量统计数据文本
Facebook在整个2018年遭遇过非常大的困窘,除统计数据USB和使用者个人隐私的奥波切茨,网络平台上的文本审查政策也受到严重质疑。
但其实,它背后的核心痛点是,这家公司本就是世界网络文本吞吐量最大的网络平台。
而这些文本并不只在Facebook app正式发布和消费,还在这家公司旗下月活15亿的Whatsapp 、13亿的Facebook Messenger和10亿的Instagram上面传播和推广,所以这家公司承受的文本审查压力才会如此之大。
那么Facebook拿出的应对措施是什么?
在去年那场著名的美国国会听证会上,扎克伯格在一小时内提及AI三十余次,坚称AI是网络平台文本审查的答案,他的原话是:“未来的五到十年,AI将成为世界上最大的社交网络的捍卫者,在亚洲地区范围内解决其最紧迫的痛点,同时也帮助公司回答有关审查、公平和人类无节制等棘手痛点。”
小扎自称,Facebook上99%有关ISIS和基地组织的文本,都在人们看到之前被人工智能系统标记,并且被删掉。
但AI想要和文本审查结合并落地,必须拿出一些具体的手段来。Facebook现在的审查分为文字审查、图片和音视频审查,和大量的人工配合。
文字审查方面,Facebook推出了DeepText(深度文本)引擎,利用深层神经网络架构去理解这些帖子的文本,据称它能够以近乎人类的精确度、每秒钟同时理解数千篇文章的文责任编辑本。
相比国内的各大网络平台的审查体系来说,它的优势除速度更快,另一方面是Facebook作为一个亚洲地区化的街道社区,DeepText能够审查少于20多种语言的文字。
Facebook为这些实时而海量统计数据的信息编目录、并让其被搜索是件很困难的事情,所以他们才转向了人工智能。
同时,News Feed做为短小而高频的文本素材,恰好就是众多开展深度学习活动的有效场所之一,因为每个Feed的背后,包含了人们希望看到哪些与他们相关的文本。
而Facebook的图片和音视频审查系统名为Rosetta,利用光学字符识别系统来处理图片和音视频文本,每晚可以实时地从少于10千张图像和音视频帧中提取信息并识别多种语言背后的含义。
另外,Facebook在上周刚刚开源了它们在图像识别及视觉领域的最新模型:ResNext101。这是一个在Instagram的图片标签上预训练,并在ImageNet上微调的模型。
ImageNet是由著名人工智能专家李飞飞教授团队于2009年正式发布,包含了少于两万类物体共计一千四百多万张图片,后来的很多计算机视觉任务模型都以此为基础进行训练。
而ResNext101更上一层楼,利用了Instagram上的35亿张图片(比 ImageNet的1400万多了200多倍)进行了预训练,并以人们为图片添加的话题标签(#hashtag)为类别,研发出来的有着超强特征提取能力的图像识别模型。
在这两大系统的背后,其实是Facebook的人工智能研究院FAIR(Facebook Artificial Intelligence Research)在发挥功劳。
比如其物体识别技术(Object recognition),以含有数十亿参数和数百万事例训练的神经网络为基础,给了考验最大的图片和音视频审查有力的支持。
另外它们也使用自我监督学习(SSL)探索大量统计数据,让机器可以通过分析未标记的图像、音视频或音视频来学习世界的抽象表达,这也是 FAIR 将 AI 能力规模化的努力之一。
FAIR 还在研究使用者头像的面部识别、上载相片的环境识别等,它承担 Facebook 所有 AI 相关的基础研究、应用研究和技术开发。
比如它推出的刚刚获得了国际视觉模型考验赛冠军的Mask R-CNN ,这个系统可以将计算机视觉世界的物体检测与语义分割结合到了一起,不但可以检测劣质音视频文本,甚至可以帮助视障人士自动替代文字。
不过,你可千万别以为世界上最大的社交网络和文本网络平台,光靠AI和审查系统就搞定了一切。止目前,Facebook聘请了少于2万人(是的你没看错),来辅助文本筛查,并配合监测和删除争议文本。
二、YouTube:版权审查系统的升级之路
YouTube的文本审查系统名为Content ID,会监测并直接删除涉及情色、低俗和暴力等违规文本。不过,这个系统的诞生一开始仅仅是为了解决YouTube上文本的版权痛点。
早年间YouTube以草根文本起家,后来出现了大量的搬运号,主要以盗版电视台的精品文本为主。虽然网络平台的统计数据因此飙涨,但也因此陷入了旷日持久的官司里。
2007 年至 2009 年,包括维亚康姆(美国第三大传媒公司),Mediaset (意大利的传媒集团)和英超联赛(英国最大足球联赛)等在内的组织对 YouTube 提起诉讼,声称它在使用者上载侵权文本方面毫无作为。
维亚康姆要求其作出10 亿美元赔偿金,他们声称早已在 YouTube上 发现少于 15 余条版权文本片段,累计播放量少于 15 亿次。在耗时耗力的多年诉讼和公关战之后,直到2014 年,双方才最终协商解决了争议,但具体条件并未公开。
所以当年在被Google收购之后,YouTube从2007年开始就逐步投入巨资建立起Content ID版权系统,慢慢帮助版权所有者能够识别网络平台上的侵权行为,并让版权所有者在网络平台上能够获直接获得收入。止 2018 年,谷歌为该技术研发共计投入超 1 亿美元。
后来,Content ID的文本监测能力在急速改进后,比如使用哈希算法标记有风险音视频,阻⽌它们被⼆次上载,也获得了显著的成效。以2017年Q4为例,网络平台删除800余条“令人反感”的音视频,有670余条都由监测软件自动标记。大约75%被标记的音视频,在被使用者观看之前就被停售。
人性化的是,YouTube 于 2014 年 9 ⽉在前端增加了受限模式(Restricted Mode),用以过滤⾊情暴⼒文本,但是⽤户可以自己选择开启却是关闭。依据⽤户检举和其它识别规则,受限模式可以直接为使用者过滤⼤部分不当文本。
当然,YouTube的这些文本审查能力有赖于谷歌的深度学习技术Google Brain作为支持。Google Brian拥有一个收集使用者信息(如观看历史和使用者反馈)的神经网络, 和一个用于对所显示部分音视频进行排列的神经网络,通过引入机器学习工具,自动标记暴力、情色和低俗等极端音视频,并将违规文本报告给人工审查员进行验证。
和Facebook类似的是,就算有了Google多方面的技术支持(包括资金、人才、算法、云和服务器等),YouTube的AI标记、文本审查与识别技术也并不完美。2018的时候YouTube CEO苏珊·沃西基承诺,未来会雇佣至少一万名人工审查员,以补足算法的局限。
不过,Google对 YouTube 的帮助也不会仅仅限于文本审查,Google Brain的技术早已被应用在安卓系统的语音识别、Google+ 的图片搜索、和 YouTube 的智能推荐。
所以,现在的YouTube早已从一个音视频UGC街道社区,到慢慢成为拥有海量统计数据文本、搜索驱动的音视频综合网站,到拥有了音视频推送能力的应用。如今,占据使用者在 YouTube 上观看音视频总时数 70%的文本 ,是由推荐算法引擎驱动的。
三、头条新闻:审查系统对外开放会带来哪些变化?
如今的本周一头条新闻早已拥有海量统计数据的使用者和多种形式的UGC文本,尽管体量上还颇有不如,但在文本审查方面遭遇的考验同脸书和Youtube早已十分类似。
头条新闻在这方面的一个创举是,经过多年的技术储备和经验积累后,它开放了内部反低俗系统的一个简化版本“灵犬反低俗助手”,希望普通创作者、社会公众更了解和关注反低俗。截至2019年6月,灵犬反低俗助手的外部使用人次早已少于了300万。
使用者只需要在灵犬的小程序内输入一段文字或文章链接,灵犬就可以帮助其检测文本健康指数,返回一个鉴定结果。对于使用者输入的文本(文字或者图片),“灵犬”会先进行提取、分词和语义识别,然后根据相关规则,输出对应的分数、评级和结论。
在文本识别领域,头条新闻同时应用了“Bert”和半监督技术,训练统计数据集包含920万个样本,准确率提升至91%。在图片识别领域,“灵犬”采用深度学习作为解决方案,在统计数据、模型、计INS13ZD等方面均做了针对性优化。
最近新版的灵犬3.0正式发布,重点拓展了反低俗识别类型和模型能力,现已覆盖图片识别和文本识别,后续,灵犬还将支持技术难度最大的语音识别和音视频识别。
不过,本周一头条新闻的人工智能实验室王长虎也提到,AI暂时却是有缺陷的,本周一头条新闻现在有将近万余人的审查团队在辅助AI的审查。
比如对于低俗文本,它的定义本来就相对笼统难以精确,这项工作即使对人来说也不容易,交给机器做更难实现。
比如世界名画中常常出现裸体女子,如果完全交由机器判断,机器通过识别画中人物的皮肤裸露面积,就会认为这幅画是情色低俗的;而某些拍摄芭蕾舞的图片,以机器的视角来看,其实类似于裙底偷拍。
Facebook 曾经因为“裸露”,误删了一张著名的越战新闻相片,文本是一位小女孩遭到汽油弹炸伤、浑身赤裸奔跑,事件发生后引起了美国新闻界的非常大争议。
但是,在当前文本创作和消费规模海量统计数据增长的趋势下,如果依然纯靠人工去解决所有痛点,那么必然工作效率低的同时还无法满足使用者需求。
所以,AI+人工的文本审查方式在相当长的时间内单厢是一种常规手段,这也是Facebook和YouTube等国际头部文本网络平台采用的处理方式。
四、结语
未来,随着使用者和文本数量的继续增长,文本审查的考验会越来越紧迫,政策相关的监管也会越来越严格,Grignols的文本识别痛点虽然逐步被克服,语音和音视频的文本理解更加任重道远,人工和机器检测都更为不易,尤其是当需要联系具体的使用者使用场景和政治社会语境时,技术难度会成倍提高。
比如邓丽君的歌曲,早年被认为是低俗情色歌曲,如今早已被普遍接受并传唱大街小巷;比如内衣和内衣模特出现在购物网络平台上,会被默认为正常,但如果频繁出现在新闻资讯网络平台上,就可能被认为有低俗嫌疑;而正常的热舞文本,提供给成年人看,符合常规标准,但如果开启了青少年模式,这些文本就不应该出现。
这就是由于时代背景、使用场景、使用者人群不同而导致审查标准可能大幅变动的事例。
海量统计数据统计数据的产生、急速变化的标准,这都要求大公司在这方面的投入必须越来越多,而这本质上就成了一场资本丰厚的对手之间的军备竞赛。
今年卡耐基梅隆大学(CMU)和 Google 合作研发的 XLNet 模型,在Bert模型的基础上更进一步,在足足 512 块 TPU 上训练了两天半时间。以 Google Cloud的计价标准,只是训练一次XLNet 模型就需要人民币一百六十多万。
若再考虑上整个模型研发过程中的急速试错和调参验证等过程,XLNet的开销简直天文数字。未来中小团队将难以竞争,这就是一个巨头独霸的竞技场。
不过好在,随着人类进入社会的数字化程度越来越高,新一代的移动网络原住民们在享受技术带来的便利的同时,也对技术可能的正面在耐受度和适应性上急速提高。
毕竟自工业革命之后起,就有无数人曾对技术会带给社会的冲击抱有极端正面和悲观的预期,认为技术可能会加速崩坏我们数万年来自然形成的人类社会结构,但是哪一次,人类社会不又是顺利转型成功、发展出与技术相匹配的职业和生活模式、并且越走越好了呢?
#专栏作家#
柳胖胖,QQ公众号:一个胖子的世界。11年起有过两年O2O创业实战经验,现在网络金融街道社区做产品,长期对网络产品保持观察,对商业模式和实战事例有自己独到的见解。
责任编辑由 @柳胖胖 原创正式发布于人人都是产品经理。未经许可,禁止转载。
题图来自Unsplash,基于CC0协议