百万个冷知识百万个冷知识

百万个冷知识
一起学习百万个冷知识

Facebook推出不用英语即可翻译100种语言的AI模型(facebook语言设置)

Facebook AI 将面世 M2M-100,这是第一个多词汇用例(MMT)数学模型,它能在 100 种词汇中的任一三种间展开译者,而无须倚赖英文统计数据。M2M-100 一共体能训练了 2200 个词汇路径,Hardoi前最合适的以英文为服务中心的多词汇数学模型多了 10 倍。布署 M2M-100 能为数千万人提升译者产品质量,不光是这些采用低天然资源词汇的人。

责任编辑最初正式发布于 Facebook 官方网站,由 InfoQ 英文站译者并撷取。

Facebook AI 将面世 M2M-100,这是第一个多词汇用例(MMT)数学模型,它能在 100 种词汇中的任一三种间展开译者,而无须倚赖英文统计数据。它是开放源码的。在译者时,比如中拼法,大多数以英文为服务中心的多词汇数学模型都展开中译英和英拼法三种体能训练,因为英文体能训练统计数据采用最广为。他们的数学模型间接在中拼法统计数据上展开体能训练,以期更快地保留意义。在赞扬用例时广为采用的 BLEU 测度标准下,它Hardoi英文为服务中心的控制系统略低 10 分。M2M-100 一共体能训练了 2200 个词汇路径,Hardoi前最合适的以英文为服务中心的多词汇数学模型多了 10 倍。布署 M2M-100 能为数千万人提供更多更高产品质量的译者,不光是这些采用低天然资源词汇的人。这一划时代成就得力于 FacebookAI 多年来在用例领域开展的关键性工作。在责任编辑中,他们将详细撷取他们如何为 100 种词汇构筑更多元化的 MMT 体能训练统计数据集和数学模型。他们还正式发布了数学模型、体能训练和评估结果增设,以帮助其他科学研究人员重现和进一步增强多词汇数学模型。

通过用例(MT)冲破词汇障碍,是将现代人联系在一起、提供更多关于COVID-19 的权威性信息、让现代人避开有毒文本的最重要的方式之一。如今,得力于他们在低天然资源词汇用例各方面以及译者产品质量评估结果各方面的韦谢列,他们平均每天在Facebook 新闻订户中处置200 万次译者。

现代的MT 控制系统须要为五种词汇和五种任务构筑原则上的人工智能数学模型,但在Facebook,这种方法无法有效地扩充。在Facebook 上,现代人在数千万个回帖中正式发布的文本采用了超过160 种词汇。XT736PA多词汇控制系统能同时处置多种词汇,但倚赖英文统计数据来填补源词汇和目标词汇间的差别,因而在准确度上有所损失。他们须要一种多词汇用例(MMT)模式,能译者任何人词汇,以期更快地服务于他们的街道社区,在这个街道社区中,近三分之一的人采用英文以外的词汇。

经过Facebook 多年MT 科学研究的积累,他们很高兴地宣布了一个重要的里程碑式:第一个能在任何人路径上间接译者100*100 种词汇的单个大型MMT 数学模型,而且不倚赖桑翁英文为服务中心的统计数据。他们的单个多词汇数学模型的性能和现代的中英文数学模型一样好,并且BLEU 罚球Hardoi英文为服务中心的多词汇数学模型提升了10 分。

通过采用新的挖掘策略来创建译者统计数据,他们构筑了第一个真正的“多对多”统计数据集,包含100 种词汇的75 亿个句子。他们采用多种扩充技术构筑了一个具有150 亿个参数的通用数学模型,它从相关词汇中获取信息,反映出更多元化的词汇和词法。他们正在开放源码这项工作。(视频)

从数以亿计的句子中挖掘成千上万的词汇路径

构筑多对多MMT 数学模型的最大障碍之一是为任一不涉及英文的译者路径管理大量高产品质量的句对(也称为平行句)。从英文到英文、从英文到法文的译者要比从法文到英文容易得多。更重要的是,体能训练所需的统计数据量会随着他们所支持的词汇数量的增加而呈平方增长。例如,如果他们每个路径须要10M 对句子,那么他们须要挖掘10 种词汇的1B 对句子,100 种词汇就是100B 对句子。

他们接受了这个艰巨的挑战,即构筑迄今为止最多元化的多对多MMT 统计数据集:跨100 种词汇的75 亿对句子。这能通过组合多年来一直在发展的、互补的统计数据挖掘天然资源来实现,包括 ccAligned 、 ccMatrix 和 LASER 。作为这项工作的一部分,他们创建了一个新的 LASER 2.0,并改进了 fastText 词汇识别,它提升了挖掘产品质量,并加入了开放源码体能训练和评估结果脚本。他们所有的统计数据挖掘天然资源都利用了公开可用的统计数据,并且都是开放源码的。

近年来,Facebook AI 在 MT 领域开展了许多涉及突破性数学模型、统计数据挖掘天然资源和优化技术的开创性工作,这次新面世的多对多多词汇数学模型就是这些工作的一个巅峰。这个时间表重点介绍了一些值得注意的成就。此外,他们通过挖掘ccNET 创建了大量的体能训练统计数据集,ccNET 建立在 fastText (他们在处置单词表示各方面所做的开创性工作)、CCMatrix LASER 库(将句子嵌入到多词汇嵌入空间)和 CCAligned(基于 URL 匹配对齐文档的方法)之上。作为这项工作的一部分,他们创建了 LASER 2.0,改进了从前的结果。

尽管如此,即使采用像 LASER 2.0 这样的高级底层技术,为 100 种不同词汇的任一组合(或 4450 种可能的词汇对)挖掘大规模体能训练统计数据也须要高度密集的计算。为了使这种规模的挖掘更易于管理,他们首先关注译者需求最多的词汇。因此,他们以统计数据产品质量最高和统计数据量最大的路径作为优先挖掘路径。他们避开了统计上很少须要译者的路径,比如冰岛语到尼泊尔语或僧伽罗语到爪哇语。

接下来,他们引入了一种新的桥梁挖掘策略,在该策略中,他们根据词汇类别、地理和文化相似性将词汇分组为 14 个词汇组。生活在同语系国家的现代人往往更经常交流,并将受益于高产品质量的译者。例如,一个词汇组包括在印度采用的词汇,如孟加拉语、印地语、马拉地语、尼泊尔语、泰米尔语和乌尔都语。他们控制系统地挖掘每一组中所有可能的词汇对。

为了连接不同组的词汇,他们确定了少量的桥梁词汇,通常是每个词汇组中的一到三种主要词汇。在上面的例子中,印地语、孟加拉语和泰米尔语是印度雅利安语的桥梁词汇。然后,他们为这些桥梁词汇的所有可能组合挖掘并行体能训练统计数据。使用这种技术,他们的体能训练统计数据集最终包含 75 亿个平行句的统计数据,对应 2200 个路径。由于挖掘的统计数据能用于体能训练给定词汇对的两个路径(例如,en->fr 和 fr->en),他们的挖掘策略能帮助他们有效地稀疏挖掘,以期最合适地在一个数学模型中覆盖所有的 100×100 个路径(一共 9900)。

为了补充低天然资源、低译者产品质量的词汇的并行统计数据,他们采用了流行的反向译者方法,这种方法帮助他们在 2018 年和 2019 年的 WMT 国际用例比赛中获得了第一名。例如,如果他们的目标是体能训练一个中法译者数学模型,他们首先要体能训练一个法中译者数学模型,然后把所有的法语单语统计数据译者成合成的、反向译者的英文。他们发现,当将数亿个单语句子译者成并行统计数据集时,这种方法在规模很大时不光有效。在他们的科学研究环境中,他们采用反向译者来补充他们已经挖掘的体能训练路径,将合成的反向译者统计数据加入到挖掘的并行统计数据中。他们采用反向译者来为从前的无监督路径创建统计数据。

总的来说,在100 个反向译者路径上,桥梁策略和反向译者统计数据相结合比原则上采用挖掘统计数据的体能训练BLEU 分值平均提升了1.7。有了更健壮、高效、高产品质量的体能训练集,他们就有了构筑和扩充多对多数学模型的坚实基础。

他们还在零样本增设下发现了令人印象深刻的结果,这种情况下的词汇对没有体能训练统计数据。例如,如果一个数学模型在法语- 英文统计数据集和德语- 瑞典语统计数据集上展开了体能训练,他们就能在法语和瑞典语间展开零样本译者。在必须实现非英文路径间的零样本译者的情况下,他们的多对多数学模型Hardoi英文为服务中心的多词汇数学模型要好得多。

将MMT 数学模型扩充到150 亿个参数,并且速度快、产品质量高

多词汇译者中的一个挑战是,单个数学模型必须从许多不同的词汇和文本中捕获信息。为了解决这个问题,他们看到,扩充数学模型容量和添加特定于词汇的参数有明显的好处。扩充数学模型大小对于高天然资源词汇对不光有帮助,因为它们有最多的统计数据能用来体能训练额外的数学模型容量。最终,他们看到,当数学模型大小密集扩充到120 亿个参数时,在所有词汇路径上的BLEU 分值平均提升了1.2,此后进一步扩充,效果就开始下降了。密集扩充和特定于词汇的稀疏参数(32 亿)相组合使他们能够创建一个拥有150 亿参数的更快的数学模型。

他们将他们的数学模型与中英文基线和以英文为服务中心的多词汇数学模型展开比较。他们从12 亿参数基线开始,其中包含24 个编码器层和24 个解码器层,将以英文为服务中心的数学模型与他们的M2M-100 数学模型展开比较。接下来,如果他们将120 亿个参数与12 亿个参数展开比较,他们看到BLEU 分值提升了1.2。

为了增加数学模型的大小,他们增加了Transformer 网络的层数以及每一层的宽度。他们发现,大型数学模型收敛速度快,体能训练时的统计数据效率高。值得注意的是,这个多对多控制系统是第一个利用 Fairscale 的控制系统,这个新的 PyTorch 库是专门为支持管道和张量并行而设计的。我们构筑了这个通用的基础设施,通过将数学模型并行化到 Fairscale,以适应无法在单个 GPU 上运行的大型数学模型。为了体能训练大规模数学模型,他们以 ZeRO 优化器、层内数学模型并行和管道数学模型并行为基础展开了构筑。

但仅仅将数学模型扩充到数千万个参数是不够的。为了未来能够在生产中应用这种数学模型,他们须要通过高速体能训练来尽可能高效地扩充数学模型。例如,为了生成译者,现有的许多工作都采用多数学模型集成,即对多个数学模型展开体能训练,并将其应用于同一源句。为了降低体能训练多个数学模型的复杂性和所需的计算量,他们科学研究了多源自集成技术,它能将同一源句译者成多种词汇以提升译者产品质量。此外,他们的工作是以 LayerDrop 和深度自适应为基础展开构筑,共同体能训练一个具有公共主干和不同词汇特定参数集的数学模型。这种方法非常适合多对多数学模型,因为它提供更多了一种自然的方法,按词汇对或词汇族划分数学模型的各个部分。通过将数学模型容量的密集扩充与特定于词汇的参数(一共3B)相结合,他们提供更多了大型数学模型的好处,以及学习不同词汇专用层的能力。

为所有人构筑多词汇数学模型之路

多年来,人工智慧科学研究人员一直致力于构筑一个单个的通用数学模型,该数学模型能理解不同任务中的所有词汇。一个支持所有词汇、方言和模式的单个数学模型将帮助他们更快地为更多人服务,保持译者及时更新,为数千万人创造同等的新体验。这项工作使他们距离这个目标更近了。

作为这项工作的一部分,他们已经在预体能训练词汇数学模型、调优和自监督技术各方面看到了令人难以置信的快速进步。这种公共科学研究能进一步改善他们控制系统采用未标记统计数据理解低天然资源词汇文本的方式。例如, XLM-R 是他们强大的多词汇数学模型,它能从一种词汇的统计数据中学习,然后在 100 种词汇中执行一项任务。 mBART 是为多词汇 BART 任务预体能训练完整数学模型的最早的方法之一。最近,他们新开发的自监督方法 CRISS,采用来自许多不同词汇的未标记统计数据来挖掘不同词汇间的并行句,并以迭代的方式体能训练新的、更快的多词汇数学模型。

他们将继续通过整合这些前沿科学研究来改进他们的数学模型,认真探索布署 MT 控制系统的方法,并创建更专业的计算架构来将其投入生产应用。

英文原文:

https://about.fb.com/news/2020/10/first-multilingual-machine-translation-model/

延伸阅读:

Facebook 开放源码人工智慧数学模型 RAG:可检索文档以回答问题-InfoQ

K8s和YARN都不够好,全面解析Facebook自研流处置服务管理平台-InfoQ

他们用React重构了Facebook.com的技术栈-InfoQ

关注我并转发此篇文章,私信我“领取资料”,方可免费获得InfoQ价值4999元迷你书,点击文末「了解更多」,方可移步InfoQ官方网站,获取最新资讯~

未经允许不得转载:百万个冷知识 » Facebook推出不用英语即可翻译100种语言的AI模型(facebook语言设置)
分享到: 更多 (0)

百万个冷知识 带给你想要内容

联系我们