双语网站系统,绍兴网络科技有限公司,网站建设 探索,毕业设计除了网站还可以做啥2018年#xff0c;谷歌发布了BERT#xff08;来自transformers的双向编码器表示#xff09;#xff0c;这是一种预训练的语言模型#xff0c;在一系列自然语言处理#xff08;NLP#xff09;任务中对SOTA结果进行评分#xff0c;并彻底改变了研究领域。类似的基于变压器…2018年谷歌发布了BERT来自transformers的双向编码器表示这是一种预训练的语言模型在一系列自然语言处理NLP任务中对SOTA结果进行评分并彻底改变了研究领域。类似的基于变压器的模型如Open AI的GPT-2和百度的ERNIE也紧随其后。2019年10月Facebook AI推出了BART这是一种新的文本生成和理解预训练模型使用双向和自回归方法。
现在Facebook AI研究人员通过引入mBART进一步开发了BART模型他们说这是第一种方法通过对多种语言的全文进行去噪以进行机器翻译从而预训练完整的序列到序列模型。
机器翻译可以简要描述为自动将一种语言的文本转换为另一种语言。对于大多数当前的机器翻译方法只能对某些模型组件进行预训练例如编码器和解码器。功能也很有限因为大多数模型只能重建部分文本或只关注英语语料库。Facebook AI研究小组提出的新方法显示由于添加了预训练的自回归模型跨多种语言的翻译性能显着提高。
对于任何预训练的模型“预训练”过程的质量至关重要。Facebook研究人员使用了从25种语言的通用爬行语料库CC25中提取的数据集作为子集并根据CC25中每种语言的百分比进行了上/下采样。然后使用句子片段模型SPM对文本语料库进行标记化该模型实现了子单词单元并扩展了行语句的直接训练。
在不同的语言集上预训练了具有12个编码器层和12个解码器层的BART模型。最终的模型被命名为mBARTNum其中“Num”表示用于训练的语言数量以及Random这是一个在没有预训练的情况下随机初始化的基线模型。 然后通过将源语言输入编码器并解码目标语言对这些预训练模型在24对公开可用的并行语料库上分别进行微调。模型的机器翻译质量是根据微调的BLEU评分双语评估替补进行评估的该评分是通过将句子级机器翻译结果与一组人工参考翻译进行比较来计算的。 结果肯定是有希望的因为mBART25模型的表现明显优于随机模型。一个有趣的观察结果是当用于微调的数据集超过2500万个并行句子时这会“损害”模型的性能。研究人员怀疑监督训练可能会“洗掉”预训练的好处。 除了直接BLEU测试外研究人员还通过计算回译将目标语言翻译回源语言的BLEU分数来评估模型的翻译能力。这些结果也提供了信息因为BLEU分数显示整个回译过程中句子翻译质量有所提高。
与现有型号相比新的 mBART 模型具有许多优势。在预训练步骤中mBART 使用所有可能的语言进行训练这提供了一组参数可以针对任何训练形式的任何未来语言对进行微调包括有监督和无监督。预训练步骤还减少了未来的训练和微调步骤成本——尽管预训练步骤本身很昂贵。
在未来的工作中研究人员计划扩大语言库并通过合并更多语言的训练数据集来进行大规模的预训练。
论文《神经机器翻译的多语言去噪预训练》发表在arXiv上。