当前位置: 首页 > news >正文

套用模板网站网站做信用认证有必要吗

套用模板网站,网站做信用认证有必要吗,互联网广告平台有哪些,网站 流量攻击怎么办摘要 预训练语言模型在自然语言处理中已无处不在。尽管这些模型取得了成功#xff0c;但大多数可用模型要么是在英语数据上训练的#xff0c;要么是在多种语言数据拼接的基础上训练的。这使得这些模型在除英语以外的所有语言中的实际应用非常有限。本文探讨了为其他语言训练…摘要 预训练语言模型在自然语言处理中已无处不在。尽管这些模型取得了成功但大多数可用模型要么是在英语数据上训练的要么是在多种语言数据拼接的基础上训练的。这使得这些模型在除英语以外的所有语言中的实际应用非常有限。本文探讨了为其他语言训练基于Transformer的单语语言模型的可行性并以法语为例评估了我们的语言模型在词性标注、依存句法分析、命名实体识别和自然语言推理任务上的表现。我们表明使用网络爬取的数据优于使用维基百科数据。更令人惊讶的是我们发现相对较小的网络爬取数据集4GB能够带来与使用更大数据集130GB相当的结果。我们表现最好的模型CamemBERT在所有四个下游任务中达到或改进了现有技术水平。 1 引言 预训练词表示在自然语言处理NLP中有着悠久的历史从非上下文相关的表示Brown等1992Ando和Zhang2005Mikolov等2013Pennington等2014到上下文相关的词嵌入Peters等2018Akbik等2018。词表示通常通过在大规模文本数据上训练语言模型架构获得然后作为输入提供给更复杂的任务特定架构。最近这些专门的架构已被大规模预训练语言模型完全取代这些模型针对每个应用进行微调。这一转变使得在广泛任务中的性能得到了大幅提升Devlin等2019Radford等2019Liu等2019Raffel等2019。 这些迁移学习方法相较于传统的任务特定方法具有明显的优势。特别是它们可以以无监督的方式进行训练从而利用大量原始文本中的信息。然而它们也带来了实施上的挑战即预训练所需的数据量和计算资源可能需要数百GB的文本和数百个GPUYang等2019Liu等2019。这限制了这些最先进模型在单语环境中的可用性尤其是英语以外的语言。这尤其不便因为它阻碍了它们在NLP系统中的实际应用也阻止了我们研究它们的语言建模能力例如在形态丰富的语言中的表现。 尽管多语言模型取得了显著成果但它们通常更大并且其结果如我们将在法语中观察到的在高资源语言上可能落后于单语模型。为了复现和验证迄今为止仅在英语中获得的结果我们利用新发布的多语言语料库OSCAROrtiz Suárez等2019训练了一个法语单语语言模型称为CamemBERT。我们还训练了不同版本的CamemBERT使用不同规模和风格多样性的较小语料库以评估这些参数对下游任务性能的影响。CamemBERT使用了RoBERTa架构Liu等2019这是高性能且广泛使用的BERT架构Devlin等2019的改进版本。 我们在法语的四个不同下游任务上评估了我们的模型词性标注POS、依存句法分析、命名实体识别NER和自然语言推理NLI。CamemBERT在所有四个任务中相比之前的单语和多语言方法包括mBERT、XLM和XLM-R改进了现有技术水平这证实了大规模预训练语言模型在法语中的有效性。 我们的贡献可以总结如下 • 首次发布了基于RoBERTa架构的法语单语模型使用了最近引入的大规模开源语料库OSCAR并且是BERT原作者之外首次为英语以外的语言发布如此大规模的模型。该模型在MIT开源许可证下公开发布。 • 我们在四个下游任务上取得了最先进的结果词性标注、依存句法分析、命名实体识别和自然语言推理证实了基于BERT的语言模型在法语中的有效性。 • 我们证明了小型且多样化的训练集可以达到与大规模语料库相似的性能通过分析预训练语料库在规模和领域方面的重要性。 2 相关工作 2.1 上下文语言模型 从非上下文到上下文词嵌入 最早的神经词向量表示是非上下文化的词嵌入最著名的是word2vecMikolov等2013、GloVePennington等2014和fastTextMikolov等2018它们被设计为任务特定神经架构的输入。上下文词表示如ELMoPeters等2018和flairAkbik等2018通过考虑上下文提高了词嵌入的表示能力。它们通过处理词语的多义性在许多任务上提高了模型性能。这为更大规模的上下文模型铺平了道路这些模型在大多数任务中完全取代了下游架构。这些方法以语言建模为目标进行训练范围从基于LSTM的架构如Dai和Le2015到成功的基于Transformer的架构如GPT2Radford等2019、BERTDevlin等2019、RoBERTaLiu等2019以及最近的ALBERTLan等2019和T5Raffel等2019。 非英语上下文模型 随着大规模预训练语言模型的成功它们被扩展到多语言环境中如多语言BERT以下简称mBERTDevlin等2018这是一个针对104种不同语言的单一多语言模型基于维基百科数据训练以及后来的XLMLample和Conneau2019它显著改进了无监督机器翻译。最近的XLM-RConneau等2019通过在2.5TB数据上训练扩展了XLM并在多语言基准测试中超越了之前的分数。研究表明多语言模型可以通过利用其他语言的高质量数据在特定下游任务上获得与单语模型竞争的结果。 一些非英语单语模型已经发布日文、葡萄牙文、德文和巴斯克文的ELMo模型以及简体中文、繁体中文Devlin等2018和德文Chan等2019的BERT模型。 然而据我们所知尚未有针对英语以外的语言训练与最新英语模型如RoBERTa在超过100GB数据上训练规模相当的模型的特别努力。 BERT和RoBERTa 我们的方法基于RoBERTaLiu等2019而RoBERTa本身基于BERTDevlin等2019。BERT是一个多层双向Transformer编码器通过掩码语言建模MLM目标进行训练灵感来自Cloze任务Taylor1953。它有两种规模BERTBASE架构和BERTLARGE架构。BERTBASE架构规模较小因此更快且更易于使用而BERTLARGE在下游任务中实现了更高的性能。RoBERTa通过识别关键设计选择改进了BERT的原始实现使用动态掩码、移除下一句预测任务、以更大的批次训练、在更多数据上训练以及训练更长时间。 3 下游评估任务 在本节中我们介绍了用于评估CamemBERT的四个下游任务即词性标注POS、依存句法分析、命名实体识别NER和自然语言推理NLI。我们还介绍了用于比较的基线方法。 任务 词性标注是一项低级别的句法任务旨在为每个词分配其对应的语法类别。依存句法分析则是预测带标签的句法树以捕捉词之间的句法关系。 对于这两项任务我们使用通用依存关系UD框架及其对应的UD词性标注集Petrov等2012和UD树库集合Nivre等2018进行实验这些数据被用于CoNLL 2018共享任务Seker等2018。我们在UD v2.2中的四个免费法语UD树库上进行评估GSDMcDonald等2013、SequoiaCandito和Seddah2012Candito等2014、SpokenLacheret等2014Bawden等2014和ParTUTSanguinetti和Bosco2015。表1简要概述了每个树库的规模和内容。 我们还在命名实体识别NER任务上评估了我们的模型NER是一项序列标注任务旨在预测哪些词指代现实世界中的对象如人物、地点、物品和组织。我们使用了2008年版本的法国树库FTBAbeillé等2003该版本由Candito和Crabbé2009引入并由Sagot等2012添加了NER标注。FTB包含超过1.1万个实体提及分布在7种不同的实体类型中。表1中还简要概述了FTB的内容。 最后我们使用XNLI数据集Conneau等2018的法语部分在自然语言推理NLI任务上评估了我们的模型。NLI任务旨在预测一个假设句子是否与前提句子存在蕴含、中立或矛盾的关系。XNLI数据集是Multi-Genre NLIMultiNLI语料库Williams等2018的扩展通过将验证集和测试集手动翻译成15种语言。英语训练集则通过机器翻译为其他语言。该数据集包含每种语言的12.2万条训练样本、2490条开发样本和5010条测试样本。通常NLI任务的性能通过准确率进行评估。 基线方法 在依存句法分析和词性标注任务中我们将我们的模型与以下方法进行比较 mBERTBERT的多语言版本见第2.1节。我们在与CamemBERT相同的条件下对每个树库微调mBERT并添加额外的层用于词性标注和依存句法分析。XLMMLM-TLM来自Lample和Conneau2019的多语言预训练语言模型在NLI任务上表现优于mBERT。我们使用Hugging Face的transformer库Wolf等2019中的版本并在与我们的模型相同的条件下进行微调。UDifyKondratyuk2019基于mBERT的多任务多语言模型UDify同时在124个不同的UD树库上训练创建了一个适用于75种语言的单一词性标注和依存句法分析模型。我们报告了Kondratyuk2019论文中的分数。UDPipe FutureStraka2018基于LSTM的模型在CoNLL 2018共享任务Seker等2018中在依存句法分析中排名第3在词性标注中排名第6。我们报告了Kondratyuk2019论文中的分数。UDPipe Future mBERT FlairStraka等2019原始的UDPipe Future实现使用mBERT和Flair作为基于特征的上下文词嵌入。我们报告了Straka等2019论文中的分数。 在法语中由于标注语料库的有限性NER任务的研究较少。因此我们将我们的模型与Dupont2017设定的最新基线进行比较他在FTB上训练了CRFLafferty等2001和BiLSTM-CRFLample等2016架构并使用启发式方法和预训练词嵌入进行了增强。此外与词性标注和依存句法分析一样我们还比较了针对NER任务微调的mBERT版本。 对于XNLI任务我们提供了Wu和Dredze2019报告的法语mBERT分数。我们还报告了XLMMLM-TLM如上所述的分数这是Lample和Conneau2019的最佳模型。此外我们还报告了XLM-RConneau等2019的结果。 4 CamemBERT法语语言模型 在本节中我们描述了用于CamemBERT的预训练数据、架构、训练目标和优化设置。 4.1 训练数据 预训练语言模型受益于在大规模数据集上训练Devlin等2018Liu等2019Raffel等2019。因此我们使用了OSCAR语料库Ortiz Suárez等2019的法语部分这是Common Crawl的预过滤和预分类版本。 OSCAR是从Common Crawl快照中提取的单语语料库集合。它采用了与Grave等2018相同的方法使用基于fastText线性分类器Grave等2017Joulin等2016的语言分类模型该分类器在维基百科、Tatoeba和SETimes上预训练支持176种语言。未进行其他过滤。我们使用了未打乱的法语数据版本其原始文本大小为138GB经过子词分词后包含327亿个词元。 4.2 预处理 我们使用SentencePieceKudo和Richardson2018将输入文本数据分割为子词单元。SentencePiece是字节对编码BPESennrich等2016和WordPieceKudo2018的扩展不需要预分词在词或词元级别从而消除了对语言特定分词器的需求。我们使用32k个子词词元的词汇表。这些子词是从预训练数据集中随机采样的107个句子中学习的。为了简化我们没有使用子词正则化即从多个可能的分割中采样。 4.3 语言建模 Transformer 与RoBERTa和BERT类似CamemBERT是一个多层双向TransformerVaswani等2017。鉴于Transformer的广泛使用我们在此不详细描述读者可参考Vaswani等2017。CamemBERT使用了BERTBASE12层768隐藏维度12个注意力头1.1亿参数和BERTLARGE24层1024隐藏维度12个注意力头3.4亿参数的原始架构。 CamemBERT与RoBERTa非常相似主要区别在于使用了全词掩码whole-word masking以及SentencePiece分词Kudo和Richardson2018而非WordPieceSchuster和Nakajima2012。 预训练目标 我们在掩码语言建模MLM任务上训练模型。给定由N个词元组成的输入文本序列x1, …, xN我们选择15%的词元进行可能的替换。在这些被选中的词元中80%被替换为特殊的标记10%保持不变10%被替换为随机词元。然后模型通过交叉熵损失预测初始被掩码的词元。 遵循RoBERTa的方法我们动态掩码词元而不是在预处理期间为整个数据集静态固定掩码。这提高了多样性并使模型在多次训练时更具鲁棒性。 由于我们使用SentencePiece对语料库进行分词模型的输入词元是完整词和子词的混合。BERT的升级版本和Joshi等2019表明掩码整个词而不是单个子词可以提高性能。全词掩码WWM使训练任务更加困难因为模型必须预测整个词而不是在给定其余部分的情况下仅预测词的一部分。我们通过在初始未分词的文本中使用空格作为词分隔符来训练模型。 WWM的实现方式是首先随机采样序列中15%的词然后将这15%中每个词的所有子词词元作为候选替换。这相当于接近原始15%的选中词元比例。这些词元随后被替换为标记80%、保持不变10%或被替换为随机词元。 后续研究表明BERT最初使用的下一句预测NSP任务并未提高下游任务性能Lample和Conneau2019Liu等2019因此我们也将其移除。 优化 遵循Liu等2019我们使用Adam优化器Kingma和Ba2014 β 1 0.9 , β 2 0.98 \beta_{1}0.9,\beta_{2}0.98 β1​0.9,β2​0.98对模型进行优化训练100k步批量大小为8192个序列每个序列最多包含512个词元。我们强制每个序列仅包含完整段落对应于预训练数据集中的行。 预训练 我们使用fairseq库Ott等2019中的RoBERTa实现。我们的学习率在前10k步预热至峰值0.0007由于批量较大而非原始的0.0001然后通过多项式衰减降至零。除非另有说明我们的模型使用BASE架构并在256个Nvidia V100 GPU每个32GB上预训练100k次反向传播步骤耗时一天。出于实际考虑我们没有训练更长时间尽管性能似乎仍在提升。 4.4 使用CamemBERT进行下游任务 我们以两种方式使用预训练的CamemBERT。 第一种称为微调fine-tuning我们以端到端的方式在特定任务上微调模型。 第二种称为基于特征的嵌入feature-based embeddings或简称为嵌入embeddings我们从CamemBERT中提取冻结的上下文嵌入向量。这两种互补的方法揭示了CamemBERT捕获的预训练隐藏表示的质量。 微调 对于每个任务我们在CamemBERT架构的顶部附加相关的预测层。遵循BERT的工作Devlin等2019对于序列标注和序列标记任务我们附加一个线性层分别以特殊标记的最后隐藏表示和每个词的第一个子词词元的最后隐藏表示作为输入。对于依存句法分析我们插入一个双仿射图预测头灵感来自Dozat和Manning2017。我们建议读者参考该文章以获取有关此模块的更多细节。 我们在XNLI上微调时添加一个分类头由一个带非线性的隐藏层和一个线性投影层组成并对两者进行输入dropout。 我们为每个任务和每个数据集独立微调CamemBERT。我们使用Adam优化器Kingma和Ba2014以固定学习率优化模型。我们对学习率和批量大小的组合进行网格搜索。我们从前30个epoch中选择在验证集上表现最佳的模型。对于NLI我们使用RoBERTa作者在MNLI任务上提供的默认超参数。尽管这可能进一步提高了性能但我们没有应用任何正则化技术如权重衰减、学习率预热或判别性微调除了NLI。我们表明以简单的方式微调CamemBERT可以在所有任务上取得最先进的结果并在所有情况下优于现有的基于BERT的模型。 词性标注、依存句法分析和NER实验使用Hugging Face的Transformer库扩展以支持CamemBERT和依存句法分析Wolf等2019。NLI实验使用fairseq库遵循RoBERTa的实现。 嵌入 遵循Straková等2019和Straka等2019对mBERT和英语BERT的做法我们在基于特征的嵌入设置中使用CamemBERT。为了获得给定词元的表示我们首先计算Transformer最后四层中每个子词表示的平均值然后对生成的子词向量进行平均。 我们在嵌入设置中评估CamemBERT的词性标注、依存句法分析和NER任务使用Straka等2019和Straková等2019的开源实现。 5 CamemBERT的评估 在本节中我们通过评估模型在四个任务上的表现来衡量其性能词性标注POS、依存句法分析、命名实体识别NER和自然语言推理NLI。 词性标注和依存句法分析 对于词性标注和依存句法分析我们在两种设置下将CamemBERT与其他模型进行比较微调fine-tuning和基于特征的嵌入feature-based embeddings。结果如表2所示。 CamemBERT在所有树库和指标上均达到了最先进的分数。两种方法得分相近微调版本的CamemBERT略占优势这引发了对复杂任务特定架构如UDPipe Future需求的质疑。 尽管优化过程更简单且没有任务特定的架构微调CamemBERT在所有树库上均优于UDify有时优势显著例如在Sequoia上LAS提高4.15%在ParTUT上LAS提高5.37%。CamemBERT在所有树库上的表现也优于其他多语言预训练模型如mBERT和XLMMLM-TLM。 CamemBERT总体上略优于之前的最先进任务特定架构UDPipe FuturemBERTFlair除了在Sequoia的词性标注和Spoken的词性标注上CamemBERT分别落后0.03%和0.14%的UPOS分数。UDPipe FuturemBERTFlair使用了FlairAkbik等2018的上下文字符串嵌入这些嵌入实际上是预训练的上下文字符级词嵌入专门用于处理拼写错误以及前缀和后缀等子词结构。这种设计选择可能解释了CamemBERT在词性标注上的分数差异尤其是在Spoken树库中单词未大写这可能对CamemBERT造成问题因为其训练数据是大写的)但Flair在UDPipe FuturemBERTFlair模型中可能能够正确处理。 命名实体识别 对于NER我们同样在微调设置和作为任务特定架构LSTMCRF的输入嵌入中评估CamemBERT。结果如表3所示。 在两种情况下CamemBERT的F1分数均高于传统的基于CRF的架构包括非神经网络和神经网络以及微调的多语言BERT模型。将CamemBERT作为嵌入用于传统的LSTMCRF架构时得分略高于微调模型89.08 vs. 89.55)。这表明尽管CamemBERT可以在没有任何任务特定架构的情况下成功使用但它仍然可以生成高质量的上下文嵌入这在存在强大下游架构的场景中可能非常有用。 自然语言推理 在XNLI基准测试中我们将CamemBERT与之前最先进的多语言模型在微调设置下进行比较。除了标准的BASE架构CamemBERT模型外我们还训练了一个LARGE架构的模型称为CamemBERTLARGE以便与XLM-RLARGE进行公平比较。该模型使用第6节中描述的CCNet语料库训练了100k步。我们预计更长时间的训练会带来更好的性能。 CamemBERT的准确率高于其BASE架构的同类模型比mBERT高出5.6%比XLMMLM-TLM高出2.3%比XLM-RBASE高出2.4%。CamemBERT使用的参数数量仅为XLM-RBASE的一半1.1亿 vs. 2.7亿。 CamemBERTLARGE在XNLI基准测试中达到了85.7%的最先进准确率而最近的XLM-RLARGE为85.2%。CamemBERT使用的参数比多语言模型少主要是因为其词汇量较小例如32k vs. XLM-R的250k。有两个因素可能解释了CamemBERT优于XLM-R的原因。尽管XLM-R在2.5TB的数据上进行了训练但其中只有57GB是法语数据而我们使用了138GB的法语数据。此外XLM-R还处理100种语言作者表明当将语言数量减少到7种时他们的BASE架构可以在法语XNLI上达到82.5%的准确率。 CamemBERT结果总结 CamemBERT在考虑的4个下游任务中改进了现有技术水平从而在法语上证实了基于Transformer模型的有效性。无论是将CamemBERT作为微调模型使用还是将其作为上下文嵌入与任务特定架构结合使用我们都取得了这些结果。这引发了对更复杂下游架构需求的质疑类似于在英语中展示的结果Devlin等2019。此外这表明CamemBERT无需进一步调整即可生成高质量的表示。 6 语料库来源和规模的影响 在本节中我们研究了预训练语料库的同质性和规模对下游任务性能的影响。为此我们通过改变预训练数据集来训练不同版本的CamemBERT。在本实验中我们将预训练步数固定为100k并允许epoch数相应变化数据集较小时epoch数更多。所有模型均使用BASE架构。 为了研究是否需要同质的干净数据还是更需要多样化且可能噪声较多的数据我们除了使用OSCAR外还使用了其他预训练数据来源 维基百科在文体和风格上具有同质性。我们使用2019年法文维基百科的官方数据并使用Giuseppe Attardi的WikiExtractor去除HTML标签和表格。CCNetWenzek等2019从Common Crawl中提取的数据集其过滤过程与OSCAR不同。它使用在维基百科上训练的语言模型来过滤低质量文本如代码或表格。由于这一过滤步骤将Common Crawl中的噪声数据偏向于更类似维基百科的文本我们预计CCNet将作为未过滤的“噪声”OSCAR数据集和“干净”维基百科数据集之间的中间地带。由于不同的过滤过程CCNet平均包含更长的文档而OSCAR中的文档较短且通常噪声较多。 表6总结了这些不同语料库的统计数据。 为了比较这三种预训练数据来源我们从OSCAR和CCNet中随机抽取4GB文本以文档为单位从而创建与法文维基百科规模相同的Common Crawl语料库样本。这些较小的4GB样本还为我们提供了一种研究预训练数据规模影响的方法。表5提供了不同版本CamemBERT的下游任务性能。上半部分报告了微调设置下的分数下半部分报告了嵌入设置下的分数。 6.1 Common Crawl vs. 维基百科 表5清楚地表明在4GB版本的OSCAR和CCNetCommon Crawl上训练的模型表现始终优于在法文维基百科上训练的模型。无论是在微调设置还是嵌入设置中这一结论都成立。不出所料在涉及与维基百科文体和风格差异较大的任务如Spoken树库上的标注和解析中差距更大。在XNLI任务上性能差距也非常大这可能是由于基于Common Crawl的语料库在文体和主题上的多样性更大。XNLI基于multiNLI涵盖了多种口语和书面文本的文体。 在4GB版本的CCNet和OSCAR上训练的模型在下游任务中的表现非常相似。 6.2 需要多少数据 我们实验的一个意外结果是仅在4GB OSCAR样本上训练的模型与在整个138GB OSCAR上训练的标准CamemBERT表现相似。唯一存在较大性能差距的任务是NER其中“138GB”模型的F1分数高出0.9分。这可能是由于较大语料库中存在更多的命名实体这对该任务有益。相反其他任务似乎并未从额外数据中获益。 换句话说当在OSCAR和CCNet等文体和风格多样化的语料库上训练时4GB的未压缩文本足以作为预训练语料库在使用BASE架构时达到最先进的结果优于在60GB文本上预训练的mBERT。这引发了对训练单语Transformer语言模型如BERT或RoBERTa时是否需要使用OSCAR或CCNet等大型语料库的质疑。 这不仅意味着训练最先进语言模型的计算以及环境成本可以降低还意味着可以为所有能够创建4GB或更大Common Crawl语料库的语言训练类似CamemBERT的模型。OSCAR支持166种语言并为38种语言提供了这样的语料库。此外稍小的语料库例如低至1GB也可能足以训练高性能的语言模型。 我们的结果是在BASE架构上获得的。需要进一步研究以验证我们的发现在更大架构和其他更复杂的自然语言理解任务中的有效性。然而即使使用BASE架构和4GB训练数据验证损失在100k步400个epoch后仍在下降。这表明我们仍然对4GB预训练数据集欠拟合更长时间的训练可能会提高下游性能。 7 讨论 自本工作预发表以来Martin等2019许多单语语言模型相继出现例如Le等2019Virtanen等2019Delobelle等2020涵盖了多达30种语言Nozza等2020。在几乎所有测试配置中这些模型的表现均优于多语言语言模型如mBERTPires等2019。有趣的是Le等2019表明将他们的FlauBert一种基于RoBERTa的法语语言模型训练数据较少但经过更多编辑与CamemBERT结合使用可以提高解析模型的性能并在法语成分句法分析中建立了新的最先进水平从而突出了两种模型的互补性。 与BERT首次发布时的英语情况类似法语类似规模语言模型的可用性促进了有趣的应用例如法律文本的大规模匿名化其中基于CamemBERT的模型在该任务上建立了新的最先进水平Benesty2019或最近发布的法语Squad数据集上的首次大规模问答实验d’Hoffschmidt等2020作者使用CamemBERTLARGE达到了人类水平的表现。作为第一个使用开源Common Crawl Oscar语料库的预训练语言模型CamemBERT对社区产生了重要影响为后续许多单语语言模型的研究铺平了道路。此外其所有训练数据的可用性促进了可重复性并为更好地理解此类模型迈出了一步。本着这种精神我们通过我们的网站以及huggingface和fairseq API提供了实验中使用的模型包括基础的CamemBERT模型。 8 结论 在本工作中我们探讨了为英语以外的语言训练基于Transformer的语言模型的可行性。以法语为例我们训练了CamemBERT这是一种基于RoBERTa的语言模型。我们在四个下游任务词性标注、依存句法分析、命名实体识别和自然语言推理上评估了CamemBERT在这些任务中我们的最佳模型达到或改进了所有任务的最先进水平即使与强大的多语言模型如mBERT、XLM和XLM-R相比也是如此同时参数数量更少。 我们的实验表明使用具有高多样性的网络爬取数据优于基于维基百科的数据。此外我们展示了我们的模型在仅使用4GB预训练数据的情况下可以达到惊人的高性能从而质疑了大规模预训练语料库的必要性。这表明只要有几千兆字节的数据可用就可以为资源远少于英语的语言训练最先进的基于Transformer的语言模型。这为资源匮乏语言的单语上下文预训练语言模型的兴起铺平了道路。关于在小规模领域特定内容上进行预训练是否比微调等迁移学习技术更好的问题仍然开放我们将其留给未来的工作。 CamemBERT基于纯开源语料库进行预训练并通过MIT许可证免费提供可通过流行的NLP库fairseq和huggingface以及我们的网站camembert-model.fr获取。 #附录 在附录中我们分析了CamemBERT的不同设计选择表8包括全词掩码的使用、训练数据集、模型规模以及训练步数并结合语料库来源和规模的影响分析第6节。在所有消融实验中所有分数均来自至少4次运行的平均值。对于词性标注和依存句法分析我们在4个树库上取平均分数。我们还在表7中报告了不同模型的所有平均测试分数。 A 全词掩码的影响 在表8中我们比较了使用传统子词掩码和全词掩码训练的模型。全词掩码对自然语言推理NLI的下游性能有积极影响尽管仅提高了0.5个准确率点。令人惊讶的是这种全词掩码方案对命名实体识别NER、词性标注和依存句法分析等较低层次任务的帮助不大。 B 模型规模的影响 表8比较了使用BASE和LARGE架构训练的模型。出于实际原因这些模型使用CCNet语料库135GB进行训练。我们证实了较大模型对NLI和NER任务的积极影响。LARGE架构分别减少了19.7%和23.7%的错误率。令人惊讶的是在词性标注和依存句法分析上增加三倍的参数并未带来与BASE模型相比的显著差异。Tenney等2019和Jawahar等2019表明BERT的低层已经学习了低层次的句法能力而高层次的语义表示则存在于BERT的高层中。词性标注和依存句法分析可能不会从增加更多层中受益因为BASE架构的低层已经捕捉到了完成这些任务所需的信息。 C 训练数据集的影响 表8比较了在CCNet和OSCAR上训练的模型。两个数据集的主要区别在于CCNet的额外过滤步骤偏向于类似维基百科的文本。在OSCAR上预训练的模型在词性标注和依存句法分析上表现略好但在NER上提高了1.31分。CCNet模型在NLI上表现更好提高了0.67分。 D 训练步数的影响 图1展示了下游任务性能随训练步数的变化情况。本节中的所有分数均为至少4次不同随机种子运行的平均值。对于词性标注和依存句法分析我们还在4个树库上取平均分数。 我们每个epoch1个epoch等于8360步评估一次模型并报告掩码语言建模的困惑度以及下游任务的表现。图1表明任务越复杂训练步数的影响越大。我们观察到依存句法分析和NER在大约22k步时达到早期平台期而对于NLI尽管随着预训练步数的增加边际改善变小但在100k步时性能仍在缓慢提升。 在表8中我们比较了两个在CCNet上训练的模型一个训练了100k步另一个训练了500k步以评估总训练步数的影响。训练500k步的模型在词性标注和解析任务上的分数相比100k步并没有显著提高。对于XNLI提升略高0.84分。 这些结果表明低层次的句法表示在语言模型训练的早期阶段就被捕捉到而提取NLI所需的复杂语义信息则需要更多的训练步数。
http://www.tj-hxxt.cn/news/143382.html

相关文章:

  • 网站建设怎么引流网站策划方法
  • 十堰网站建设是什么wordpress构架都是模板
  • 网站建设注册密码咋弄衡水建站公司
  • 沈阳做网站好的百度如何给网站做评价
  • 网站转微信小程序开发qq浏览器小程序
  • 17一起做网站普宁站郑州做网站推
  • 南京专业网站制作公司有哪些seo优化有哪些
  • 网站建设-丹东新手如何做代理商
  • 福州微信营销网站建设怎么编程一个网站
  • 福永论坛网站建设一键网站建设
  • 装修网站设计平台手机端网站开发建设内容
  • 快站淘客如何提高搜索引擎优化
  • 哪些网站是做快消品的十大微信小程序游戏
  • 网站建设提供书面资料清单在线海报生成
  • 漳州网站建设多少钱大数据营销的弊端
  • 东莞网站建设服务首网站建设前提
  • 网站建设制作的标准有哪些网站建立的重要性
  • 十大品牌网站织梦建站教程
  • 石家庄小学网站建设北京市工程建设交易网
  • 江苏恒健建设集团有限公司网站天河网站建设专家
  • 济南建公司网站免费推广产品的网站
  • 浦口区网站建设wordpress主题丢失
  • 图书馆网站建设公司东风地区网站建设公司
  • 常宁网站建设wordpress 邀请码插件
  • 门户网站免费奖励自己iis 网站文件被占用
  • 网站黄金比例互联网平台设计师
  • 做网站的公司现在还赚钱吗网站开发文档步骤应该怎么写
  • 网站运营seo实训总结基本的网站建设知识
  • 快手官方网站音乐人怎么做能源建设网站
  • 一家专门做海报的网站如何制作软件手机软件