分销网站建设,网易云课堂的网站建设特点,专业营销团队公司,专业的企业智能建站制造厂家1.BERT-wwm
1-1 Whole Word Masking Whole Word Masking (wwm)是谷歌在2019年5月31日发布的一项BERT的升级版本#xff0c;主要更改了原预训练阶段的训练样本生成策略。 原有基于WordPiece的分词方式会把一个完整的词切分成若干个子词#xff0c;在生成训练样本时#xff…1.BERT-wwm
1-1 Whole Word Masking Whole Word Masking (wwm)是谷歌在2019年5月31日发布的一项BERT的升级版本主要更改了原预训练阶段的训练样本生成策略。 原有基于WordPiece的分词方式会把一个完整的词切分成若干个子词在生成训练样本时这些被分开的子词会随机被mask。 在Whole Word Masking (wwm)中如果一个完整的词的部分WordPiece子词被mask则同属该词的其他部分也会被mask。这缓解了在训练前 BERT 中屏蔽部分 Wordpiece 分词的缺点。
2.Chinese-BERT-wwm
2-1 中文BERT-WWM 2019年哈工大和科大讯飞联合发表中文BERT-WWM模型的论文使用中文文本对整个单词进行掩蔽即屏蔽整个单词而不是屏蔽汉字。由于谷歌官方发布的BERT中中文以字粒度进行切分没有考虑到传统NLP中的中文分词。 Chinese-BERT-wwm将 Whole Word Mask的方法应用在了中文中使用了中文维基百科包括简体和繁体进行训练并且使用了哈工大LTP作为分词工具即对组成同一个词的汉字全部进行Mask。
2-2 样例 3.总结 BERT-WWM对Bert的改进主要体现在mask的方式上使用全词mask。 其改进点如下BERT-WWM不仅仅是连续mask实体词和短语而是连续mask所有能组成中文词语的字。具体做法是针对中文如果一个完整的词的部分字被mask则同属该词的其他部分也会被mask即对组成同一个词的汉字全部进行Mask即为全词Mask。 这样做的目的是预训练过程中模型能够学习到词的语义信息训练完成后字的embedding就具有了词的语义信息了这对各类中文NLP任务都是友好的。