网站服务器分流怎么做,电子商务网站开发方式,域名有了怎么做网站,wap音乐网站源码系列文章目录 文章目录 系列文章目录NLP里的迁移学习Bert的动机Bert架构对输入的修改五、预训练任务1、2、3、 六、1、2、3、 七、1、2、3、 八、1、2、3、 NLP里的迁移学习
之前是使用预训练好的模型来抽取词、句子的特征#xff0c;例如 word2vec 或语言模型这种非深度学习…系列文章目录 文章目录 系列文章目录NLP里的迁移学习Bert的动机Bert架构对输入的修改五、预训练任务1、2、3、 六、1、2、3、 七、1、2、3、 八、1、2、3、 NLP里的迁移学习
之前是使用预训练好的模型来抽取词、句子的特征例如 word2vec 或语言模型这种非深度学习的模型一般抽完特征后在做迁移学习时不更新预训练好的模型迁移学习前做好的工作所抽取的特征是个比较底层的特征一般当作embedding用做自己的工作时需要构建新的网络来抓取新任务需要的信息。之前的工作比如Word2vec忽略了时序信息语言模型只看了一个方向RNN不好处理特别长的序列所以他也就看了很短的一段东西而已。
Bert的动机 想研发相似于CV方面的基于微调的NLP模型除了输出层其他层的参数我是可以复用的我可以挪到其他任务中去。 预训练的模型抽取了足够多的信息 新的任务只需要增加一个简单的输出层
Bert架构
Bert从结构上来讲就是一个只保留了编码器的Transformer创新很简单后面在输入和 L o s s Loss Loss上还有创新。 两个版本
Base:#blocks12,hidden size768,#heads 12 #parameters110M 参数相比较Transformer大很多模型深很多。Large:#blocks24, hidden size 1024,#heads 16 #parameter340M
在大规模数据上训练3B 词
对输入的修改
之前Transformer是比如说把一个句子和他的翻译当作数据和标签进行训练在encoder中放入数据decoder中放入标签。现在bert只有encoder怎么办
这个CLS用来表示句子开头sep表示这个句子结束后面是下一个句子所以可以输入多个句子。但只是这样对Transformer不太好区分哪几个词是一个句子所以加了Segment Embeddings通过不同标志来标记句子。最上面是一个可以学的Position Embedddings。
五、预训练任务
1、
2、
3、
六、
1、
2、
3、
七、
1、
2、
3、
八、
1、
2、
3、