中国建设工程招标官方网站,网页ui设计尺寸规范,wordpress安全防范教程,余姚网站建设余姚一、自监督学习#xff08;Self-supervised Learning#xff09;
在监督学习中#xff0c;模型的输入为x#xff0c;若期望输出是y#xff0c;则在训练的时候需要给模型的期望输出y以判断其误差——有输入和输出标签才能训练监督学习的模型。
自监督学习在没有标注的训练…一、自监督学习Self-supervised Learning
在监督学习中模型的输入为x若期望输出是y则在训练的时候需要给模型的期望输出y以判断其误差——有输入和输出标签才能训练监督学习的模型。
自监督学习在没有标注的训练集中把训练集分为两部分一个作为输入另一个作为模型的标签。自监督学习是一种无监督学习的方法。 二、Contextualized Word Embedding 从上下文中学习word embedding同样一个词在不同的上下文中会学到不同的word embedding
三、ELMO 以双向RNN为基础最初输入的词汇的token通过学习得到embedding中间hidden layer的就是输入词汇的embedding。图中的蓝色块是正向学到的embedding黄色块是逆向得到的embedding将二者接起来 如果是deep RNN每层的embedding都留着以不同的权重阿尔法1、阿尔法2等将每层的embedding和原始token相加得到最终的embedding
阿尔法1、阿尔法2的大小如何确定在执行不同的下游任务时与下游任务的参数一起训练。那么不同的下游任务训练出的阿尔法1、阿尔法2也不同 四、BERT
bert先在未标记的文本语料库上训练pre-training自监督学习但 它本身没有什么用BERT 只能做填空题 然后在少量的标记数据上做fine-tuning,把它用在其他下游的任务里面
bert pre-training两种方法在未标记的文本语料库上训练的
第一种方法masking inputmask掉换成某种特殊的token [MASK]或替换15%的词 输出对该单词的预测
BERT并不知道我们遮盖住的文字因此BERT的目标就是最小化输出 y和期望值 y ’的误差损失函数使用交叉熵。 第二种方法next sentence prediction同时利用第一种办法的mask 输出这两个句子是否相接 bert fune-tuning四种例子在有标记的数据上训练
该部分bert参数是由 bert pre-training中参数初始化的
fune-tuning过程中linear classifier参数从头学bert参数微调即可
1句子分类情感分析 输入一个句子 输出句子类别 2. 对每个单词分类词性标注POS tagging 输入一个句子 输出每个单词类别 3.前提假设自然语言推理NLI 输入两个句子 输出该前提是否支持假设 4.回答问题基于信息抽取的问答系统QA输入文章和问题 输出答案 其他内容
What does BERT learn
分析一下BERT每一层究竟学到了什么。假设BERT有24层文献上的意思是第一层是分析词性第二层是分析语法第三层是词汇之间的关系以此类推。文献的做法是将每一层做weight sum任务不同比如词性和语法任务那么每一层的权值也不同根据权值来判断这一层主要是贡献什么。接近input的层就做简单的任务而接近output的层就做困难的任务。下图右侧中蓝色的条越长证明该层对总任务贡献更大 参考
李宏毅《深度学习》 - BERT_李宏毅 bert ppt_Beta Lemon的博客-CSDN博客
李宏毅机器学习--self-supervisedBERT、GPT、Auto-encoder-CSDN博客
ELMOBERT和GPT的原理和应用总结李宏毅视频课整理和总结-CSDN博客