自创字 网站,广州营销推广公司,济宁一建建设集团有限公司,大学生做网站的流程CRF#xff08;条件随机场-Conditional Random Field#xff09;
原始本文#xff1a;我在北京吃炸酱面
标注示例#xff1a; 我O在O北B-PLA京I-PLA吃O炸B-FOOD酱I-FOOD面I-FOOD CRF#xff1a; 目的#xff1a;提出一些不可能出现的预测组合#xff08;例如I-PLA不能…CRF条件随机场-Conditional Random Field
原始本文我在北京吃炸酱面
标注示例 我O在O北B-PLA京I-PLA吃O炸B-FOOD酱I-FOOD面I-FOOD CRF 目的提出一些不可能出现的预测组合例如I-PLA不能出现在B-PLA前面 核心11*11的概率转移矩阵。其中11是预测的标签的个数也包含CLS和SEP标签
原理 x是我们的输出文本也叫观测序列。y是输出标签也称状态序列特点1y与每个x都相关但是一般我们取前后十个x特征2y与相邻的两个y相关。
公式 公式说的是已知观察序列x求任意状态序y的发生概率。是转移特征函数它主要衡量相邻状态变量之间的影响转移特征函数带了x参数表明它是可以与观测x进行关联的基于上一个y和当前x如何得到当前y是状态特征函数它主要衡量观测序列对状态变量的影响x对y的影响λ和μ是对两个函数进行加权求和。exp 是指数势函数主要用于定义图模型中的概率分布函数Z是规范化因子确保式子是一个概率。
维特比解码
根据特征函数及其权重使用维特比算法一种寻找最优路径的动态规划算法找到一条概率最高的标签路径。 计算所需数据①bert的输出每个位置属于n个类别的概率②CRF转移矩阵标签之间的转移得分不会出现转换的pair值为为负无穷。计算示例例如“我爱中国”在计算第三个位置预测为“中”的score3_地点_score3_预测为地点的logitmax(上一次)个人总结其实是算所有可能出现的logit的最大可能。 记录
输入数据是要经过PAD到最大长度的所以标签也有单独有一个PAD类别。转移矩阵可以理解为一个标签后面连接另一个标签的概率。纯BertSoftmax也可以做NER用NER替换softmax效果更好CRF是全局无向转移概率图能有效考虑词前后的关系。BERTCRF 与 BertBi-LSTMCRF加Bi-LSTM没有提升性能反而下降。训练BERTCRF时CRF所需要的的学习率要比BERT大约100倍这样能带来更好的效果。之前公司-NER双向LSTMCRF现在公司-NERBertCRF - 蒸馏 -小BertCRFNER架构演变HMM-CRF-BiLSTMCRF-BertCRF特征函数分成转移特征函数和状态特征函数特征函数的本质是多个and的返回值为0或1的函数。
参考资料
玩转NLP67CRF模型_哔哩哔哩_bilibili