空间手机版网站目录建设,男女之间做那个事情很污的网站,百度做的网站后台怎么进,哪些人需要建网站BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型#xff0c;提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练#xff0c;提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的#xff1f;使用了哪些 NLP 已有的技术和思想#xff…BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的使用了哪些 NLP 已有的技术和思想哪些是 BERT 的创新 1标题 作者
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding pre-training: 在一个大的数据集上训练好一个模型 pre-training模型的主要任务是用在其它任务 training 上。 deep bidirectional transformers: 深的双向 transformers language understanding: 更广义transformer 主要用在机器翻译 MT BERT: 用深的、双向的、transformer 来做预训练用来做语言理解的任务。 作者Google AI Language写作时间短几个月大佬大佬
2摘要
新的语言表征模型 BERT: Bidirectional Encoder Representations from Transformers基于 ELMo
Transformers 模型的双向编码表示
与 ELMo 和 GPT 不同BERT 从无标注的文本中jointly conditioning 联合左右的上下文信息预训练得到 无标注文本的 deep bidirectional representations pre-trained BERT 可以通过加一个输出层来 fine-tune在很多任务问答、推理有 SOTA 效果而不需要对特定任务的做架构上的修改。 GPT unidirectional使用左边的上下文信息 预测未来
BERT bidirectional使用左右侧的上下文信息 ELMo based on RNNs, down-stream 任务需要调整一点点架构
BERT based on Transformers, down-stream 任务只需要调整最上层。
GPT, down-stream 任务 只需要改最上层。 摘要第一段和哪两篇工作相关区别是什么
BERT 是在 GPT 和 ELMo 的基础上的改动。 摘要第二段BERT 的好处
simple and empirically powerful, 11 NLP 任务的SOTA, 绝对精度 相对精度比别人好多少 摘要写法
第一段我和另外 2 篇相关工作的区别改进在哪里
第二段我的结果特别好好在什么地方 Note: BERT 论文写作好 -- 经典
工作质量创新性、效果好 -- 经典 3导言 导言第一段本篇论文关注的研究方向的一些上下文关系
Language model pre-training 可以提升 NLP 任务的性能
NLP任务分两类sentence-level tasks 句子情绪识别、两个句子的关系 token-level tasks NER (人名、街道名) 需要 fine-grained output NLP 预训练很早之前存在BERT 使 NLP 预训练 出圈了。 导言第二段摘要第一段的扩充 pre-trained language representations 两类策略
基于特征的 ELMo (构建和每一个下游任务相关的RNN 架构训练好的特征作为额外的特征 和 输入 一起放进模型) 基于微调参数的 GPT
所有的权重参数根据新的数据集进行微调。 介绍别人工作的目的铺垫自己方法的好 ELMo 和 GPT 预训练时 使用 unidirectional langugage model使用相同的目标函数
语言模型是单向的、预测未来。不是给第 一句、第三句预测第二句 导言第三段
当前技术的局限性标准语言模型是 unidirectional 单向的限制了模型架构的选择。 GPT 从左到右的架构只能将输入的一个句子从左看到右。句子情感分类任务从左看到右、从右看到左 都应该是合法的。 token-level tasks问答 qa 看完整个句子选答案不是从左往右一步一步看。 如果能 incorporate context from both directions 看两方向的信息能提升 任务性能。 相关工作的局限性 解决局限性的想法 -- 导言第四段 如何解决 BERT 通过 MLM 带掩码的语言模型 作为预训练的目标来减轻 语言模型的单向约束。inspired by the Close task 1953 MLM 带掩码的语言模型做什么呢
每次随机选输入的词源 tokens, 然后 mask 它们目标函数是预测被 masked 的词类似挖空填词、完形填空。 MLM 和 standard language model 只看左边的信息有什么区别
MLM 可以看 左右的上下文信息, pre-train deep bidirectional transformer 的基础。 BERT 除了 MLM 还有什么
NSP: next sentence prediction
判断两个句子是随机采样的 or 原文相邻学习 sentence-level 的信息。 文章 3点 贡献 1 bidirectional 双向信息的重要性
GPT 只用了 unidirectional 信息另外 Peter 2018 把从左看到右 和 从右看到左的模型独立训练 shallow concatenation 拼在一起BERT 在 bidirectional pre-training 的应用更好 2 BERT 首个 微调模型在 sentence-level and token-level task效果好
好的预训练模型不用对特定任务做一些模型架构的改动 3 BERT 开源随便用。 4结论 近期实验表明非监督的预训练模型很好low-resource 任务也能享受 benefit from 深的神经网络。
本文贡献拓展前任的结果到 deep bidirectional architectures使同样的预训练模型能够处理大量的 NLP 任务 本文故事 2个相关工作ELMo 用了 bidirectional 信息但架构 RNN 老GPT 架构 Transformer 新但只用了 unidirectional 信息。 BERT ELMo 的 bidirectional 信息 GPT 的新架构 transformer How?
Language model 任务不是预测未来而是完形填空。 写作两个算法的结合主要工作 -- 证明 双向有用 A B 缝合工作 or C 技术解决 D 领域的问题不要觉得想法小、不值得写出来简单朴实的写出来。简单好用 说不定会出圈 5相关工作 2.1 Unsupervised Feature-based approaches
非监督的基于特征表示的工作词嵌入、ELMo等 2.2 Unsupervised Fine-tuning approaches
非监督的基于微调的工作GPT等 2.3 Transfer Learning from Supervised Data
在有标号的数据上做迁移学习。 NLP 有标号 的大数据集natural language inference and machine translation CV做的还不错ImageNet 训练好、再做迁移。 NLP 表现不那么好CV 和 NLP 任务的区别NLP 数据的不足。 BERT 的作用
NLP 中在无标号的大量数据集上训练的模型效果 有标号、但数据量少一些的数据集上训练效果 CV 采用 BERT 的想法嘛
Yes在大量无标号的图片上训练的模型可能比 有标号的 ImageNet 百万图片 效果更好。 6 BERT 模型 BERT 有哪两步预训练 微调
pre-training: 使用 unlabeled data 训练
fine-tuning: 微调的 BERT 使用 预训练的参数 初始化所有的权重参数通过 下游任务的 labeled data 进行微调。
每一个下游任务会创建一个 新的 BERT 模型由预训练参数初始化但每一个下游任务会根据自己任务的 labeled data 来微调自己的 BERT 模型。 预训练和微调不是 BERT 的创新CV里用的比较多。 作者关于预训练和微调的介绍 好吗
好如果假设读者都知道论文的技术而只一笔带过给Ref不太好。论文写作要自洽简单的说明就好避免读者不知道预训练和微调增加理解文章的障碍。 图 1 预训练 微调 预训练的输入unlabelled sentence pair
训练 BERT 的权重 下游任务创建同样的 BERT 的模型权重的初始化值来自于 预训练好 的权重。
MNLI, NER, SQuAD 下游任务有 自己的 labeled data, 对 BERT 继续训练得到各个下游任务自己的的 BERT 版本。 Model Architecture multi-layer bidirectional Transformer encoder
一个多层双向 Transformer 的解码器基于 transfomer 的论文和代码。 写作第三章这里不讲可以在第二章相关工作做一定的介绍, i.e., L H 模型调了哪 3 个参数?
L: transform blocks的个数
H: hidden size 隐藏层大小
A: 自注意力机制 multi-head 中 head 头的个数 调了 BERT_BASE 1亿参数和 BERT_LARGE
3.4亿参数 Large 模型 层数 L 翻倍 12 -- 24宽度 H 768 -- 1024
BERT 模型复杂度和层数 L 是 linear, 和宽度 H 是 平方关系。
因为 深度 变成了 以前的两倍在宽度上面也选择一个值使得这个增加的平方大概是之前的两倍。 H 16因为每个 head 的维度都固定在了64。因为你的宽度增加了所以 head 数也增加了。 BERT_base 的参数选取 和 GPT 差不多比较模型BERT_large 刷榜。 超参数换算成可学习参数的大小transformer架构的回顾 可学习参数的来源嵌入层 30k * H、transformer块 L * H^2 * 12 嵌入层 输入是词的字典大小 30k输出是 H
参数30k 字典大小 * H hidden size 嵌入层的输出会进入 transformer 块。 transformer blocksH^2 * 12: self-attention mechanism H^2 * 4 MLPH^2 * 8 self-attention mechanism 本身无可学习参数; multi-head self-attention mechanism 要对 q, k, v 做投影每一次投影维度64 -- A * 64 H。
每一个 q, k, v 都有自己的投影矩阵合并每个 head 的投影矩阵 -- q, k, v 分别的 H * H 矩阵。 得到输出后还会有一次 H * H 的投影。 Transformer block 里的 self-attention 可学习参数 H^ 2 * 4 MLP 的 2个全连接层
第一个全连接层输入是 H输出是 4 * H
第二个全连接层输入是 4 * H输出是 H。 每一个参数矩阵大小 H * 4HMLP 中的可学习参数 H^2 * 8 一个 transformer block 的参数量 H^2 * 12L 个 blocksL * H^2 * 12 Input/Output Representations 下游任务有处理一个句子 or 处理 2 个句子BERT 能处理不同句子数量的下游任务使输入可以是 a single sentence and a pair of sentences (Question answer) a single sentence: 一段连续的文字不一定是真正上的语义上的一段句子它是我的输入叫做一个序列 sequence。 A sequence 序列可以是一个句子也可以是两个句子。 BERT 的输入和 transformer 区别
transformer 预训练时候的输入是一个序列对。编码器和解码器分别会输入一个序列。
BERT 只有一个编码器为了使 BERT 能处理两个句子的情况需要把两个句子并成一个序列。 BERT 如何切词 WordPiece, 把一个出现概率低的词切开只保留一个词出现频率高的子序列30k token 经常出现的词子序列的字典。
否则空格切词 -- 一个词是一个 token。数据量打的时候词典会特别大到百万级别。可学习的参数基本都在嵌入层了。 BERT 的输入序列如何构成 [ CLS ] [ SEP ] 序列开始: [ CLS ] 输出的是句子层面的信息 sequence representation
BERT 使用的是 transformer 的 encoderself-attention layer 会看输入的每个词和其它所有词的关系。
就算 [ CLS ] 这个词放在我的第一个的位置他也是有办法能看到之后所有的词。所以他放在第一个是没关系的不一定要放在最后。 区分 两个合在一起的句子 的方法 每个句子后 [ SEP ] 表示 seperate 学一个嵌入层 来表示 整个句子是第一句还是第二句 [ CLS ] [Token1] …… [Token n] [SEP] [Token1] …… [Token m] 每一个 token 进入 BERT 得到 这个 token 的embedding 表示。
对于 BERT输入一个序列输出一个序列。 最后一个 transformer 块的输出表示 这个词源 token 的 BERT 的表示。在后面再添加额外的输出层来得到想要的结果。 For a given token, 进入 BERT 的表示 token 本身的表示 segment 句子的表示 position embedding 位置表示
图 2 BERT 嵌入层
一个词源的序列 -- 一个向量的序列 -- 进入 transformer 块 Token embeddings: 词源的embedding层整成的embedding层 每一个 token 有对应的词向量。
Segement embeddings: 这个 token 属于第一句话 A还是第二句话 B。
Position embeddings: 输入的大小 这个序列最长有多长 i.e., 1024
Position embedding 的输入是 token 词源在这个序列 sequence 中的位置信息。从0开始 1 2 3 4 -- 1024 BERT input representation token embeddings segment embeddings position embeddings BERT 的 segment embedding 属于哪个句子和 position embedding 位置在哪里是学习得来的transformer 的 position embedding 是给定的。
BERT 关于 pre-train 和 fine-tune 同样的部分
3.1 Pre-training BERT 预训练的 key factors: 目标函数预训练的数据 Task 1 MLM
为什么 bidirectional 好 MLM 是什么完形填空 由 WordPiece 生成的词源序列中的词源它有 15% 的概率会随机替换成一个掩码。但是对于特殊的词源不做替换i.e., 第一个词源 [ CLS ] 和中间的分割词源 [SEP]。 如果输入序列长度是 1000 的话要预测 150 个词。 MLM 带来的问题预训练和微调看到的数据不一样。预训练的输入序列有 15% [MASK]微调时的数据没有 [MASK].15% 计划被 masked 的词: 80% 的概率被替换为 [MASK], 10% 换成 random token,10% 不改变原 token。但 T_i 还是被用来做预测。 80%, 10%, 10% 的选择有 ablation study in appendix unchanged 和 微调中的数据应该是一样的。 Task 2 NSP Next Sentence Prediction 在问答和自然语言推理里都是句子对。
如果 BERT 能学习到 sentence-level 信息很棒。 输入序列有 2 个句子 A 和 B50% 正例50%反例
50% B 在 A 之后50% 是 a random sentence 随机采样的。 正例这个人要去一个商店然后他买了一加仑的牛奶。IsNext 反例这个人去了商店然后企鹅是一种不能飞的鸟。NotNext flight ## less, flightless 出现概率不高WordPiece 分成了 2 个出现频率高的子序列## 表示 less 是 flightless 的一部分。 Pre-training data 2 个数据集BooksCorpus (800 M) English Wikipedia (2500 M)
使用一篇一篇文章而不是随机打断的句子。 a document-level corpus rather than a shuffled sentence-level corpus transformer 可以处理较长的序列一整个文本的输入效果会好一些。 3.2 Fine-tuning BERT 用 BERT 做微调的一般化的介绍。 BERT 和一些基于encoder-decoder的架构为什么不一样transformer 是encoder-decoder。 整个句子对被放在一起输入 BERTself-attention 能够在两个句子之间相互看。BERT 更好但代价是 不能像 transformer 做机器翻译。 在encoder-decoder的架构编码器看不到解码器的东西。 BERT 做 下游任务 根据下游任务设计我们任务相关的输入和输出。 好处模型不怎么变加一个输出层 softmax 得到 标号 label 怎么样把输入改成想要的句子对 有两个句子的话当然就是句子 A 和 B。 只有一个句子的话要做句子分类的话 B 没有。根据下游任务的要求要么是 [CLS] representation is fed into an output layer for classification 拿到第一个词源 [CLS] 对应的输出做分类 such as entailment or sentiment analysis或者是 the token representations are fed into an output layer for token-level tasks 拿到对应那些词源的输出做 sequence tagging or question answering 输出。 微调比预训练便宜。TPU 1 hour, GPU a few hours. Section 4 具体对每一个下游任务是怎么样构造输入输出 7实验 4.1 GLUE General Language Understanding Evaluation 多个数据集 sentence-level tasks
[CLS] 的 BERT 输出表示 一个输出层 Wsoftmax 分类得到 label
log(softmax(CW^T) 表1 是 BERT 在 分类任务的表现 4.2 SQuAD v1.1
Standford Question Answering Dataset QA 问答给一段文字问一个问题摘录答案。-- 判断答案的开始和结尾。
对每个词源 token判断是不是答案的开始or结尾 学 2 个向量 S 和 E分别对应这个词源 token 是答案开始词的概率 和 是答案结尾词的概率。 具体计算 每个 token 是答案开始的概率结尾词类似 E。
S 和 第二句话的每个词源 token 相乘 softmax得到归一化的概率。
P_i e ^ ( S * T_i ) / \sigma_j ( e ^ ( S * T_j ) ) 本文微调时数据扫三遍epochs 3, lr 5e-5, batch_size 32 大家实验发现用 BERT 做微调的时候结果非常不稳定。同样的参数同样的数据集训练 10 遍variance 方差特别大。 其实很简单epochs 不够3 太小了可能要多学习几遍会好一点。 adam 的不完全版 在长时间训练的 BERT 没问题训练时间不够需要 adam 的完全版。 4.3 SQuAD v2.0 表现也很不错 4.4 SWAG Situations With Adversarial Generations 判断两个句子之间的关系BERT 和之前的训练没多大区别效果好。 总结BERT 在不一样的数据集上用起来很方便效果很好。
输入表示成“一对句子的形式”最后拿到 BERT 对应的输出然后加一个输出层 softmax完事了。
BERT 对 NLP 整个领域的贡献非常大有大量的任务用一个相对简单、只改数据输入形式和最后加一个输出层就可以效果很不错。 5 Ablation studies 看 BERT 每一个组成部分的贡献。 没有 NSP
LTR 从左看到右无 MLM 没有 NSP
LTR 从左看到右无 MLM 没有 NSP BiLSTM 从ELMo来的想法 去掉任何一个组成部分BERT的效果都会有打折特别是 MRPC。 5.2 Effect of Model Size BERT_base 110 M 可学习参数
BERT_large 340 M 可学习参数 NLP界认为 模型越大效果越好。BERT 首先证明了大力出奇迹引发了模型“大”战 现在GPT-3 1000 亿可学习参数 5.3 Feature-based Approach with BERT 没有微调的 BERT将pre-trained 得到的 BERT 特征作为一个静态的特征输入效果没有 微调好 卖点用 BERT 需要微调。 8评论 写作 先写 BERT 和 ELMo (bidirectional RNN)、GPT (unidirectional transformer) 的区别 介绍 BERT 模型 BERT 实验设置、效果好 结论突出 bidirectional 贡献
文章 1个卖点容易记。 但 BERT 是否要选择 bidirectional 双向性呢
可以写但也要写 双向性带来的不足是什么 选择有得有失。
GPT 用的是 decoder
BERT 用的是 encoder不好做generative tasks机器翻译、文本摘要。 分类问题在 NLP 更常见。
NLP 研究者喜欢 BERT较容易的应用在 NLP 中自己想解决的问题。 BERT完整的解决问题的思路 ---- 大家对 DL 的期望
训练一个很深、很宽的模型在一个很大的数据集上预训练好训练好的模型参数可以解决很多小的问题通过微调提升小数据集上的性能。 这个模型拿出来之后可以用在很多小的问题上能够通过微调来全面提升这些小数据上的性能。这个在计算机视觉里面我们用了很多了。
BERT 把 CV 的套路搬到了 NLP1个3亿参数的模型展示模型越大、效果越好。大力出奇迹。
为什么 BERT 被记住
BERT 用了 ELMo, GPT 更大的训练数据集效果更好BERE 也被更大的训练数据集和更大的模型超越。
BERT 的引用率是 GPT 的 10 倍影响力 ✔ Abstract
NLP在Bert之前一直没有一个深度神经网络训练好之后可以解决大部分任务。用一句话来概括Bert就是Bert是一个深的双向的Transformer针对的是一般的语言理解任务。这里特别注意的点是“语言理解任务”和“Transformer”因为“Transformer”的提出是针对于机器翻译的。
BERT的名字来自于Bidirectional Encoder Representations for Transformer。GPT考虑左边的信息预测未来BERT是双向的ELMO是基于RNN的架构而BERT是Transformer所以对于下游任务不需要做那么多的调整。 当讲一个东西好的时候不仅要讲绝对精度是多少还要说和其他的模型比相对的优势是多少。 一种摘要的写法是模型的定义与其他模型的区别你的模型的优势 Introduction
使用预训练模型做特征表示一般有两类方法基于特征的比如ELMO另外一种是基于微调的比如GPT把预训练的模型放到下游的时候根据新的数据集微调。这两个途径都是使用相同的目标函数都是用一个单向的语言模型说一句话预测下一句话。
现在的技术的问题是语言模型是单向的如果要做句子层面的分析的话如果从左看到右外还可以从右看到左是可以提升性能的。
带掩码的语言模型随机挖去一些字元然后允许看左右信息并进去填空也就是完形填空。另一个是下一句预测随机采样两个句子判断这两个句子是否是相邻的。这两个任务解决了“双向”的问题。
Related Work
词嵌入、ELMO、GPT、有标号数据上的迁移学习
BERT
Bert有两个步骤预训练和微调。 预训练模型在没有标号的数据上训练 微调权重初始化为预训练中得到的权重所有权重在微调的时候都会被参与训练用的是有标号的数据所有的下游任务都会创建一个新的Bert模型 写论文的时候对于引用的方法需要做一些简短的说明以防止给大家的阅读造成困难。 BERT模型的Transformer的层是L隐藏层大小是H自注意力头是A。
BERT_{BASE}(L12,H768,A12) 。模型的可学习参数主要来自嵌入层和Transformer块 。嵌入层就是一个矩阵嵌入层的输入是字典的大小这里是30K输出是隐层单元的大小隐层单元是Transformer的输入。头的个数A乘以64等于H。在Transformer中首先K、Q、V都是HH的矩阵然后输出矩阵的大小也是HH后面的MLP层是两个H^2*8的矩阵一共有L层的Transformer所以一共有30K\times HL\times H^2\times 12 110M大小的参数。 Bert的输入可以是一个句子也可以是一个句子对。Transformer训练的时候输入是一个序列对编码器和解码器分别会输入一个序列而Bert只有编码器所以如果是两个句子需要合并成一个序列。使用WordPiece词嵌入的想法是如果一个词在整个里面出现概率不大的话应该切开看子序列这个子序列可能是词根出现次数很大。序列的第一个词永远是[CLS]表示classification代表Bert最后的输出代表整个序列的信息。两个句子的合并用[SEP]区分。词嵌入的输入词元的向量(token embeddings) segement embedding在哪个句子 位置的嵌入(position embedding)。 Pre-training BERT
Masked LM
对于一个输入的语言序列15%的词元会被替换成掩码。但是问题在于在预训练的时候会有15%的词用[MASK]替换但是微调的时候是没有[MASK]的所以两个阶段看到的数据不一样。解决方案是对于这15%的被[MASK]替换的词80%真的替换成[MASK]10%替换成随机词元还有10%什么都不干。 第一点中的替换是 Masked LM 中的主要部分可以在不泄露 label 的情况下融合真双向语义信息 第二点的随机替换因为需要在最后一层随机替换的这个 token 位去预测它真实的词而模型并不知道这个 token 位是被随机替换的就迫使模型尽量在每一个词上都学习到一个 全局语境下的表征因而也能够让 BERT 获得更好的语境相关的词向量这正是解决一词多义的最重要特性 第三点的保持不变也就是真的有 10% 的情况下是 泄密的占所有词的比例为15% * 10% 1.5%这样能够给模型一定的 bias 相当于是额外的奖励将模型对于词的表征能够拉向词的真实表征此时输入层是待预测词的真实 embedding在输出层中的该词位置得到的embedding是经过层层 Self-attention 后得到的这部分 embedding 里多少依然保留有部分输入 embedding 的信息而这部分就是通过输入一定比例的真实词所带来的额外奖励最终会使得模型的输出向量朝输入层的真实 embedding 有一个偏移。 而如果全用 mask 的话模型只需要保证输出层的分类准确对于输出层的向量表征并不关心因此 可能会导致最终的向量输出效果并不好。 Next Sentence Prediction(NSP)
50%是正例50%是负例。
Pre-training data
用文本级别的数据会比较好
Fine-tunning BERT
BERT和encoder-decoder架构相比由于把两个句子结合在一起所以self-attention可以看到全部的东西而encoder-decoder架构中encoder通常看不到decoder的东西。
Experiment
本部分讲述BERT如何应用于各种下游任务。
GLUE
把[CLS]词元最后的向量拿出来学习输出层W用softmax(CW^T)得到标号即为多分类问题。
SQuAD
对于每个词元判断是否是答案的开头或者结尾具体而言学习两个向量S和E分别代表词元是答案开始和结尾的概率。
提问环节
Bert 采用哪种Normalization结构LayerNorm和BatchNorm区别LayerNorm结构有参数吗参数的作用 采用LayerNorm结构和BatchNorm的区别主要是做规范化的维度不同BatchNorm针对一个batch里面的数据进行规范化针对单个神经元进行比如batch里面有64个样本那么规范化输入的这64个样本各自经过这个神经元后的值64维LayerNorm则是针对单个样本不依赖于其他数据常被用于小mini-batch场景、动态网络场景和 RNN特别是自然语言处理领域就bert来说就是对每层输出的隐层向量768维做规范化图像领域用BN比较多的原因是因为每一个卷积核的参数在不同位置的神经元当中是共享的因此也应该被一起规范化。 这里补充BN与LN的区别 如何优化BERT效果 1 感觉最有效的方式还是数据。 2 把现有的大模型ERNIE_2.0_large, Robertaroberta_wwm_ext_large、roberta-pair-large等进行ensemble然后蒸馏原始的bert模型这是能有效提高的只是操作代价比较大。 3 BERT上面加一些网络结构比如attentionrcnn等个人得到的结果感觉和直接在上面加一层transformer layer的效果差不多模型更加复杂效果略好计算时间略增加。 4 改进预训练在特定的大规模数据上预训练相比于开源的用百科知道等数据训练的更适合你的任务经过多方验证是一种比较有效的提升方案。以及在预训练的时候去mask低频词或者实体词听说过有人这么做有收益但没具体验证。 5 文本对抗 如果是中文还有做wordpiece的必要吗 使用jieba分词。 参考文献
[1]transformer、bert、ViT常见面试题总结 - 简书
[2]https://zhuanlan.zhihu.com/p/151412524
[3]BERT 论文逐段精读【论文精读】_哔哩哔哩_bilibili 文章转载自: http://www.morning.xqxlb.cn.gov.cn.xqxlb.cn http://www.morning.xqzrg.cn.gov.cn.xqzrg.cn http://www.morning.hnrls.cn.gov.cn.hnrls.cn http://www.morning.tpwrm.cn.gov.cn.tpwrm.cn http://www.morning.rknjx.cn.gov.cn.rknjx.cn http://www.morning.kpygy.cn.gov.cn.kpygy.cn http://www.morning.ykmg.cn.gov.cn.ykmg.cn http://www.morning.tbstj.cn.gov.cn.tbstj.cn http://www.morning.lhxkl.cn.gov.cn.lhxkl.cn http://www.morning.ylyzk.cn.gov.cn.ylyzk.cn http://www.morning.synlt.cn.gov.cn.synlt.cn http://www.morning.ngqdp.cn.gov.cn.ngqdp.cn http://www.morning.nptls.cn.gov.cn.nptls.cn http://www.morning.bkxnp.cn.gov.cn.bkxnp.cn http://www.morning.nkddq.cn.gov.cn.nkddq.cn http://www.morning.cndxl.cn.gov.cn.cndxl.cn http://www.morning.rfxyk.cn.gov.cn.rfxyk.cn http://www.morning.clpfd.cn.gov.cn.clpfd.cn http://www.morning.fbdtd.cn.gov.cn.fbdtd.cn http://www.morning.rbnj.cn.gov.cn.rbnj.cn http://www.morning.gjlxn.cn.gov.cn.gjlxn.cn http://www.morning.kkgbs.cn.gov.cn.kkgbs.cn http://www.morning.jqllx.cn.gov.cn.jqllx.cn http://www.morning.xjkr.cn.gov.cn.xjkr.cn http://www.morning.jxscp.cn.gov.cn.jxscp.cn http://www.morning.wjtxt.cn.gov.cn.wjtxt.cn http://www.morning.khzml.cn.gov.cn.khzml.cn http://www.morning.weitao0415.cn.gov.cn.weitao0415.cn http://www.morning.ttfh.cn.gov.cn.ttfh.cn http://www.morning.ktyww.cn.gov.cn.ktyww.cn http://www.morning.qmzhy.cn.gov.cn.qmzhy.cn http://www.morning.rxrw.cn.gov.cn.rxrw.cn http://www.morning.hdqqr.cn.gov.cn.hdqqr.cn http://www.morning.rdlxh.cn.gov.cn.rdlxh.cn http://www.morning.rtlg.cn.gov.cn.rtlg.cn http://www.morning.hytr.cn.gov.cn.hytr.cn http://www.morning.jjtwh.cn.gov.cn.jjtwh.cn http://www.morning.jpnfm.cn.gov.cn.jpnfm.cn http://www.morning.mjbkp.cn.gov.cn.mjbkp.cn http://www.morning.zstry.cn.gov.cn.zstry.cn http://www.morning.zxrtt.cn.gov.cn.zxrtt.cn http://www.morning.aishuxue.com.cn.gov.cn.aishuxue.com.cn http://www.morning.hlfgm.cn.gov.cn.hlfgm.cn http://www.morning.hrrmb.cn.gov.cn.hrrmb.cn http://www.morning.qkqgj.cn.gov.cn.qkqgj.cn http://www.morning.jzykq.cn.gov.cn.jzykq.cn http://www.morning.xnnpy.cn.gov.cn.xnnpy.cn http://www.morning.fksdd.cn.gov.cn.fksdd.cn http://www.morning.qypjk.cn.gov.cn.qypjk.cn http://www.morning.pflry.cn.gov.cn.pflry.cn http://www.morning.jjnry.cn.gov.cn.jjnry.cn http://www.morning.tfcwj.cn.gov.cn.tfcwj.cn http://www.morning.hqykb.cn.gov.cn.hqykb.cn http://www.morning.addai.cn.gov.cn.addai.cn http://www.morning.qnjcx.cn.gov.cn.qnjcx.cn http://www.morning.znqmh.cn.gov.cn.znqmh.cn http://www.morning.jypqx.cn.gov.cn.jypqx.cn http://www.morning.pqjlp.cn.gov.cn.pqjlp.cn http://www.morning.fmkjx.cn.gov.cn.fmkjx.cn http://www.morning.bpmnq.cn.gov.cn.bpmnq.cn http://www.morning.ddgl.com.cn.gov.cn.ddgl.com.cn http://www.morning.rhjsx.cn.gov.cn.rhjsx.cn http://www.morning.aishuxue.com.cn.gov.cn.aishuxue.com.cn http://www.morning.gwxwl.cn.gov.cn.gwxwl.cn http://www.morning.jykzy.cn.gov.cn.jykzy.cn http://www.morning.tmpsc.cn.gov.cn.tmpsc.cn http://www.morning.tmzlt.cn.gov.cn.tmzlt.cn http://www.morning.qieistand.com.gov.cn.qieistand.com http://www.morning.qrcxh.cn.gov.cn.qrcxh.cn http://www.morning.gywfp.cn.gov.cn.gywfp.cn http://www.morning.hqnsf.cn.gov.cn.hqnsf.cn http://www.morning.mdwb.cn.gov.cn.mdwb.cn http://www.morning.hxsdh.cn.gov.cn.hxsdh.cn http://www.morning.hwprz.cn.gov.cn.hwprz.cn http://www.morning.yzygj.cn.gov.cn.yzygj.cn http://www.morning.hrqfl.cn.gov.cn.hrqfl.cn http://www.morning.rpkl.cn.gov.cn.rpkl.cn http://www.morning.tkyry.cn.gov.cn.tkyry.cn http://www.morning.bchfp.cn.gov.cn.bchfp.cn http://www.morning.hdqqr.cn.gov.cn.hdqqr.cn