网站建设投标人资质,建设网站的服务端口,网站建设1,c 网站开发技术经典预训练模型还未完成后续补上预训练模型在NLP和CV上取得巨大成功#xff0c;学术届借鉴预训练模型下游任务finetuneprompt训练人机指令alignment这套模式#xff0c;利用多模态数据集训练一个大的多模态预训练模型#xff08;跨模态信息表示#xff09;来解…经典预训练模型还未完成后续补上预训练模型在NLP和CV上取得巨大成功学术届借鉴预训练模型下游任务finetuneprompt训练人机指令alignment这套模式利用多模态数据集训练一个大的多模态预训练模型跨模态信息表示来解决多模态域各种下游问题。多模态预训练大模型主要包括以下4个方面1.多模态众原始输入图、文数据表示将图像和文本编码为潜在表示以保留其语义2.多模态数据如何交互融合设计一个优秀架构来交叉多模态信息之间的相互作用3.多模态预训练大模型如何学习萃取有效知识设计有效的训练任务来让模型萃取信息4.多模态预训练大模型如何适配下游任务训练好的预训练模型fintune适配下游任务本篇文章主要参考《A survey of Vision-Language Pre-trained Models》https://arxiv.org/pdf/2202.10936.pdf前置任务文本-图语料对准备预培训数据集预训练多模态大模型的第一步是构建大规模的图像文本对。我们将训练前数据集定义为D {(W, V )}Ni1其中W和V分别表示文本和图像N是图像-文本对的数量。具体来说每个文本将被标记为一系列令牌tokenW ⟨w1...wn。同样每个图像也将被转换为序列化物体特征或grid特征或patch 特征表示为V ⟨v1, ..., vm⟩。多模态图、文数据表示文本embedding 图片ROI embedding文本序列首先分为令牌并与“[CLS]”和“[SEP]”令牌串联表示为W ⟨[CLS]w1...wn[SEP]。每个令牌wj都将映射到一个单词嵌入。此外在嵌入一词中添加表示位置的 pos embbding和嵌入模态类型的seg embbding以获得wj的最终嵌入。文本部分一般是直接复用BERT的内容基本是没有太大变化的但是视觉部分的变化就比较大了。如何设计一个比较好的视觉嵌入去适应一个语言方面的预训练模型。早期的做法基于一个假设图片提取出来的区域特征最好和文本的token特征在同一个level上。比如可以使用faster Rcnn去提取一些区域特征使用ROI feature作为内容信息将bounding box作为位置信息( ViLBERT [Lu et al., 2019] 、 LXMERT [Tan and Bansal, 2019] )。OSCAR将object tag作为信息进行输入object是将信息转化为一个文本标签构建了视觉信息和文本信之间的桥梁达到了视觉和文本的一致性。问题1.需要额外训练一个roi提取模型模型准确性影响预训练模型准确性2.不同图片roi个数是不确定的预训练模型需要相对固定roi个数导致信息丢失3.roi数据集准备复杂目标检测模型得到的都是矩形的目标其不适合于不规则的物体导致得到的bounding box中存在噪声。另外除了bounding box以外一些背景信息是无法提取出来的相当于即存在噪声也存在损失。对效果产生一些影响。4.下游任务不一定适配用roi粒度特征比如在一个domain预训练的目标检测模型将其转换到另外的domain中效果可能有相当大的gap影响模型的效果。文本embedding 图片Grid embeddingROI来表示图像特征数据是region粒度特征信息颗粒度太大容易带来信息丢失、下游任务不适配、非端到端模导致使用不方便等问题。为了解决region特征表示问题提出Grid embedding方式表示图像数据。放弃ROI转而使用cnn或者resnet抽取Grid Embedding以便图像编码器可以将图像作为一个整体查看避免忽视一些关键区域的风险。 Pixel-Bert用cnn抽取图像Grid embbeding SOHO用resnet抽取Grid embedding优点是可以编码整张图片避免了bounding box只能编码部分图片的缺陷其二是CNN不必非要做一个预训练才可以提取region的特征其是一个可以和整个预训练模型一起训练的端到端的模型。文本embedding 图片Patch embedding随着VIT的兴起出现了patch based的特征提取将一张图片分为若干patch并且使用线性变化的方式对其进行编码。图像首先被拆分为拍平为2D patch然后序列化embdding图像的patch来表示原始图像特征。模型是端到端表示且用的transformer架构可以并行化计算所以VIT做patch推理速度会快很多小结1.文本部分一般是直接复用BERT的内容基本是没有太大变化的。2.视觉部分的变化就比较大了主要有region embbding表示、Grid embbding表示、Patch embbding表示多模态信息融合模型融合模型将文本embbding和图像特征作为输入让几种模态的信息融合交互以达到跨模态信息表示、知识萃取Fusion Encoder fusion encoder主要有两种类型的融合方案单流架构和双流架构。在self-attention 或 cross-attention 对图文数据表示操作后不管是单流网络还是双流网络其最后都将transformer的最后一层输出作为多模态融合的结果。单流架构单流网络直接将两个模态的内容加以拼接之后输入到transformer中。相当于是将单模态内的交互和多模态之间的交互合到一起来做。比如vision的q来自于图像其k和v即来自于图像也来自于文本文本这边也是如此。其最大的好处是其参数的高效性。并不需要将跨模态的交互和单模态的交互放到一起来做因此是十分节约参数的。双流架构但是有人argue觉得这种方式的单模态特征都是刚刚提取到的是没有学习很好的单模态特征因此是具有一定局限性的。所以提出双流机构的解决方案双流网络是先在单模态的场景下将模态内的交互做好之后在多模态场景下做好多模态的交互。与单流架构中的自注意操作不同单流是把视觉embbeding和文本embbding concat系相当于融合后做KV自注意力双流架构采用交叉注意机制来建模V-L交互中其中查询向量来自一种模式而键和值向量来自另一种模式。交叉注意力层通常包含两个单向交叉注意力子层一个从语言到视觉另一个从视觉到语言。他们负责在两种模式之间交换信息和调整语义。Dual encoderfusion encoder的操作不可避免的需要使用transformer进行模态之间的融合但是在很多对时间敏感的任务上其实是没有必要的。Dual encoder对文本和图像进行编码仅仅使用相似度的交互进行浅层的交互。文本用一个text encoder去编码图像用一个image encoder进行编码他们之间并不需要进行特别多的交互其最后仅需要用一个简单的计算比如相似性度量进行计算即可。其优点是表示是预训练好的另外文本编码器和图像编码器是完全解耦的可以用于很多单模态任务上。但是因为其只进行了浅层的交互因此这类模型无法适用于多模态推理方面的工作。Fusion Encoder Dual encoderfusion encoder模式融合图信息和文信息交互的更深入能学习到更细粒度的跨模态信息特征但是推理速度相对较慢、数据复杂度也会更高。而dual encoder把单独抽取好的图信息和文信息在高层面简单的做点乘跨模态信息交融不够但是数据处理简单、推理速度更快、得到更宏观层面的图文信息。有没办法把两种encoder方式融合让模型及科研学习到细粒度的多模态信息也可以学习到更宏观的多模态表示同时能够根据不同的下游任务需要可控的选择性突出哪部分表示能力加快下游任务的推理速度。fusion encoder比较容易处理多模态融合的推理问题dual encoder比较适合处理跨模态检索的问题。VLMO提出了将两者融合在一起的解决方案。V-L模型适合解决多模态的信息但是不是非常适合解决文本的信息UNIMO给出了解决方案。OFA给出了视觉任务文本任务以及多模态任务三种任务的一个统一的解决方案。多模态预训练模型学习手段根据前面的介绍在输入图像和文本编码为矢量并完全融合交互后下一步是为VL-PTM设计预训练任务设计的预训练任务对VL-PTM可以从数据中学到什么东西有很大影响。这部分我们将介绍一些广泛使用的预训练任务。Cross-Modal Masked Language Modeling (MLM) 多模态MLM任务和nlp中bert模式很相似通过MASK掉一部分的信息通过没有MASK的信息来推理出MASK的表示。但与NLP不同地方在于需要考虑如何设计学习任务。让多模态预训练模型不能只是单纯的依靠文本或者图像上下文信息就推理出MASK掉的表示是什么而应该依赖与另外模态的信息才能推理出MASK的信息表示是什么。这样的任务设计才能让文本和图像信息之间产生关联有上下文信息依赖多到跨模态信息之间的对齐。ViLT [Kim等人2021年]采用了全字屏蔽策略该策略防止模型仅通过周围文本信息就可以预测被MASK掉的信息表示InterBERT [Lin等人2020年]屏蔽了连续的文本片段以使这预训练学习任务更加困难并进一步改进了其在下游任务上的表现。Cross-Modal Masked Region Prediction (MRP) 与MLM相似MRP也是通过对对部分信息MASK通过没被MASK信息推测MASK的表示。MRP通过MASK掉一些ROI区域然后根据其它图文信息预测出ROI区域信息表示。主要有两大类训练任务预测被MASK的区域是什么物体Masked Region Classification (MRC) 和预测被MASK区域的信息表示 Masked Region Feature Regression (MRFR) 。Masked Region Classification (MRC)MRC学习预测每个屏蔽区域的语义类预测的是图像的更高层次的语意而不是预测MASK部分每个像素。通过预测被MASK区域的是那个类相当于在做object detect中的物体分类。用交叉熵方式来作为loss通过没有被MASK的图文信息来预测被MASK区域可能是什么物体做分类。Masked Region Feature Regression (MRFR) MRFR通过未MASK区域的图文信息回归预测MASK区域的原始区域特征MRFR要求模型重建高维向量而不是语义分类。Image-Text Matching (ITM) MLM和MRP帮助多模态预训练模型学习图像和文本之间的细粒度相关性而ITM 为多模态预训练模型提供在粗粒度水平上对齐的能力。ITM类似NLP中预测上下两句话相似度的任务给一对图文对预测他们之间是否匹配。Cross-Modal Contrastive Learning (CMCL) CMCL旨在通过将匹配的图像文本对的嵌入点推在一起同时将不匹配的图像文本对分开在同一语义空间下学习通用视觉和语言表达。有点类似nlp和cv里面的trip loss方式比较学习值得注意的是CMCL中的对比loss是对称的文本到图像的对比loss也类似。CLIP和ALIGN利用大规模的图像文本对来cmcl学习并在图像分类任务表现出令人惊讶的zero-shot效果。多模态预训练模型下游任务下游任务包括理解和生成。理解部分图文检索ITR是一项典型的跨模态匹配任务。这项任务需要检索与给定句子最匹配的图像反之亦然。使用融合编码器架构的早期VL-PTM获得融合矢量表示该表示后来被预测为相似性分数[Lu等人2019年Li等人2019年Li等人2020年c]。CLIP[Radford等人2021年]和ALBEF[Li等人2021a]等双编码器架构对ITR来说效率更高因为它们可以在检索之前预先计算和存储图像和文本的嵌入。视觉引用表达VRE是NLP中引用表达式任务的扩展。目标是将区域定位在与特定文本描述相对应的图像中。看图回答问题VQAVQA是一项广泛使用的跨模态推理任务。与基于文本的QA不同VQA需要回答有关图像的问题。大多数研究人员将VQA视为一项分类任务并要求模型从答案库中选择正确的答案。具有融合编码器架构的VL-PTM通常将最终的跨模态表示通常对应于输入[CLS]令牌映射到答案标签的分布。因此dual encoder架构的VL-PTM对VQA任务不那么有效因为两种模式信息融合太浅无法进行跨模式推理。现在有一些研究将VQA建模为生成任务这可以更好地推广到现实世界的开放式场景。感知任务利用预训练大模型来实现zero-shot或者是few-shot的图片分类、物体识别、segment边界划分。生成部分生成任务可以被认为是图像-文本的双重任务生成任务可以分为文本到图像生成和图像到文本生成多模式文本生成。图到文生成imagecaption图像描述技术,就是以图像为输入,通过数学模型和计算使计算机输出对应图像的自然语言描述文字,使计算机拥有 “看图说话”的能力,是图像处理领域中继图像识别、图像分割和目标跟踪之后的又一新型任务.。在日常生活中,人们可以将图像中的场景、色彩、逻辑关系等低层视觉特征信息自动建立关系,从而感知图像的高层语义信息,但是计算机作为工具只能提取到数字图像的低层数据特征,而无法像人类大脑一样生成高层语义信息,这就是计算机视觉中的“语义鸿沟”问题.图像描述(字幕)技术(Image Caption Generation)的本质就是将计算机提取的图像视觉特征转化为高层语义信息,即解决“语义鸿沟”问题,使计算机生成与人类大脑理解相近的对图像的文字描述,从而可以对图像进行分类、检索、分析等处理任务。文到图生成文本到图像生成是从描述文本生成相应图像的任务。这部分前面文章已经做过详细介绍这边不在展开介绍。需要进一步了解的可以翻阅我前面文章。随着生成任务的完善最近研究开始进行多模态的图片生成。利用文本描述把输入的参考图片、边界信息作为控制变量来限制生成图的风格controlnet。甚至出现输入视频作为参考控制通过文本描述来生成视频的任务经典多模态表示模型这部分持续更新可以关注后续文章CLIPviTSVITBLIP大统一模型
文章转载自: http://www.morning.ltrz.cn.gov.cn.ltrz.cn http://www.morning.ylqb8.cn.gov.cn.ylqb8.cn http://www.morning.kkwbw.cn.gov.cn.kkwbw.cn http://www.morning.jjmrx.cn.gov.cn.jjmrx.cn http://www.morning.rtlrz.cn.gov.cn.rtlrz.cn http://www.morning.xnqwk.cn.gov.cn.xnqwk.cn http://www.morning.dtgjt.cn.gov.cn.dtgjt.cn http://www.morning.bdfph.cn.gov.cn.bdfph.cn http://www.morning.jypqx.cn.gov.cn.jypqx.cn http://www.morning.gjqwt.cn.gov.cn.gjqwt.cn http://www.morning.fjkkx.cn.gov.cn.fjkkx.cn http://www.morning.lnrhk.cn.gov.cn.lnrhk.cn http://www.morning.rjjjk.cn.gov.cn.rjjjk.cn http://www.morning.ndngj.cn.gov.cn.ndngj.cn http://www.morning.qnklx.cn.gov.cn.qnklx.cn http://www.morning.mlbn.cn.gov.cn.mlbn.cn http://www.morning.lzjxn.cn.gov.cn.lzjxn.cn http://www.morning.ywpcs.cn.gov.cn.ywpcs.cn http://www.morning.qkrz.cn.gov.cn.qkrz.cn http://www.morning.lnfkd.cn.gov.cn.lnfkd.cn http://www.morning.rlcqx.cn.gov.cn.rlcqx.cn http://www.morning.rqzyz.cn.gov.cn.rqzyz.cn http://www.morning.xkwyk.cn.gov.cn.xkwyk.cn http://www.morning.rsbqq.cn.gov.cn.rsbqq.cn http://www.morning.wyrsn.cn.gov.cn.wyrsn.cn http://www.morning.xjwtq.cn.gov.cn.xjwtq.cn http://www.morning.qfrsm.cn.gov.cn.qfrsm.cn http://www.morning.kmqwp.cn.gov.cn.kmqwp.cn http://www.morning.tdttz.cn.gov.cn.tdttz.cn http://www.morning.bdypl.cn.gov.cn.bdypl.cn http://www.morning.lzqtn.cn.gov.cn.lzqtn.cn http://www.morning.hdrsr.cn.gov.cn.hdrsr.cn http://www.morning.jczjf.cn.gov.cn.jczjf.cn http://www.morning.ygpdm.cn.gov.cn.ygpdm.cn http://www.morning.tnkwj.cn.gov.cn.tnkwj.cn http://www.morning.nlglm.cn.gov.cn.nlglm.cn http://www.morning.kchwr.cn.gov.cn.kchwr.cn http://www.morning.tpfny.cn.gov.cn.tpfny.cn http://www.morning.xjkfb.cn.gov.cn.xjkfb.cn http://www.morning.krwzy.cn.gov.cn.krwzy.cn http://www.morning.bojkosvit.com.gov.cn.bojkosvit.com http://www.morning.bmmhs.cn.gov.cn.bmmhs.cn http://www.morning.cryb.cn.gov.cn.cryb.cn http://www.morning.kmcby.cn.gov.cn.kmcby.cn http://www.morning.ryspp.cn.gov.cn.ryspp.cn http://www.morning.lmmkf.cn.gov.cn.lmmkf.cn http://www.morning.rhqr.cn.gov.cn.rhqr.cn http://www.morning.wfbnp.cn.gov.cn.wfbnp.cn http://www.morning.yckrm.cn.gov.cn.yckrm.cn http://www.morning.knqzd.cn.gov.cn.knqzd.cn http://www.morning.wyjpt.cn.gov.cn.wyjpt.cn http://www.morning.mlpch.cn.gov.cn.mlpch.cn http://www.morning.cfnht.cn.gov.cn.cfnht.cn http://www.morning.qwdqq.cn.gov.cn.qwdqq.cn http://www.morning.qyxwy.cn.gov.cn.qyxwy.cn http://www.morning.ptwrz.cn.gov.cn.ptwrz.cn http://www.morning.iterlog.com.gov.cn.iterlog.com http://www.morning.darwallet.cn.gov.cn.darwallet.cn http://www.morning.rqwmt.cn.gov.cn.rqwmt.cn http://www.morning.jxjrm.cn.gov.cn.jxjrm.cn http://www.morning.hbpjb.cn.gov.cn.hbpjb.cn http://www.morning.lgnz.cn.gov.cn.lgnz.cn http://www.morning.hdlhh.cn.gov.cn.hdlhh.cn http://www.morning.wtcbl.cn.gov.cn.wtcbl.cn http://www.morning.cpnsh.cn.gov.cn.cpnsh.cn http://www.morning.qkqjz.cn.gov.cn.qkqjz.cn http://www.morning.mpyry.cn.gov.cn.mpyry.cn http://www.morning.fbtgp.cn.gov.cn.fbtgp.cn http://www.morning.rmpkn.cn.gov.cn.rmpkn.cn http://www.morning.skbkq.cn.gov.cn.skbkq.cn http://www.morning.kldtf.cn.gov.cn.kldtf.cn http://www.morning.wxckm.cn.gov.cn.wxckm.cn http://www.morning.clndl.cn.gov.cn.clndl.cn http://www.morning.nllst.cn.gov.cn.nllst.cn http://www.morning.bmtkp.cn.gov.cn.bmtkp.cn http://www.morning.sskns.cn.gov.cn.sskns.cn http://www.morning.qjbxt.cn.gov.cn.qjbxt.cn http://www.morning.bkqdg.cn.gov.cn.bkqdg.cn http://www.morning.ghssm.cn.gov.cn.ghssm.cn http://www.morning.cbpkr.cn.gov.cn.cbpkr.cn