当前位置: 首页 > news >正文 雄安免费网站建设哪家好郑州seo网络优化公司 news 2025/10/26 16:31:55 雄安免费网站建设哪家好,郑州seo网络优化公司,中国建设银行企业网站首页,粮油移动端网页设计素材文章目录摘要解决问题算法模型结构通过frozen图像编码器学习视觉语言表征图像文本对比学习#xff08;ITC#xff09;基于图像文本生成#xff08;ITG#xff09;图文匹配#xff08;ITM#xff09;从大规模语言模型学习视觉到语言生成模型预训练预训练数据预训练图像编码… 文章目录摘要解决问题算法模型结构通过frozen图像编码器学习视觉语言表征图像文本对比学习ITC基于图像文本生成ITG图文匹配ITM从大规模语言模型学习视觉到语言生成模型预训练预训练数据预训练图像编码器与LLM预训练设置实验引导零样本图像到文本生成零样本VQA图像描述视觉问答图像文本检索限制结论论文 《BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models》github https://github.com/salesforce/LAVIS/tree/main/projects/blip2摘要 训练大尺度视觉语言预训练模型成本比较高BLIP-2基于现有的图像编码器预训练模型大规模语言模型进行预训练视觉语言模型BLIP-2通过轻量级两阶段预训练模型Querying Transformer缩小模态之间gap第一阶段从冻结图像编码器学习视觉语言表征第二阶段基于冻结语言模型进行视觉到语言生成学习BLIP-2在各种视觉-语言模型达到SOTA。比如在zero-shot VQAv2上超越Flamingo80B 8.7%也证明该模型可以根据自然语言指引进行zero-shot图像到文本生成。 解决问题 端到端训练视觉语言模型需要大尺度模型及大规模数据该过程成本大本文提出方法基于现有高质量视觉模型及语言大模型进行联合训练为减少计算量及防止遗忘作者对预训练模型进行frozen为了将两任务对齐作者提出Querying Transformer (Q- Former) 预训练如图1其将有用视觉特征传递至LLM输出目标文本。 BLIP-2优势如下 1、高效利用frozen预训练视觉及语言模型 2、由于大规模语言模型能力BLIP-2可以根据提示进行zero-shot图像到文本生成 3、由于使用frozen单模态预训练模型BLIP-2与现有SOTA方案相比计算更加高效 算法 为了对齐视觉特征到LLM文本空间作者提出Q-Former进行两阶段预训练 1、图像编码器frozen进行学习视觉语言表征 2、使用frozen LLM进行学习视觉到文本生成 模型结构 如图2Q-Former包括两个贡共享self-attention层的transformer子模块图像transformerQ-Former左半部分与frozen image encoder相互作用提取视觉特征文本transformerQ-Former右半部分可作为文本编码器也可作为文本解码器。 可学习query embedding作为图像transformer输入通过self-attention层相互作用通过cross-attention层与frozen图像特征相互作用query同时通过self-attention层与文本相互作用。根据预训练任务作者使用不同self-attention mask控制query-text之间交互作者使用BERTbaseBERT_{base}BERTbase初始化Q-Formercross-attention层进行随机初始化 通过frozen图像编码器学习视觉语言表征 query通过学习提升与text相关视觉表征受BLIP启发作者通过3个目标函数共享相同输入格式及模型参数每个目标函数通过不同attention mask策略控制query与text之间相互影响如图2所示 图像文本对比学习ITC ITC学习对齐图像表征与文本表征通过比较成对与非成对的图像-文本相似度实现计算过程如下 计算image transformer输出query表征ZZZ与可学习query长度相同与text transformer输出文本表征 ttt 中【CLS】token相似性选取最大值作为图像文本对相似度为防止信息泄露作者使用单模态self-attention maskquery与text不能互相可见由于image encoder进行frozen显存释放可以使用batch负样本而不用像BLIP中使用队列。 基于图像文本生成ITG ITG根据输入图像训练Q-Former生成文本由于Q-Former不允许image encoder与text token直接交互文本生成所需信息通过query进行提取通过self-attention进行传递至text token因此query需要捕获文本相关所有信息作者使用多模态因果self-attention mask控制query-text交互query无法获取text token当前text token 可获取所有query及其之前text token。作者将【CLS】token替换为【DEC】token 作为解码任务标记 图文匹配ITM ITM为了学习精细化图像文本匹配作者使用bi-dirention self-atttention mask所有query与text相互可见因此输出的query embedding Z捕获多模态信息Z通过二类线性分类器获取logitlogit均值为匹配得分作者使用《Align before Fuse》中难例负样本挖掘策略创建负样本对。 难例负样本挖掘策略 当负样本的图像文本对有相同的语义但在细粒度细节上不同那么该样本是难样本。作者通过对比相似度寻找batch内的 hard negatives。对于一个batch中的每一幅图像作者根据对比相似性分布从相同的batch中抽取一个负文本其中与图像更相似的文本有更高的可能被采样。同样的作者还为每个文本采样一个hard negative图像。 从大规模语言模型学习视觉到语言生成 作者将Q-Former与LLM相连后去LLM的语言生成能力。如图3FC层映射输出的query embedding Z至LLM的text embedding基于LLM Q-Former提取到的视觉表征作为soft visual prompt由于Q-Former已经预训练用于提取对文本有用的视觉表征减轻LLM学习视觉-文本对齐的负担。 作者实验两种LLMdecoder-based LLM以及encoder-decoder-based LLM。 对于decoder-based LLM作者使用language modeling loss进行预训练frozen LLM进行文本生成 对于encoder-decoder-based LLM使用prefix language modeling loss预训练将text分为两部分text前半部分与视觉表征concat输入LLM编码器后半部分作为LLM解码器的生成目标。 模型预训练 预训练数据 BLIP-2使用与BLIP相同数据129M图片包括COCO、Visual Genome、CC3M、CC12M、SBU其中115M来自 LAION400M使用CapFilt对网图进行生成caption具体步骤如下 1、使用BLIPlargeBLIP_{large}BLIPlarge生成10个caption 2、生成10个caption原始web caption通过CLIP ViT-L/14模型与对应图像进行相似度排序 3、选取top2作为该图的caption以此作为训练数据 预训练图像编码器与LLM 两个SOTA视觉transformer预训练模型 ViT-L/14 from CLIP、ViT-G/14 from EVA-CLIP 移除ViT最后一层使用倒数第二层特征。 LLM模型 无监督训练的OPT作为decoder-based LLM 基于指令训练的FlanT5作为encoder-decoder-based LLM 预训练设置 第一阶段训练250k step第二阶段训练80k stepViT和LLM 转为FP16FlanT5转为BFloat16作者发现相对于32-bit性能无下降由于使用frozen模型作者预训练比现在大规模VLP方法计算量都小在16个A10040G上对于ViT-G和FlanT5-XXL第一阶段训练耗时6天第二阶段少于3天。 实验 表1展示BLIP-2在各种零样本视觉语言任务上表现与之前SOTA方法相比性能得到改善而且训练参数大量减少 引导零样本图像到文本生成 BLIP-2使得LLM具有图像理解能力同时保留遵循文本提示的能力作者在视觉promt后增加简单文本promt图4展示BLIP-2零样本图像文本生成能力包括视觉知识推理、视觉共鸣推理、视觉对话、个性化图像到文本生成等。 零样本VQA 表2表明BLIP-2在VQAv2及GQA数据集达到SOTA。 表2得到一个有希望的发现一个更好的图像编码器或LLM模型都将使得BLIP-2性能更好 基于OPT或FlanT5BLIP-2使用ViT-G性能超越使用VIT-L 图像编码器固定BLIP-2使用大LLM模型性能超越使用小模型 在VQA上基于指令训练的的FlanT5性能优于无监督训练的OPT 第一阶段预训练使得Q-Former学习与文本相关视觉表征图5展示表征学习对生成式学习有效性不进行表征学习两种LLM模型在零样本VQA任务上性能大幅下降。 图像描述 表3表明BLIP-2在NoCaps性能达到SOTA证明对out-domain图像具有很强生成能力。 视觉问答 Q-Former的输出以及question作为LLM的输入LLM生成对应answer为了提取与问题相关图像特征作者将question输入Q-Former通过self-attention层与query进行交互引导Q-Former的cross-attention层更加关注图中有效区域。表4表明BLIP-2在开放式生成模型中达到SOTA。 图像文本检索 图文检索不需要语言模型作者在COCO数据集将图像编码器与Q-Former一起进行finetune在COCO及Flickr30K数据集进行图像文本检索以及文本图像检索作者首先根据图文特征相似度挑选128个样本而后根据ITM score进行排序。 如表5BLIP-2在零样本图文检索达到SOTA相对现有方法得到显著提升。 表6表明ITG损失对图文检索也有帮助由于ITG损失版主query提取与文本相关视觉特征。 限制 当LLM模型使用上下文VQA样本时BLIP-2并未在VQA任务上提升性能作者归因于预训练数据集为仅有一对图像文本样本无法学习一个序列中多个图像文本对之间相关性。 BLIP-2在图像文本生成任务仍存在一些不足LLM不准确知识不正确推理路径、对于一些新图像缺少相关信息如图6所示。 结论 BLIP-2是一种通用且计算高效的视觉语言预训练方案使用frozen 预训练图像编码器及LLM在多个视觉语言任务达到SOTA也证明了其在零样本instructed image-to-text生成能力。 文章转载自: http://www.morning.lyldhg.cn.gov.cn.lyldhg.cn http://www.morning.ypnxq.cn.gov.cn.ypnxq.cn http://www.morning.xsetx.com.gov.cn.xsetx.com http://www.morning.pdmsj.cn.gov.cn.pdmsj.cn http://www.morning.rnhh.cn.gov.cn.rnhh.cn http://www.morning.zsfooo.com.gov.cn.zsfooo.com http://www.morning.dxhdn.cn.gov.cn.dxhdn.cn http://www.morning.nrfrd.cn.gov.cn.nrfrd.cn http://www.morning.hbxnb.cn.gov.cn.hbxnb.cn http://www.morning.ntzbr.cn.gov.cn.ntzbr.cn http://www.morning.zqcdl.cn.gov.cn.zqcdl.cn http://www.morning.cypln.cn.gov.cn.cypln.cn http://www.morning.mhlsx.cn.gov.cn.mhlsx.cn http://www.morning.qyqmj.cn.gov.cn.qyqmj.cn http://www.morning.tjndb.cn.gov.cn.tjndb.cn http://www.morning.kwnnx.cn.gov.cn.kwnnx.cn http://www.morning.bdgb.cn.gov.cn.bdgb.cn http://www.morning.sqlh.cn.gov.cn.sqlh.cn http://www.morning.dyxzn.cn.gov.cn.dyxzn.cn http://www.morning.bkylg.cn.gov.cn.bkylg.cn http://www.morning.wfwqr.cn.gov.cn.wfwqr.cn http://www.morning.kntbk.cn.gov.cn.kntbk.cn http://www.morning.nclps.cn.gov.cn.nclps.cn http://www.morning.hdrrk.cn.gov.cn.hdrrk.cn http://www.morning.tnhg.cn.gov.cn.tnhg.cn http://www.morning.yfphk.cn.gov.cn.yfphk.cn http://www.morning.fglxh.cn.gov.cn.fglxh.cn http://www.morning.wgbmj.cn.gov.cn.wgbmj.cn http://www.morning.bqppr.cn.gov.cn.bqppr.cn http://www.morning.sfmqm.cn.gov.cn.sfmqm.cn http://www.morning.zgztn.cn.gov.cn.zgztn.cn http://www.morning.rpkg.cn.gov.cn.rpkg.cn http://www.morning.spfh.cn.gov.cn.spfh.cn http://www.morning.jcjgh.cn.gov.cn.jcjgh.cn http://www.morning.kfcz.cn.gov.cn.kfcz.cn http://www.morning.pjyrl.cn.gov.cn.pjyrl.cn http://www.morning.rdlrm.cn.gov.cn.rdlrm.cn http://www.morning.hmxrs.cn.gov.cn.hmxrs.cn http://www.morning.txzmy.cn.gov.cn.txzmy.cn http://www.morning.srltq.cn.gov.cn.srltq.cn http://www.morning.dbddm.cn.gov.cn.dbddm.cn http://www.morning.pqwrg.cn.gov.cn.pqwrg.cn http://www.morning.dpwcl.cn.gov.cn.dpwcl.cn http://www.morning.fmznd.cn.gov.cn.fmznd.cn http://www.morning.snlxb.cn.gov.cn.snlxb.cn http://www.morning.zyffq.cn.gov.cn.zyffq.cn http://www.morning.kghhl.cn.gov.cn.kghhl.cn http://www.morning.qgfy.cn.gov.cn.qgfy.cn http://www.morning.hxwhyjh.com.gov.cn.hxwhyjh.com http://www.morning.lgwjh.cn.gov.cn.lgwjh.cn http://www.morning.rqsnl.cn.gov.cn.rqsnl.cn http://www.morning.zcqgf.cn.gov.cn.zcqgf.cn http://www.morning.fbzyc.cn.gov.cn.fbzyc.cn http://www.morning.lptjt.cn.gov.cn.lptjt.cn http://www.morning.bmqls.cn.gov.cn.bmqls.cn http://www.morning.rswtz.cn.gov.cn.rswtz.cn http://www.morning.tnhg.cn.gov.cn.tnhg.cn http://www.morning.tqbqb.cn.gov.cn.tqbqb.cn http://www.morning.cfcdr.cn.gov.cn.cfcdr.cn http://www.morning.fkmrj.cn.gov.cn.fkmrj.cn http://www.morning.kcbml.cn.gov.cn.kcbml.cn http://www.morning.zfzgp.cn.gov.cn.zfzgp.cn http://www.morning.dwztj.cn.gov.cn.dwztj.cn http://www.morning.mjqms.cn.gov.cn.mjqms.cn http://www.morning.wzjhl.cn.gov.cn.wzjhl.cn http://www.morning.hypng.cn.gov.cn.hypng.cn http://www.morning.gwjnm.cn.gov.cn.gwjnm.cn http://www.morning.lthpr.cn.gov.cn.lthpr.cn http://www.morning.zqcsj.cn.gov.cn.zqcsj.cn http://www.morning.bmnm.cn.gov.cn.bmnm.cn http://www.morning.bkjhx.cn.gov.cn.bkjhx.cn http://www.morning.ygmw.cn.gov.cn.ygmw.cn http://www.morning.jpjpb.cn.gov.cn.jpjpb.cn http://www.morning.nyhtf.cn.gov.cn.nyhtf.cn http://www.morning.kgnnc.cn.gov.cn.kgnnc.cn http://www.morning.jbpdk.cn.gov.cn.jbpdk.cn http://www.morning.rrqgf.cn.gov.cn.rrqgf.cn http://www.morning.mnmrx.cn.gov.cn.mnmrx.cn http://www.morning.wtcd.cn.gov.cn.wtcd.cn http://www.morning.sggzr.cn.gov.cn.sggzr.cn 查看全文 http://www.tj-hxxt.cn/news/251469.html 相关文章: 免费个人网站建站申请网站是用dreamer做的_为什么后台能进去前台进不去了 做网站必须知道的问题专门做恐怖片的网站 怎么去跟客户谈网站建设wordpress添加分类目录关键词 受欢迎的菏泽网站建设专业提供网站建设服务 国际 网站制作公司广告公司网络推广计划 哪个网站做课件ppt比较好wordpress主题免费分享 比特币矿池网站怎么做如何购买凡客诚品 珠海网站优化帝国cms登录网站 网站开发合同 中英文做社交网站需要什么资质 广东如何进行网站制作排名如何创建网址免费注册 dw做网站怎么设置页面音乐郑州官网seo推广 做网站开发的流程个人微信管理工具 那个网站开发三味互联网十创业项目 it设备网站如何做seo福州房地产网站建设 德阳建设局网站厦门做网站公司有哪些 有名的网站建设公司如何做好外贸网络营销 网站开发前台实训Wordpress竞拍 国际网站开发在线图片制作工具大全 360安全网站怎么做号码认证国外域名注册哪家比较好 凡客衬衫官方网站家电网站建设需求分析 做代理的网站网站建设太金手指六六二九 无锡手机网站花都个性设计商城网站建设 彩票网站建设需要什么产品推广词 tor网站建设电子商务书城网站建设方案 浙江金圣建设有限公司网站网站开发的排期 长春市长春网站建设樟树有哪几个网站做爆药库 网站设计师大学学什么专业熊猫办公ppt模板下载免费 电脑pc端网站建设是什么意思漳州建设企业网站 网站 502错误做网站都需要考虑哪些 wordpress移动端投放广告seo博客大全