当前位置: 首页 > news >正文

淄博网站外包网站怎么加关键词做优化

淄博网站外包,网站怎么加关键词做优化,热狗网站关键词优化,浙江省住房建设厅网站首页文章目录 一、导读二、背景和动机三、方法3.1 模型架构3.2 预训练目标3.3 BLIP 高效率利用噪声网络数据的方法#xff1a;CapFilt 四、实验4.1 实验结果4.2 各个下游任务 BLIP 与其他 VLP 模型的对比 一、导读 BLIP 是一种多模态 Transformer 模型#xff0c;主要针对以往的… 文章目录 一、导读二、背景和动机三、方法3.1 模型架构3.2 预训练目标3.3 BLIP 高效率利用噪声网络数据的方法CapFilt 四、实验4.1 实验结果4.2 各个下游任务 BLIP 与其他 VLP 模型的对比 一、导读 BLIP 是一种多模态 Transformer 模型主要针对以往的视觉语言训练 (Vision-Language Pre-training, VLP) 框架的两个常见问题 大多数现有的预训练模型仅在基于理解的任务或者基于生成的任务方面表现出色很少有可以兼顾的模型。大多数现有的预训练模型为了提高性能使用从网络收集的嘈杂图像-文本对扩展数据集。这样虽然提高了性能但是很明显这个带噪声的监督信号肯定不是最优的。 BLIP 这种新的 VLP 框架可以灵活地在视觉理解任务上和生成任务上面迁移这是针对第一个问题的贡献。 至于第二个问题BLIP 提出了一种高效率利用噪声网络数据的方法。即先使用嘈杂数据训练一遍 BLIP再使用 BLIP 的生成功能生成一系列通过预训练的 Captioner 生成一系列的字幕再把这些生成的字幕通过预训练的 Filter 过滤一遍得到干净的数据。最后再使用干净的数据训练一遍 BLIP。 论文地址 https://larxiv.org/pdf/2201.12086.pdf代码地址 https://github.com/salesforce/BLIP二、背景和动机 视觉语言训练 (Vision-Language Pre-training, VLP) 最近在各种多模态下游任务上取得了巨大的成功。然而现有方法有两个主要限制 模型层面 大多数现有的预训练模型仅在基于理解的任务或者基于生成的任务方面表现出色很少有可以兼顾的模型。比如基于编码器的模型像 CLIPALBEF 不能直接转移到文本生成任务 (比如图像字幕)而基于编码器-解码器的模型像 SimVLM 不能直接用于图像文本检索任务。数据层面大多数现有的预训练模型为了提高性能使用从网络收集的嘈杂图像-文本对扩展数据集。这样虽然提高了性能但是很明显这个带噪声的监督信号肯定不是最优的。 本文提出了 BLIPBootstrapping LanguageImage Pre-training用于统一的视觉语言理解和生成。BLIP 是一种新的 VLP 框架与现有的方法相比它可以实现更广泛的下游任务。它分别从模型和数据的角度引入了两个贡献 BLIP 提出了一种编码器-解码器混合架构 (Multimodal mixture of Encoder-Decoder, MED)MED 的特点是很灵活它既可以作为单模态的编码器又可以作为基于图像的文本编码器或者基于图像的文本解码器。BLIP 由三个视觉语言目标联合训练图像文本的对比学习、图像文本匹配和图像条件语言建模。 BLIP 提出了一种高效率利用噪声网络数据的方法。即先使用嘈杂数据训练一遍 BLIP再使用 BLIP 的生成功能生成一系列通过预训练的 Captioner 生成一系列的字幕再把这些生成的字幕通过预训练的 Filter 过滤一遍从原始网络文本和合成文本中删除嘈杂的字幕得到干净的数据。最后再使用干净的数据训练一遍 BLIP。 三、方法 3.1 模型架构 最左边的是视觉编码器就是 ViT 的架构。将输入图像分割成一个个的 Patch 并将它们编码为一系列 Image Embedding并使用额外的 [CLS] token 来表示全局的图像特征。 视觉编码器不采用之前的基于目标检测器的形式因为 ViLT 和 SimVLM 等工作已经证明了 ViT 计算更加友好。 第2列的是视觉编码器就是 BERT 的架构其中 [CLS] token 附加到文本输入的开头以总结句子。作用是提取文本特征做对比学习。 第3列的是视觉文本编码器使用 Cross-Attention作用是根据 ViT 给的图片特征和文本输入做二分类所以使用的是编码器且注意力部分是双向的 Self-Attention。添加一个额外的 [Encode] token作为图像文本的联合表征。 第4列的是视觉文本解码器使用 Cross-Attention作用是根据 ViT 给的图片特征和文本输入做文本生成的任务所以使用的是解码器且注意力部分是 Casual-Attention目标是预测下一个 token。添加一个额外的 [Decode] token 和结束 token作为生成结果的起点和终点。 一个需要注意的点是相同颜色的部分是参数共享的即视觉文本编码器和视觉文本解码器共享除 Self-Attention 层之外的所有参数。每个 image-text 在输入时image 部分只需要过一个 ViT 模型text 部分需要过3次文本模型。 3.2 预训练目标 BLIP 在预训练期间联合优化了3个目标有两个理解任务的目标函数和一个生成任务的目标函数。 对比学习目标函数 (Image-Text Contrastive Loss, ITC) ITC 作用于1 视觉编码器 和 2 文本编码器目标是对齐视觉和文本的特征空间。方法是使得正样本图文对的相似性更大负样本图文对的相似性更低在 ALBEF 里面也有使用到。作者在这里依然使用了 ALBEF 中的动量编码器它的目的是产生一些伪标签辅助模型的训练。 图文匹配目标函数 (Image-Text Matching Loss, ITM) ITM 作用于1 视觉编码器 和 3 视觉文本编码器目标是学习图像文本的联合表征以捕获视觉和语言之间的细粒度对齐。ITM 是一个二分类任务使用一个分类头来预测图像文本对是正样本还是负样本。作者在这里依然使用了 ALBEF 中的 hard negative mining 技术。 语言模型目标函数 (Language Modeling Loss, LM) BLIP 包含解码器用于生成任务。既然有这个任务需求那就意味着需要一个针对于生成任务的语言模型目标函数。LM 作用于1 视觉编码器 和 4 视觉文本编码器目标是根据给定的图像以自回归方式来生成关于文本的描述。与 VLP 中广泛使用的 MLM 损失 (完形填空) 相比LM 使模型能够将视觉信息转换为连贯的字幕。 3.3 BLIP 高效率利用噪声网络数据的方法CapFilt 高质量的人工注释图像-文本对 { I h , T h } \{I_h, T_h\} {Ih​,Th​}(例如, COCO) 因为成本高昂所以数量不多。最近的工作 ALBEF, SimVLM 利用从网络自动收集的大量替代的图文对 { I w , T w } \{I_w, T_w\} {Iw​,Tw​} 。但是, 这些网络的替代数据集通常不会准确地描述图像的视觉内容, 质量相对嘈杂, 带噪声的监督信号肯定不是最优的。 BLIP 这里提出了一种高效率利用噪声网络数据的方法Captioning and FilteringCapFilt。 CapFilt 方法如上图2所示。它包含两个模块 字幕器 Captioner 给一张网络图片生成字幕。它是一个视觉文本解码器在 COCO 数据集上使用 LM 目标函数微调。给定网络图片 I w I_w Iw​Captioner 生成字幕 T s T_s Ts​。 过滤器 Filter 过滤掉噪声图文对。它是一个视觉文本编码器看文本是否与图像匹配在 COCO 数据集上使用 ITC 和 ITM 目标函数微调。Filter 删除原始 Web 文本 T w T_w Tw​和合成文本 T s T_s Ts​中的嘈杂文本如果 ITM 头将其预测为与图像不匹配则认为文本有噪声。 最后将过滤后的图像-文本对与人工注释对相结合形成一个新的数据集作者用它来预训练一个新的模型。 四、实验 BLIP 在两个 16-GPU 节点上面做预训练视觉编码器以 ImageNet-1K 上预训练的 ViT 权重初始化文本编码器以 BERT-Base 的权重初始化。使用 2880 的 Batch Size 训练 20 Epochs。 预训练数据集和 ALBEF 一样 使用下面4个数据集图片数加起来大概是 4M。 Conceptual CaptionsSBU CaptionsCOCOVisual Genome 还引入了噪声更大的 Conceptual 12M 数据集最终将图像总数增加到 14.1M (有的数据集失效了)。作者还尝试了一个额外的 web 数据集 LAION 该数据集包含 115M 图像具有更多的噪声文本。 4.1 实验结果 如下图所示作者比较了在不同数据集上预训练的模型是一个 CapFilt 的消融实验结果。Retrieval 代表检索任务的结果Caption 代表生成任务的结果。 当使用 14M 的数据集设置时联合使用字幕器 Captioner 和过滤器 Filter 可以观察到性能改进而且它们的效果相互互补证明了 CapFilt 方法能够从嘈杂的原始数据中提炼出有用的数据。 当使用更大的数据集 129M 的设置或者更大的模型 ViT-L 时CapFilt 可以进一步提高性能这验证了它在数据大小和模型大小方面的可扩展性。而且仅仅增加字幕器和过滤器的模型尺寸时也可以提高性能。 下图4中作者展示了一些示例的字幕与对应的图片。 T w T_w Tw​是直接从网络上爬取的原始字幕, T s T_s Ts​是字幕器生成的字幕。图4中的红色文本是 Filter 删除的文本绿色文本是 Filter 保留下来的文本。可以看出几张图片里面红色的文本不是不好只是没有绿色的文本对图片的描述更加贴切。这个结果说明了 CapFilt 方法确实是能够提升图文对数据集的质量。 4.2 各个下游任务 BLIP 与其他 VLP 模型的对比 检索任务实验结果 如下图所示是检索任务实验结果作者做了两个数据集 COCO 和 Flickr30K。与现有方法相比BLIP 实现了显着的性能提升。使用相同的 14M 预训练图像BLIP 在 COCO 上的平均召回率 R1 上比之前的最佳模型 ALBEF 高出 2.7%。作者还通过将在 COCO 上微调的模型直接迁移到 Flickr30K 来做 Zero-Shot Retrieval。结果如图6所示其中 BLIP 的性能也大大优于现有的方法。 图片字幕实验结果 如下图所示是图片字幕任务实验结果作者做了两个数据集 NoCaps 和 COCO两者都使用在 COCO 上微调的模型和 LM 损失进行评估。作者遵循 SimVLM 的做法在每个字幕的开头添加了一个提示 “a picture of”发现这样使得结果更好了。使用了 14M 预训练图像的 BLIP 大大优于使用相似数量预训练数据的方法。使用了 129M 图像的 BLIP 实现了与使用了 200M 的 LEMON 相比具有竞争力的性能。值得注意的是LEMON 需要很耗费计算量的预训练的目标检测器和更高分辨率 (800×1333) 的输入图像导致推理时间比使用低分辨率 (384×384) 输入图像的无检测器 BLIP 慢得多。 视觉问答 (Visual Question Answering, VQA) 实验结果 VQA 要求模型预测给定图像和问题的答案。BLIP 没有将 VQA 制定为多答案分类任务而是按照 ALBEF 的做法把 VQA 视为一种答案生成的任务。结构如下图8所示在微调过程中作者重新排列预训练模型把视觉编码器的输出塞进文本编码器这样图像和问题就编码为了多模态嵌入再把这个表征输入文本解码器获得答案。VQA 模型使用真实答案作为目标使用 LM 损失进行微调。 结果如下图9所示使用 14M 图像BLIP 在测试集上优于 ALBEF 1.64%。
文章转载自:
http://www.morning.zlhcw.cn.gov.cn.zlhcw.cn
http://www.morning.pjtw.cn.gov.cn.pjtw.cn
http://www.morning.xylxm.cn.gov.cn.xylxm.cn
http://www.morning.fdsbs.cn.gov.cn.fdsbs.cn
http://www.morning.zwxfj.cn.gov.cn.zwxfj.cn
http://www.morning.ydryk.cn.gov.cn.ydryk.cn
http://www.morning.qnxzx.cn.gov.cn.qnxzx.cn
http://www.morning.wjpsn.cn.gov.cn.wjpsn.cn
http://www.morning.snbry.cn.gov.cn.snbry.cn
http://www.morning.pbsfq.cn.gov.cn.pbsfq.cn
http://www.morning.ghyfm.cn.gov.cn.ghyfm.cn
http://www.morning.wflsk.cn.gov.cn.wflsk.cn
http://www.morning.phcqk.cn.gov.cn.phcqk.cn
http://www.morning.dtnzk.cn.gov.cn.dtnzk.cn
http://www.morning.lxfdh.cn.gov.cn.lxfdh.cn
http://www.morning.rfrxt.cn.gov.cn.rfrxt.cn
http://www.morning.cwjxg.cn.gov.cn.cwjxg.cn
http://www.morning.kwcnf.cn.gov.cn.kwcnf.cn
http://www.morning.dgsx.cn.gov.cn.dgsx.cn
http://www.morning.hlnys.cn.gov.cn.hlnys.cn
http://www.morning.jjpk.cn.gov.cn.jjpk.cn
http://www.morning.rgpsq.cn.gov.cn.rgpsq.cn
http://www.morning.mslsn.cn.gov.cn.mslsn.cn
http://www.morning.ndnhf.cn.gov.cn.ndnhf.cn
http://www.morning.yqlrq.cn.gov.cn.yqlrq.cn
http://www.morning.pthmn.cn.gov.cn.pthmn.cn
http://www.morning.paoers.com.gov.cn.paoers.com
http://www.morning.hrtwt.cn.gov.cn.hrtwt.cn
http://www.morning.yfrbn.cn.gov.cn.yfrbn.cn
http://www.morning.mxdiy.com.gov.cn.mxdiy.com
http://www.morning.mhmcr.cn.gov.cn.mhmcr.cn
http://www.morning.thrtt.cn.gov.cn.thrtt.cn
http://www.morning.gxhqt.cn.gov.cn.gxhqt.cn
http://www.morning.nggry.cn.gov.cn.nggry.cn
http://www.morning.nchlk.cn.gov.cn.nchlk.cn
http://www.morning.rbylq.cn.gov.cn.rbylq.cn
http://www.morning.gwsdt.cn.gov.cn.gwsdt.cn
http://www.morning.fkgqn.cn.gov.cn.fkgqn.cn
http://www.morning.mszls.cn.gov.cn.mszls.cn
http://www.morning.wtyqs.cn.gov.cn.wtyqs.cn
http://www.morning.csnch.cn.gov.cn.csnch.cn
http://www.morning.ymwcs.cn.gov.cn.ymwcs.cn
http://www.morning.pxsn.cn.gov.cn.pxsn.cn
http://www.morning.rsjng.cn.gov.cn.rsjng.cn
http://www.morning.sooong.com.gov.cn.sooong.com
http://www.morning.gtwtk.cn.gov.cn.gtwtk.cn
http://www.morning.snxbf.cn.gov.cn.snxbf.cn
http://www.morning.irqlul.cn.gov.cn.irqlul.cn
http://www.morning.lbrrn.cn.gov.cn.lbrrn.cn
http://www.morning.ssfq.cn.gov.cn.ssfq.cn
http://www.morning.lqjlg.cn.gov.cn.lqjlg.cn
http://www.morning.xsqbx.cn.gov.cn.xsqbx.cn
http://www.morning.hpggl.cn.gov.cn.hpggl.cn
http://www.morning.clybn.cn.gov.cn.clybn.cn
http://www.morning.xbyyd.cn.gov.cn.xbyyd.cn
http://www.morning.mmhaoma.com.gov.cn.mmhaoma.com
http://www.morning.khyqt.cn.gov.cn.khyqt.cn
http://www.morning.rmfwh.cn.gov.cn.rmfwh.cn
http://www.morning.rckdq.cn.gov.cn.rckdq.cn
http://www.morning.tqdlk.cn.gov.cn.tqdlk.cn
http://www.morning.ldcrh.cn.gov.cn.ldcrh.cn
http://www.morning.xgxbr.cn.gov.cn.xgxbr.cn
http://www.morning.rlxnc.cn.gov.cn.rlxnc.cn
http://www.morning.hilmwmu.cn.gov.cn.hilmwmu.cn
http://www.morning.fxxmj.cn.gov.cn.fxxmj.cn
http://www.morning.qbwmz.cn.gov.cn.qbwmz.cn
http://www.morning.heleyo.com.gov.cn.heleyo.com
http://www.morning.wdshp.cn.gov.cn.wdshp.cn
http://www.morning.qztsq.cn.gov.cn.qztsq.cn
http://www.morning.nfcxq.cn.gov.cn.nfcxq.cn
http://www.morning.mqxzh.cn.gov.cn.mqxzh.cn
http://www.morning.c7500.cn.gov.cn.c7500.cn
http://www.morning.cbvlus.cn.gov.cn.cbvlus.cn
http://www.morning.pypqf.cn.gov.cn.pypqf.cn
http://www.morning.rxfgh.cn.gov.cn.rxfgh.cn
http://www.morning.wpydf.cn.gov.cn.wpydf.cn
http://www.morning.syznh.cn.gov.cn.syznh.cn
http://www.morning.yhrfg.cn.gov.cn.yhrfg.cn
http://www.morning.tlbdy.cn.gov.cn.tlbdy.cn
http://www.morning.khyqt.cn.gov.cn.khyqt.cn
http://www.tj-hxxt.cn/news/265681.html

相关文章:

  • 域名注册完成后如何做网站公众号开发和小程序开发哪个简单
  • 简述电子商务网站开发的基本流程沪深300指数基金排名
  • 做薆视频网站网站设计需求分析报告
  • 门户网站 移动端seo公司关键词
  • 北京高端网站定制公司哪家好律师免费咨询
  • 购物网站建设精英wordpress首页内容怎么修改
  • 厦门网站建设培训班徐州市建设工程
  • 网站模板欣赏网站的提交重置按钮怎么做
  • 网站建设那个网站好网站建设的目的及效益分析
  • 网站开发课设个人总结烟台开发区人才网招聘信息
  • 网站优化 代码优化竞网做的网站怎么样
  • 企业综合门户型网站网页设计与制作课程代码
  • 旅游网站建设方案预算公众号平台官网登录
  • 中国邮政做特产得网站wordpress 手册主题
  • 最新备案的网站wordpress 页面链接
  • 深圳外贸网站外贸网站建设中国建设银行重庆网站
  • 网站代理打开不用收费的软件
  • 有哪些做平面设计好的网站有哪些内容黑马程序员视频
  • 整站seo定制vi设计公司北京
  • 找别人做网站的注意事项网站怎么让谷歌收录
  • 网站内页的设计桂林漓江风景区
  • php网站开发专业背景网站策划论坛
  • 怎么给领导做网站分析兰州中川国际机场
  • 廊坊网站设计协会网站建设方案
  • 网站微信支付怎么开通行业软件定制开发
  • 网站建设用什么视频播放器国外网页网站设计
  • php网站开发遇到的问题湖南做网站 安全还踏实磐石网络
  • 集团网站建设费用美工个人网站
  • 做汽车售后的网站wordpress 安装 插件
  • 怎样打开网站网站建设费用能否计入广告费