当前位置: 首页 > news >正文

做国外的众筹网站有哪些网站建设讠金手指 22

做国外的众筹网站有哪些,网站建设讠金手指 22,洛阳最好的做网站的公司,品牌策划与推广方案原文地址#xff1a;multimodal-large-language-models-apples-mm1 2024 年 4 月 13 日 抽象是计算机科学中最关键的概念之一#xff0c;具有一些最强大的影响。从简单的角度来看#xff0c;抽象就是将某一事物应用于多种不同情况的能力。例如#xff0c;如果你创造了一种…原文地址multimodal-large-language-models-apples-mm1 2024 年 4 月 13 日 抽象是计算机科学中最关键的概念之一具有一些最强大的影响。从简单的角度来看抽象就是将某一事物应用于多种不同情况的能力。例如如果你创造了一种方法可以在工厂中成功地根据苹果的大小进行分类那么你的解决方案也可以抽象为以同样的方式对橘子或桃子进行分类。这样通过抽象一个非常强大的解决方案就能从根本上影响世界的多个部分。 虽然大型语言模型Large Language Models在以文本作为输入时的推理能力非常出色但最近我们已经能够对其输入进行抽象使其能够对图像和声音进行推理。 下面这篇文章将介绍苹果公司 MM1 论文中的架构删减以及他们在构建多模态大型语言模型MLLM时的研究成果。 抽象LLM型输入 大型语言模型背后的架构可以追溯到 2017 年的论文《Attention is All You Need》其中介绍了 Transformer 架构。 本文展示了如何将人类语言转化为神经网络可以处理的标记在该论文中处理为不同的语言 从图中可以看到我们很早就进行了转换将输入转换为标记嵌入部分。然而只有文本数据才能被映射为标记这并没有内在的原因。因此该领域开始尝试将其他类型的数据映射为标记。 MM1 架构基础 苹果的模型有三个关键组件视觉转换器ViT图像编码器、视觉语言连接器和大型语言模型。假设你已经对大型语言模型及其工作原理有了一定的了解下面我们就来深入了解图像编码器和视觉语言连接器。 图像编码器和视觉连接器 虽然从抽象的角度来看我们可以将文本和图像想象成简单的不同输入类型但要使其正常工作我们需要接受的是我们可能必须以不同的方式处理它们才能将它们转换成令牌形式。目前我们有两个不同的系统来帮助我们将图像转换成 LLM 可以推理的标记图像编码器和连接器。 首先图像编码器负责将我们的图像转换成转换器模型可以理解的标记形式。 其次连接器从图像编码器中获取数据并将其转换为直接传递给大型语言模型的数据。鉴于图像编码器会返回标记你可能会问为什么我们需要连接器。我们的想法似乎是图像编码器在其标记中提供了太多信息因此为了在优化推理的同时降低成本我们希望有选择地传递信息。 下图显示了我们正在使用的数据流。 消融 机器学习中的消融研究围绕着删除和修改模型的某些部分以了解它们对整体性能的贡献。苹果的研究围绕着不同的图像编码器训练方式、VL Connector 的不同投影仪以及不同的预训练数据展开。 图像编码器消融 在图像编码器方面CLIP 和 AIM 模型、图像分辨率大小以及模型训练数据集都有所不同。下图显示了每种消融的结果。 让我们来回顾一下上面的主要部分并解释一下它们是什么。 CLIP 是 对比语言图像预训练Contrastive Language Image Pre-training的缩写目的是通过为文本中的事物提供名称帮助模型学习视觉概念。如下图所示它将图像与文本编码配对以便模型最终将视觉标记下图中表示为 I文本标记为 T连接起来。这种方法称为对比训练。 AIM 是自回归图像模型的缩写通过重建损失优化算法对其进行训练。这里的目标是看变换器能否重新创建重建所给的图像。 这里的图像分辨率指的是输入转换器的像素数。例如378 x 378 的图像分辨率意味着我们将输入该大小的矩阵然后将其转换为嵌入式数据再在此基础上对模型进行训练。训练数据分为 (DFN-2B)、(DFN-5B)、(DFN-5B VeCap) 和 (ImageText-400M)。 VL 连接消融 对于 VL Connector他们测试了使用 64 或 144 标记的图像测试了使用 224、336 和 378 的图像分辨率并选择了几种架构。下面我将简要介绍一下这些架构。 平均池化 和它听起来的意思一样取所有tokens的平均值然后对这个平均值进行线性投影使网格为 8x8 或 12x12。 注意力池假设图像标记应被视为来自与文本标记完全不同的群体集的样本。在这里我们调整了每张图片输入的标记数量在本文中称为 k 可学习查询。研究人员只考虑了 64 或 144 的 k。 卷积映射是 Honeybee 提出的一种方法它使用 ResNet 来动态决定从图像传递到 LLM 的词块数量。这在 C-Abstractor 模块中得以实现。 从上面可以看出不同的架构实际上影响不大。正如我们所猜测的那样更高分辨率的图像和更多的令牌通过会提高所有连接器的性能但并不显著。 这一发现表明我们要么还没有找到更好的方法将图像编码器与 LLM 连接起来要么这一领域根本就不是优秀模型能够脱颖而出的地方。 训练前数据消融 在这里使用了 4 种不同的数据带标题的图像、带标题的合成图像、交错图像-文本数据和纯文本数据。他们发现了 4 条经验每条经验都有一张图表来总结性能变化。 首先交错数据有助于提高少镜头和纯文本性能而字幕数据则有助于提高零镜头性能。研究人员改变了交错的程度下图显示了结果。正如你所看到的在使用交错数据训练的模型上少镜头提示的表现明显优于使用全部或无交错数据训练的模型。 其次纯文本数据有助于少量推理。这里的纯文本是指训练数据包括图像示例和纯文本示例。这样做是为了确保模型既能理解人类语言也能理解图像。将纯字幕与带文字字幕进行比较后发现除 0 次拍摄推理外其他所有推理都有明显改善然而除 TextCore 测试外在其他所有测试中纯交错数据的表现都优于交错加文字数据 然后如果图像和文本的混合比例恰当就能获得非常强大的性能。上图显示了交错标题数据与纯文本数据的不同比例。由于目标是建立一个多模式模型他们从未测试过没有图像数据时的性能。 接着合成数据有助于少镜头学习。VeCap 是 Visual-enriched Caption 的缩写它是一种创建标题的方法确保标题能够描述图片的关键视觉片段。反过来想象一下标题可以解释一张照片背后的含义但却不解释照片中的任何元素。如果你的数据抓取器发现图片的alt-text数据很差你通常会这样做。 这里的作者得出结论VeCap 对少量照片的推理有 非同小可 的促进作用但对质量的提高相对较小。这就对 VeCap 的成本效益提出了质疑。 研究结果 利用消融结果创建了两种形式的 Transformer 专家混合型和普通型。这两种模型都有一个编码器编码器的图像为 378 x 378仅使用 DFN-5B 数据集进行预训练。它们混合了 45% 的字幕数据、45% 的交错数据和 10% 的纯文本数据近似于图像与文本数据 91:9 的比例。VL Connector 有 144 个标记他们选择了一个 C Abstractor不过他们指出这是一个有些随意的选择。对于 LLM 本身他们创建了一个 3B、7B 和 30B 参数模型MoE 模型最高只能达到 7B。下图显示了这些模型的性能。 有趣的是30B 参数模型的性能与其他比它多数十亿参数的模型LLaVA-NeXT-34B 等相当这表明参数大小与性能之间可能存在某种量子关系。 结论 多模态 LLM 是该领域令人兴奋的一部分。随着我们找到更好的方法将不同数据类型传输到令牌中我们可能会为这些变压器开辟更广阔的应用领域。展望未来我们可以考虑如何在文本描述之外输入其他感官例如声音、气味甚至触觉。数据质量可能只会变得越来越有价值。
http://www.tj-hxxt.cn/news/219202.html

相关文章:

  • 培训机构网站php源码网站调整方案
  • 可信网站 认证规则做网页代码的素材网站
  • 学生做网站的软件哪学网页设计好
  • 网站图片切换代码自己做的网站能上传到凡科吗
  • 如室室内设计网站官网北京网站建设 降龙网
  • 网站修改标题有影响吗黄酒的电商网页设计网站
  • 西安的做网站的公司批量注册域名
  • 软件公司做网站贵州住房城乡建设厅网站
  • 如何制作公司网站免费wordpress 顶部 空白
  • 制作网站怎样找公司来帮做网页设计尺寸要缩进多少
  • 响水做网站需要多少钱常州网站建设优化
  • 做网站广告推广平台行业网站策划方案
  • 什么样的网站利于百度优化电器网站建设
  • 京东网站开发费用wordpress默认主题12
  • 服装公司网站建设方案wordpress links插件
  • 做网站是用的那个开发软件建设手机银行
  • 别人做的网站怎么打开吗重庆景点分布图
  • 17一起做网站后台wordpress ftp附件
  • 自己做网站怎么挣钱wordpress教育主题
  • 可以做推广的门户网站网站流量用完
  • 8网站免费建站网站建设和优化排名
  • 织梦网站模板如何安装教程互联网服务平台登录
  • 同学录网站开发实现基本要求wordpress 顶部公告
  • 本机做网站如何访问优品ppt模板网官网
  • 网站运营与营销济南建设厅网站安全员
  • 网站 app开发 财务做帐网站自己做推广
  • 网站制作公司教你怎么制作网站企业号官网入口
  • 电子商务网站建设合同pc建站网站
  • 企业网站建设一般包含哪些内容黄岩网站制作
  • 动态ip可以做网站智能手机应用开发