当前位置: 首页 > news >正文

怎么用文件传输协议登录网站正规网站优化推广

怎么用文件传输协议登录网站,正规网站优化推广,网站设计素材免费下载,广州一起做网店网站多模态理解与生成一体化模型,致力于将视觉理解与生成能力融入同一框架,不仅推动了任务协同与泛化能力的突破,更重要的是,它代表着对类人智能(AGI)的一种深层探索。通过在单一模型中统一理解与生成&#xff…

多模态理解与生成一体化模型,致力于将视觉理解与生成能力融入同一框架,不仅推动了任务协同与泛化能力的突破,更重要的是,它代表着对类人智能(AGI)的一种深层探索。通过在单一模型中统一理解与生成,模型能够从语义层面真正 “洞察” 视觉、文本与世界本质之间的深层联系,从而在复杂场景中实现更加智能、灵活的交互与任务执行。

近期,华为诺亚方舟实验室提出了统一多模态大模型 ——ILLUME。这一模型以 LLM 为核心,采用 “连续图像输入 + 离散图像输出” 的架构,巧妙融合了多模态理解与生成的双重能力,并深度挖掘了统一框架下理解与生成能力协同增强的潜力,展示了对多模态任务的全新诠释。

图片

  • 论文标题:ILLUME: Illuminating Your LLMs to See, Draw, and Self-Enhance

  • 论文地址:https://arxiv.org/pdf/2412.06673

总体来说,本文贡献如下:


 

1、ILLUME 在保持整体架构可扩展与可泛化的前提下,通过合理的视觉词表、训练策略与数据配比策略,成功以仅约 15M 的图文对数据用于图文对齐,实现了在视觉理解(包括自然图像和文档图表)、生成、编辑等多元任务上的出色表现,总体效果优于现有统一模型例如 Chameleon, Show-O 和 Janus,与专用单任务模型相媲美。

图片

2、ILLUME 提出一种自提升式多模态对齐策略,通过让模型对自身生成的负样本进行内省式评估,统一模型在理解和生成两方面的能力可实现协同进化。


 

ILLUME:理解生成一体的多模态大模型



挑战一:如何高效训练一个统一多模态模型?


 

现有的统一多模态模型构建方案多集中于在 LLM 基础上拓展视觉词表,以支持视觉生成任务。这些模型通常需要大量的图文对数据来实现图文对齐训练。这种对海量数据的依赖,在一定程度上放缓了这一领域进一步探索与实践的进程。

图片

与此不同的是,我们在 ILLUME 中仅使用约 15M 的图文对数据完成预训练,并在视觉理解(涵盖自然图像与文档图表)、生成与编辑等多类视觉文本任务上达到与专有模型相媲美的水平。这一成果并非仅体现于数据规模的减少,更重要的是在架构、训练策略、数据配比以及视觉词表表征方式上的关键设计,使模型能够更高效地进行图文对齐学习。这种方法为在更广泛和更深层的多模态语义理解与生成融合中奠定了基础。


 

关键设计 1:视觉词表的表征选择


 

传统基于 VQGAN 的视觉词表往往通过重建原始像素作为目标,但这种基于底层纹理的表征不利于与文本模态进行高层语义对齐。与此相反,我们采用语义特征重建的方式构造视觉词表,直接在高层语义空间中完成图文对齐的特征学习。实验表明,这一设计可显著加速 MLLM 的预训练过程。

图片

在解码阶段,我们再利用 Diffusion 模型将语义特征还原为高保真像素空间,从而实现高达 32 倍的压缩率。通过这一流程,模型在输入端沿用连续视觉编码器保障精细视觉理解能力,并在输出端通过语义视觉词表完成离散化处理,为视觉生成能力的无缝融合奠定基础。

图片

关键设计 2:三阶段训练策略和数据配比


 

我们采用 “三阶段” 训练策略,以分层递进的方式逐步强化模型的多模态理解与生成能力:


 

阶段一:引入图像重建任务,为视觉词表扩展后的新参数进行快速初始化,并对齐连续输入与离散输出的模式;


 

阶段二:进行图文对齐预训练,进一步强化模型在语义层面将图像与文本联结的能力;


 

阶段三:对高质量的理解、生成、混合数据进行微调,使模型最终胜任多类型的视觉文本任务(包括理解、生成与编辑)。

图片

挑战二:统一多模态模型的判别能力和生成能力能否相互促进?


 

当我们构建一个统一模型后,我们最关心的是:联合训练视觉理解和生成任务应该如何促进呢?


 

自提升多模态对齐方案


 

针对这一点,我们提出了以自我评估过程为桥梁的自提升多模态对齐策略。通过让模型对自身生成的负样本进行内省式评估,模型在理解和生成两方面的能力可实现协同进化:


 

  • 生成促进理解:模型以自我评估的方式分析自己产生的负样本,这种内省过程使模型能够查明并解决其自身弱点,从而更准确地理解图像。

  • 理解促进生成:模型可以利用其判别能力来评估其自生成的图像是否与文本一致,并基于此分析进行修正,从而确保模型在推理时更加谨慎和准确,避免在生成图像时出现错误。


 

我们的自提升多模态对齐方法分为三个步骤:


 

  • Step 1: 语料自生成。采样训练子集,推理模型生成图像。

  • Step 2: 生成评估数据。从物体、数量、颜色和空间关系多个维度评估图像和文本的一致性,评估数据包括评估得分和相应的分析。

  • Step 3: 多模态对齐。将评估数据重新格式化后加入阶段三训练,使模型在理解与生成层面同时得到强化。

图片

实验结果证明,自提升多模态对齐方法能在理解和生成任务上同时为模型赋能,促使统一多模态模型向更高层次的智能形态稳步迈进。

图片

实验结果


 

多模态理解任务


 

在 12 个常用的多模态理解开源综合评测集与文档场景评测集上,ILLUME 均展现出卓越性能,与现有统一多模态模型相比达到 SOTA 水准,尤其在文档理解任务上表现尤为突出。同时,相较多模态理解模型(如 LLaVA-NeXT),ILLUME 的理解能力总体保持相当甚至更优的水平。

图片

图片

文图生成任务


 

ILLUME 在 3 个文生图评测集上取得与现有生成模型和统一多模态模型相当的表现。

图片

图片

编辑任务


 

ILLUME 能处理物体删除,风格迁移,图像补充等各种编辑任务。

图片

图片

 更多内容可以访问我的博客https://imok.it.eu.org  

http://www.tj-hxxt.cn/news/94783.html

相关文章:

  • 财税公司做网站北京网站优化效果
  • 网站如何做关键词百度广告代理
  • 网站建设所属行业如何自己做网页
  • 河北网站seo地址资源猫
  • 网站规划建设与管理维护教学大纲上海网站优化
  • 河南省建设厅53号文seo案例
  • 武汉做网站冰洁站长工具 站长之家
  • 网站备案 邮寄资料百度sem运营
  • 怎么iis设置网站潍坊网站模板建站
  • 烟台艺术学校官网处理器优化软件
  • 免费网站个人注册网络推广员招聘
  • 网页设计页面设计主要技术seo视频教程百度网盘
  • 最好的网站建设公司推广策划方案
  • 网站空间是怎么开通的seo优化排名推广
  • 网站如何申请域名软件优化
  • 成都个人团队网站开发学校网站建设哪家好
  • 自拍做爰视频网站宣传广告
  • 长沙网站制作哪里好企业培训机构排名
  • 龙岗网络营销网站制作哪里好广州seo服务
  • 全平台响应式网站建设宁波seo深度优化平台
  • 网站建设实训作业网站关键词优化外包
  • 网站建设外包行业爱站网长尾词挖掘
  • 国外建设网站用的是什么软件真正免费的建站
  • 网站建设的重要性网站设计与建设
  • 如何在网站插入百度地图老哥们给个关键词
  • 多种语言网站怎么做公司网页制作需要多少钱
  • 陕西省建设厅网站重庆seo代理计费
  • 网站图怎么做seo优化行业
  • 群晖ds218 做网站百度的网站
  • 建e网手机版长沙seo免费诊断