当前位置: 首页 > news >正文

张家口万全区建设网站科技强国向秦始皇直播四大发明

张家口万全区建设网站,科技强国向秦始皇直播四大发明,河北seo人员,免费购物网站源码Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation 目录 0. 摘要 1. 引言 2. 自回归模型在图像生成中的应用 2.1 概述 2.2 图像 tokenizer 2.3 自回归模型生成图像 2.4 规模扩展 2.5 服务 3. 实验 5. 结论 0. 摘要 我们介绍 LlamaGen一个新的图像生成模型家族该模型将大型语言模型LLM的原始 “下一 token 预测” 范式应用于视觉生成领域。这是对纯粹的自回归模型例如 Llama在没有视觉信号上的归纳偏差的情况下通过适当扩展是否能实现最先进的图像生成性能的肯定回答。我们重新审视了图像 tokenizer 的设计空间、图像生成模型的可扩展性属性及其训练数据质量。这次探索的成果包括 一个图像 tokenizer具有 16 倍的下采样比在 ImageNet 基准测试中实现了 0.94 的 rFID 重建质量和 97% 的码本使用率。一系列类别条件的图像生成模型参数从 111M 到 3.1B 不等在 ImageNet 256×256 基准测试中实现了 2.18 的 FID超过了流行的扩散模型如 LDM 和 DiT。一个具有 775M 参数的文本条件图像生成模型通过在 LAION-COCO 和高美学质量图像上的两阶段训练展示了在视觉质量和文本对齐方面的竞争性能。我们验证了 LLM 服务框架在优化图像生成模型推理速度方面的有效性实现了 326% - 414% 的加速。 我们发布了所有模型和代码以促进开源社区的视觉生成和多模态基础模型的发展。 1. 引言 基于自回归模型大型语言模型LLMs通过预测序列中的下一个 token 来生成文本。这种 “下一 token 预测” 范式在以类似人类对话的方式解决语言任务方面表现出了前所未有的能力并展现了惊人的可扩展性显示了通用人工智能模型的潜在路径。 自回归模型在大型语言模型上的可扩展性被验证后先驱性工作尝试探索自回归模型在图像生成中的应用例如VQVAE DALL-EParti。他们引入图像 tokenizer将连续图像转换为离散 token并应用自回归模型以 “下一 token 预测” 的方式生成图像 token。他们在 2022 年前的同类中表现出了强大的性能。然而他们的开源社区发展不完善这在很大程度上限制了其进一步的改进。 同期另一种图像生成方法扩散模型快速发展。伴随着其开源社区他们主导了直到今天的视觉生成领域。然而扩散模型与自回归语言模型有着截然不同的范式这对构建统一的语言和视觉模型提出了巨大的挑战。 在这项工作中我们致力于进一步推进自回归模型在图像生成方面的应用继续其研究方法并为开源社区做出贡献。回顾 2024 年前的图像生成文献我们确定了现有高级模型的三个关键点1精心设计的图像压缩器2可扩展的图像生成模型和 3高质量的训练数据。受此启发我们重新审视了图像 tokenizer自回归模型的图像压缩器的设计、图像生成模型的可扩展性属性及其训练数据的影响。 为了实现语言和视觉之间潜在的统一模型我们的设计是减少对视觉信号的归纳偏差并采用与 LLM 相同的架构。这与最近的一些工作所采用的以视觉为导向的设计不同。例如MaskGIT 和 MAGVIT 采用了掩码图像建模策略VAR 使用了分层多尺度属性。尽管它们在实现领先的图像生成性能方面取得了成功甚至超过了扩散模型但仍不清楚原始语言模型架构是否具备这种能力。相反我们的工作揭示了应用与语言模型完全相同的 “下一 token 预测” 的纯粹自回归模型也能够实现最先进的图像生成性能。额外的好处是我们可以利用 LLM 社区开发的技术来优化我们模型的训练配方和推理速度。 我们发布了所有模型和代码以促进视觉生成和多模态基础模型的开源社区的发展。值得注意的是我们发布的模型在性能上仍落后于基于扩散模型的最先进视觉生成模型 [Alpha-VLLM 2024; Esser等人 2024; Brooks等人 2024]。当未来有更多的训练数据和计算资源可用时将探索更大规模的基于 AR 的视觉生成模型例如超过 7B 参数的模型。 2. 自回归模型在图像生成中的应用 2.1 概述 首先图像像素 x∈R^(H×W×3) 被图像 tokenizer 量化为 q∈Q^(h×w) 的离散 token其中 hH/pwW/pp 是图像 tokenizer 的下采样率q^(i,j) 是图像码本的索引。然后这些图像 token 被重新排列为按照栅格扫描顺序的 h⋅w 个 token 序列并用于训练基于 Transformer 的自回归模型。 在图像生成过程中图像 token (q1,q2,...,q_(h⋅w)) 由自回归模型通过 “下一 token 预测” 的方式生成 其中 c 是类别标签嵌入或文本嵌入。最后这些图像 token 通过图像 tokenizer 解码器转换为图像像素。 2.2 图像 tokenizer 量化自编码器架构。我们使用与 VQGAN 相同的架构即编码器-量化器-解码器。编码器和解码器是具有下采样比率 p 的卷积网络。量化器包含一个码本 Z∈R^(K×C)其中有 K 个可学习的向量。编码器将图像像素 x 投射到特征图 f。量化过程将特征图中的每个向量 f^(i,j) 映射到码本中最接近的向量 z^(i,j) 的编码索引 q^(i,j)。在解码过程中编码索引 q^(i,j) 被重新映射到特征向量 z^(i,j)解码器将这些特征向量转换回图像像素 ^x。 码本对图像 tokenization 性能有重大影响。根据 [Yu等人 2021]我们对码本向量使用 ℓ_2 正则化、低码本向量维度 C 和大码本大小 K。这些设计显著提高了重建质量和码本的使用率。更多细节将在实验中讨论。 训练损失。由于量化是不可微操作使用直通梯度估计器straight-through gradient estimator来保持从解码器到编码器的梯度z sg[z−f] f其中 sg[⋅] 是停止梯度操作。对于码本学习L_VQ || sg[f] − z ||^2_2 β·|| f − sg[z] ||^2_2其中第二项是 commitment loss迫使从编码器提取的特征向量接近码本向量β 是 权重。为了简化我们在码本学习中不添加熵损失 [Yu等人 2023a; Chang等人 2022]。 对于图像重建训练 其中 ℓ_2 是图像像素的重建损失L_P(⋅) 是来自 LPIPS 的感知损失LG(⋅) 是与图像 tokenizer 同时训练的 PatchGAN [Isola等人 2017] 鉴别器的对抗损失λ_G 是对抗损失权重。 2.3 自回归模型生成图像 Llama 架构。我们的模型架构主要基于 Llama应用了 RMSNorm 进行预归一化pre-normalizationSwiGLU 激活函数以及旋转位置嵌入。具体来说我们在每一层模型中使用 2D RoPE按照 [Lu et al. 2023; Fang et al. 2023] 的实现方法。我们不使用 AdaLN 技术以保持我们的结构与 LLM 一致。 类别条件图像生成。类别嵌入从一组可学习的嵌入中索引并用作预填充 token 嵌入。从这个 token 嵌入开始模型通过下一 token 预测的方式生成图像 token 序列并在预定义的最大长度位置停止。 文本条件图像生成。为了将文本条件整合到自回归模型中我们使用 FLAN-T5 XL 作为文本编码器编码后的文本特征通过一个额外的 MLP 投影并用作自回归模型中的预填充 token 嵌入。我们注意到这种设计并不是多模态基础模型的最终设计其中语言和视觉之间建立了统一的词汇表。我们将其留待未来研究。 无分类器指导。在扩散模型社区中开发的无分类器指导以其提高视觉质量和文本图像对齐而闻名。我们在我们的模型中采用了这一方法。在训练过程中条件随机丢弃并被一个空的无条件嵌入取代。在推理时对于每个 token其 logit ℓ_g 由 ℓ_g ℓ_u s(ℓ_c − ℓu) 形成其中 ℓ_c 是条件 logitℓ_u 是无条件 logits 是无分类器指导的缩放比例。 值得注意的是迄今为止讨论的所有设计选择主要受到先前工作的启发例如图像 tokenizer 借鉴自 [Rombach et al. 2022; Yu et al. 2021]图像生成来自 [Peebles Xie 2023; Chen et al. 2023b; Esser et al. 2021]。这些技术的大部分在扩散模型中研究得很好但在自回归模型中研究得较少。我们的工作将这些先进的设计集体适应于基于自回归的视觉生成模型。 2.4 规模扩展 我们的模型架构与 Llama 几乎相同这使我们能够无缝采用 LLM 社区中的优化技术和训练方案。如表 1 所示我们在这项工作中将模型规模扩展到 3.1B 参数。所有模型都使用 PyTorch 2 实现并在 80GB A100 GPU 上进行训练。对于参数少于 1.4B 的模型我们直接使用 DDP否则我们采用 PyTorch FSDP 来优化 GPU 内存使用。 2.5 服务 自回归模型一直受困于其低推理速度。随着大规模语言模型的快速发展LLM 社区提出了高级推理技术来优化推理速度。与训练类似LLM 社区开发的推理技术也可以用来优化我们的模型。我们验证了 vLLM 这一最流行的 LLM 服务框架之一在我们的图像生成方法上的有效性。如表 7 所示与基线设置相比实现了 326% - 414% 的加速。 3. 实验 5. 结论 在这项工作中我们深入研究了用于可扩展图像生成的普通自回归模型。通过重新审视其图像 tokenizer、图像生成模型和训练数据我们的类别条件模型优于流行的扩散模型而我们的文本条件模型在视觉质量和文本对齐方面表现出竞争力。  论文地址https://arxiv.org/abs/2406.06525 项目页面https://github.com/FoundationVision/LlamaGen  公和众与号EDPJ进 Q 交流群922230617 或加 VXCV_EDPJ 进 V 交流群 加 VX 群请备注学校 / 单位 研究方向 
文章转载自:
http://www.morning.nhzxd.cn.gov.cn.nhzxd.cn
http://www.morning.gybnk.cn.gov.cn.gybnk.cn
http://www.morning.lxfyn.cn.gov.cn.lxfyn.cn
http://www.morning.ftntr.cn.gov.cn.ftntr.cn
http://www.morning.lktjj.cn.gov.cn.lktjj.cn
http://www.morning.wqcbr.cn.gov.cn.wqcbr.cn
http://www.morning.jjxxm.cn.gov.cn.jjxxm.cn
http://www.morning.jrsgs.cn.gov.cn.jrsgs.cn
http://www.morning.yghlr.cn.gov.cn.yghlr.cn
http://www.morning.zylzk.cn.gov.cn.zylzk.cn
http://www.morning.kxbdm.cn.gov.cn.kxbdm.cn
http://www.morning.jsljr.cn.gov.cn.jsljr.cn
http://www.morning.ywzqk.cn.gov.cn.ywzqk.cn
http://www.morning.dytqf.cn.gov.cn.dytqf.cn
http://www.morning.srnth.cn.gov.cn.srnth.cn
http://www.morning.whothehellami.com.gov.cn.whothehellami.com
http://www.morning.zlzpz.cn.gov.cn.zlzpz.cn
http://www.morning.tkzqw.cn.gov.cn.tkzqw.cn
http://www.morning.skkmz.cn.gov.cn.skkmz.cn
http://www.morning.kmwbq.cn.gov.cn.kmwbq.cn
http://www.morning.yrjxr.cn.gov.cn.yrjxr.cn
http://www.morning.zrkws.cn.gov.cn.zrkws.cn
http://www.morning.ryywf.cn.gov.cn.ryywf.cn
http://www.morning.wknj.cn.gov.cn.wknj.cn
http://www.morning.bswnf.cn.gov.cn.bswnf.cn
http://www.morning.xphcg.cn.gov.cn.xphcg.cn
http://www.morning.xnkb.cn.gov.cn.xnkb.cn
http://www.morning.lpmjr.cn.gov.cn.lpmjr.cn
http://www.morning.drhnj.cn.gov.cn.drhnj.cn
http://www.morning.mwcqz.cn.gov.cn.mwcqz.cn
http://www.morning.yswxq.cn.gov.cn.yswxq.cn
http://www.morning.bqwrn.cn.gov.cn.bqwrn.cn
http://www.morning.tnmmp.cn.gov.cn.tnmmp.cn
http://www.morning.nhzxd.cn.gov.cn.nhzxd.cn
http://www.morning.wgbmj.cn.gov.cn.wgbmj.cn
http://www.morning.pxspq.cn.gov.cn.pxspq.cn
http://www.morning.ltkms.cn.gov.cn.ltkms.cn
http://www.morning.glnxd.cn.gov.cn.glnxd.cn
http://www.morning.nylbb.cn.gov.cn.nylbb.cn
http://www.morning.trrpb.cn.gov.cn.trrpb.cn
http://www.morning.hsrpc.cn.gov.cn.hsrpc.cn
http://www.morning.jfcbz.cn.gov.cn.jfcbz.cn
http://www.morning.lxngn.cn.gov.cn.lxngn.cn
http://www.morning.zrqs.cn.gov.cn.zrqs.cn
http://www.morning.fldk.cn.gov.cn.fldk.cn
http://www.morning.rlsd.cn.gov.cn.rlsd.cn
http://www.morning.rqnzh.cn.gov.cn.rqnzh.cn
http://www.morning.srkqs.cn.gov.cn.srkqs.cn
http://www.morning.lxbml.cn.gov.cn.lxbml.cn
http://www.morning.rymd.cn.gov.cn.rymd.cn
http://www.morning.clccg.cn.gov.cn.clccg.cn
http://www.morning.pxwjp.cn.gov.cn.pxwjp.cn
http://www.morning.spqbp.cn.gov.cn.spqbp.cn
http://www.morning.nwnbq.cn.gov.cn.nwnbq.cn
http://www.morning.dybth.cn.gov.cn.dybth.cn
http://www.morning.fbdkb.cn.gov.cn.fbdkb.cn
http://www.morning.mtsck.cn.gov.cn.mtsck.cn
http://www.morning.fncgw.cn.gov.cn.fncgw.cn
http://www.morning.tqbw.cn.gov.cn.tqbw.cn
http://www.morning.ndmh.cn.gov.cn.ndmh.cn
http://www.morning.rsnd.cn.gov.cn.rsnd.cn
http://www.morning.ryglh.cn.gov.cn.ryglh.cn
http://www.morning.sfqtf.cn.gov.cn.sfqtf.cn
http://www.morning.bmhc.cn.gov.cn.bmhc.cn
http://www.morning.pmwhj.cn.gov.cn.pmwhj.cn
http://www.morning.sskns.cn.gov.cn.sskns.cn
http://www.morning.qkqpy.cn.gov.cn.qkqpy.cn
http://www.morning.jrhmh.cn.gov.cn.jrhmh.cn
http://www.morning.tgmfg.cn.gov.cn.tgmfg.cn
http://www.morning.nfpct.cn.gov.cn.nfpct.cn
http://www.morning.ynlpy.cn.gov.cn.ynlpy.cn
http://www.morning.tnhg.cn.gov.cn.tnhg.cn
http://www.morning.rjkfj.cn.gov.cn.rjkfj.cn
http://www.morning.qzbwmf.cn.gov.cn.qzbwmf.cn
http://www.morning.wbxtx.cn.gov.cn.wbxtx.cn
http://www.morning.bpmdh.cn.gov.cn.bpmdh.cn
http://www.morning.msbpb.cn.gov.cn.msbpb.cn
http://www.morning.lbgsh.cn.gov.cn.lbgsh.cn
http://www.morning.qsswb.cn.gov.cn.qsswb.cn
http://www.morning.sjwws.cn.gov.cn.sjwws.cn
http://www.tj-hxxt.cn/news/243223.html

相关文章:

  • 电商网站开发合同企业主页制作方法
  • 泳衣服饰东莞网站建设唐山建设网站公司
  • 怎样做浏览的网站不被发现河源新闻最新消息
  • 计算机科学与技术网站哈尔滨市建设网
  • 小型IT网站开发公司前端微信公众号开发
  • 淘宝客网站是怎么做的做tcf法语听力题的网站
  • 点卡平台网站开发wordpress 播客网站
  • 入门做外贸是先建网站还是先参展贵阳做网站找哪家好
  • 怎么做服务网站深圳seo优化公司哪家好
  • 如何登录建设部网站电脑版网站的后台怎么做的
  • 河北网站开发公司无锡高端网站设计
  • 做网站上传图片一直错误专业营销型网站
  • 有二维码怎样做网站郑州企业健康码二维码怎么弄就是放在门口让人扫
  • 网站缩略图存哪里好电脑做试卷的网站
  • 合肥移动网站建设雄安做网站优化
  • 网站 目录 结构怎么创建手机网站
  • 网站伪静态好还是静态好网站设计是用什么软件做
  • 重庆渝中区企业网站建设哪家好网站开发环境和运行环境
  • 折800网站模板上海建设银行网站静安支行
  • 宁波网站seo哪家好iss里面的默认网站开启不了提示服务器无响应.怎么开启
  • 更改网站模板株洲seo推广
  • php网站程序怎么安装室内设计平面图纸
  • 微网站建设开发app开发教程
  • 如何做p2p网站最新外贸电商平台
  • 网站开发基础班内容有哪些小企业公司网站怎么建
  • 东莞企业制作网站网站建设开发公司报价
  • 免费 微网站公司网站推广怎么做
  • 网页网站自做全搞定郑州做网站找赢博科技
  • 网站加载不出来是什么原因如何不花钱建设网站
  • 有了自己的域名怎么做网站海东市网站建设