当前位置: 首页 > news >正文

网站简单布局图发布网站的两种方法

网站简单布局图,发布网站的两种方法,建网站要钱吗 优帮云,有没有接单做加工的网站欢迎关注【youcans的AGI学习笔记】原创作品 【微软#xff1a;多模态基础模型】#xff08;1#xff09;从专家到通用助手 【微软#xff1a;多模态基础模型】#xff08;2#xff09;视觉理解 【微软#xff1a;多模态基础模型】#xff08;3#xff09;视觉生成 【微… 欢迎关注【youcans的AGI学习笔记】原创作品 【微软多模态基础模型】1从专家到通用助手 【微软多模态基础模型】2视觉理解 【微软多模态基础模型】3视觉生成 【微软多模态基础模型】4统一视觉模型 【微软多模态基础模型】3视觉生成 Multimodal Foundation Models: From Specialists to General-Purpose Assistants3. 视觉生成3.1 视觉生成概述3.1.1 视觉生成中的人类对齐3.1.2 文本到图像生成 3.2 空间可控生成Spatial Controllable Generation3.3 基于文本的编辑Text-based Editing3.4 遵循文本提示Text Prompts Following3.5 视觉概念定制Concept Customization3.6 趋势统一调整以实现与人类对齐 Multimodal Foundation Models: From Specialists to General-Purpose Assistants 2023 年 6 月微软在 CVPR2023 发表论文「 多模态基础模型从专家到通用助手 」Multimodal Foundation Models: From Specialists to General-Purpose Assistants 。本文全面综述了多模态基础模型的分类和演化这些模型展示了视觉和视觉语言能力并重点关注了从专家向通用助手的过渡。 本文是对论文 “Multimodal Foundation Models: From Specialists to General-Purpose Assistants” 的翻译仅供学习使用。 论文下载地址 https://arxiv.org/abs/2309.10020 https://ar5iv.labs.arxiv.org/html/2309.10020 3. 视觉生成 Chapter 3Visual Generation 视觉生成旨在生成高保真的视觉内容包括图像、视频、神经辐射场、3D点云等等。 这个主题是最近流行的AI生成内容AIGC的核心这种能力对创意应用非常关键例如设计、艺术和创建多模态内容。它还在合成训练数据方面发挥了重要作用帮助理解模型从而实现多模态内容的理解和生成的闭环。 要利用视觉生成关键是生成与人类意图严格一致的视觉数据。这些意图被输入到生成模型中作为输入条件如类别标签、文本、边界框、布局掩码等。鉴于开放式文本描述所提供的灵活性文本条件包括文本到图像/视频/3D等已经成为条件视觉生成中的关键主题。 在本章中我们描述了如何在视觉生成中与人类意图保持一致重点关注图像生成。 我们在第3.1节概述了当前文本到图像T2I生成的现状强调了它在与人类意图对齐方面的局限性。本章的核心部分致力于回顾四个目标领域的文献这些领域旨在增强T2I生成中的对齐性即在第3.2节回顾了关于空间可控T2I生成、在第3.3节回顾了关于基于文本的图像编辑、在第3.4节回顾了更好地遵循文本提示在第3.5节回顾了关于T2I生成中的概念定制。在每个小节的末尾我们分享了对当前研究趋势和短期未来研究方向的观察。在第3.6节汇总了这些讨论并展望了未来的趋势。具体来说我们设想开发一个通用的T2I生成模型它可以更好地遵循人类意图以统一并替代四个独立的对齐工作类别。 在本章中我们将描述如何在视觉生成中与人类意图保持一致重点是图像生成。我们在第3.1节中首先概述了文本到图像T2I生成的当前状态强调了它在与人类意图对齐方面的局限性。本章的核心内容是回顾关于四个目标领域的文献这些领域旨在增强T2I生成中的对齐即第3.2节中的空间可控T2I生成、第3.3节中的基于文本的图像编辑、第3.4节中更好地遵循文本提示以及第3.5节中T2I生成的概念定制。在每个小节的末尾我们分享了我们对当前研究趋势和短期未来研究方向的观察。这些讨论集中在第3.6节中我们通过考虑未来趋势来结束本章。具体来说我们设想开发一个多面手T2I生成模型该模型可以更好地遵循人类意图统一和替换四个单独的对齐工作类别。 3.1 视觉生成概述 3.1.1 视觉生成中的人类对齐 在T2I生成背景下人工智能的对齐研究是致力于图像生成模型的研究领域这些模型可以轻松遵循人类意图来合成所需生成的视觉内容。目前的文献通常关注普通 T2I 模型的某个特定弱点这个弱点阻碍了它们准确地生成与人类意图对齐的图像。本章深入探讨了四个常见的研究问题如图3.1(a)所示。 图 3.1T2I 生成中改善人类意图对齐的概览。 空间可控的文本到图像生成 文本是人与计算机交互的强大媒介因而成为条件视觉生成中的焦点。然而仅靠文本无法提供精确的空间参照例如为具有精确空间配置的任意图像区域指定开放式描述。空间可控的文本到图像生成 T2IYang等2023bLi等2023nZhang2023旨在将文本输入与其他条件相结合以实现更好的可控性从而帮助用户生成所需的图像。 基于文本的图像编辑 编辑是获取人类意图视觉内容的另一种重要手段。用户可能拥有近乎完美的图像无论是通过模型生成的还是通过相机自然捕捉的但这些图像可能需要进行特定的调整以满足他们的意图。编辑具有多种目标从局部修改对象到全局调整图像样式。基于文本的图像编辑Brooks等2023探索了创建多功能编辑工具的有效方法。 更好的文本提示 尽管T2I模型经过训练以在配对的文本输入条件下重建图像但训练目标并不一定确保或直接优化图像生成过程中严格遵循文本提示。研究表明Yu等2022bRombach等2022普通的T2I模型可能会忽略某些文本描述并生成与输入文本不完全对应的图像。这一方向的研究Feng等2022bBlack等2023探索了改进措施使T2I模型更好地遵循文本提示从而方便T2I模型的使用。 视觉概念的定制 将视觉概念融入文本输入对各种应用都是至关重要的例如在各种场景中生成宠物狗或家人的图像或制作以特定人物为主角的视觉故事。这些视觉元素往往包含难以用言语表达的复杂细节。或者相关研究Ruiz等2023Chen等2023f探索是否可以通过定制T2I模型使用专门的标记嵌入或条件图像来绘制这些视觉概念。 在详细介绍对齐工作之前我们首先在下一节回顾文本到图像生成的基础知识。 3.1.2 文本到图像生成 T2I 生成 旨在生成不仅视觉质量高而且语义上与输入文本对应的图像。T2I模型通常使用图像-文本对进行训练其中文本作为输入条件配对的图像作为目标输出。从图3.2中广泛的T2I模型中抽象出来我们对代表性的图像生成技术进行概述。 图 3.22023年7月之前具有代表性的文本到图像生成模型概述。 生成对抗网络GAN GANGoodfellow 等2020Creswell 等2018Kang 等2023由两个关键组件组成生成器和判别器。生成器的任务是从随机噪声输入中创建合成图像并对其进行训练以根据输入文本条件调整这些噪声输入从而生成语义相关的图像。在对抗过程中判别器与生成器竞争试图区分合成生成的图像和真实的图像从而引导生成器提高其图像创建能力。 变分自编码器VAE 变分自编码器VAE是一种概率模型可以通过配对的编码器和解码器网络模块生成图像。编码器网络优化将图像编码为潜在表示的过程而解码器则改进将抽样的潜在表示转换回新图像的过程。VAE通过最小化原始图像和解码图像之间的重构误差进行训练同时使用 Kullback-LeiblerKL散度来规范编码的潜在空间。矢量量化-VAEVQ-VAE通过利用矢量量化来改进VAE通过矢量量化有效地将连续的视觉信号转换为有限的离散标记从而实现了改进的重构质量和生成能力。 离散图像标记预测 离散图像标记预测方法的核心在于一个组合的配对图像标记器和解标记器detokenizer如向量量化生成对抗网络(VQ-GAN)Esser 等2021其有效地将连续的视觉信号转换为有限的离散标记集合。这样图像生成问题就被转化为一个离散标记预测任务。用于标记预测的一种广泛使用的策略是使用自回归TransformerRamesh 等2021bYu 等2022b来依次生成视觉标记通常从左上角开始并逐行向右下角移动以文本输入为条件。另外研究Chang 等20222023还探索并行解码以加速标记预测过程。最后预测的视觉标记被解标记最终形成图像预测。 扩散模型Diffusion models 扩散模型Sohl-Dickstein 等2015Song and Ermon2020Ho 等2020使用随机微分方程将随机噪声演化为图像。扩散模型通过从一个完全随机的图像开始然后在一个去噪过程中逐渐对其进行多次迭代细化。每次迭代都会预测并随后移除一个噪声元素从而导致图像在给定输入文本的条件下不断演变。 下面以稳定扩散Stable DiffusionSD模型为例详细解释文本到图像T2I模型的工作原理。 选择这个模型的原因有很多。首先SD是使用最广泛的开源T2I模型之一这使得它成为我们本章讨论的许多对齐技术的坚实基础。此外作为一种基于扩散的生成模型它是一个极好的案例研究用于介绍扩散模型。最后其基于交叉注意力的图像-文本融合机制是各种文本条件方法的经典示例例如自回归T2I生成Yu 等2022b帮助我们深入理解T2I生成中的图像-文本交互。 我们使用稳定扩散v1进行介绍。SD2和SDXL等后续版本共享相同的方法但可能具有不同的详细模型配置例如更大的文本编码器、U-Net和潜在维度。稳定扩散模型SD及其学术版本潜在扩散模型Rombach 等2022主要包含三个模块即图像变分自编码器、去噪U-Net和条件编码器分别如图3.3 的左、中、右部分所示。我们将按照原始潜在扩散论文Rombach 等2022中的符号依次介绍每个模块和图像生成推理流程。 图3.3潜在扩散模型架构概述。 变分自动编码器VAE 如上文所述VAE模块包含配对的编码器E和解码器D它们被训练成将RGB图像x编码为潜在的随机变量z然后解码潜在变量以最好地重建图像。给定一个RGB图像x∈RH×W×3编码器E将其编码为连续的潜在表示z∈Rh×w×c。在SD中HW512hw64c4因此潜在变量z比图像x小48倍从而通过在压缩的紧凑潜在空间中执行去噪过程显著提高了计算效率。 文本编码器 SD是一个条件图像生成模型其中输入文本条件使用条件编码器τ进行编码。具体来说SD使用ViT-L/14 CLIP文本编码器Radford 等2021将分词后的输入文本查询y编码为文本特征τ(y)∈RN×dτ其中最大长度N为77文本特征维度dτ为768。 去噪U-Net 去噪U-Net是扩散图像生成过程的核心模块。该模块经过训练以便在每个去噪时间步t时预测在潜在空间中需要减去的噪声ε(zt,t)这样它就可以逐步将初始随机噪声演化为有意义的图像潜在。该模块使用预测噪声ε(zt,t)和目标噪声ε之间的L2损失进行训练目标噪声ε是由VAE编码器E编码的目标图像潜在。在推理时从随机噪声开始通过迭代去噪潜在z将其送入VAE解码器D以生成最终生成的图像。 在每个去噪步骤中U-Net将文本条件作为输入生成与文本查询语义相关的图像。接下来我们介绍视觉流 与文本流之间的交互。去噪U-Net类似于经典的U-Net由一系列空间下采样和上采样块组成它们之间有跳跃连接。在SD的U-Net中每个下采样/上采样块都有一个交叉注意力层和一个二维卷积下采样/上采样层。每个块以视觉潜在特征、文本特征和去噪步骤作为输入并生成下一个视觉潜在特征。图像与文本的交互发生在图像-文本交叉注意力层中。 在这里K 和 V 是从文本流投影出来的而 Q 是从视觉流投影出来的它们都具有相同的隐藏维度d 。因此Q 和 K 之间的 softmax 操作会产生一个大小为 hw*N 的注意力映射 M。交叉注意力映射 M 表示了所有空间位置 hw 中每个 N 个文本词之间的细粒度图像-文本交互。然后注意力映射 M 用于生成输出以产生一个下/上采样块的输出。 3.2 空间可控生成Spatial Controllable Generation T2I的生成采用开放式文本供用户进行描述但仅使用文本不足以进行某些类型的描述例如涉及空间的问题。空间可控的 T2I 研究旨在探索以额外的空间输入条件来指导图像生成过程。 我们把这类研究分为三个主题 (1) 首先我们介绍 vanilla T2I模型中的图像级文本描述扩展到基于区域的文本描述的工作Yang等2023bLi等2023nAvrahami等2023bCho等2023这样开放式文本描述就可以在特定的空间区域上精确地操作。 (2) 然后我们从 Boxes 扩展到表示为 2D 阵列的密集空间条件如分割掩模、边缘图、深度图、关键点。我们回顾了代表作 ControlNetZhang2023和许多其他作品Mou等2023Zeng等2022赵等2023bQin等2023a。。 (3) 前两种需要对T2I模型微调以理解额外的空间约束我们将回顾推理时间制导技术Bansal等2023Chen等2023e这些技术在没有模型微调的情况下实现了空间控制。 区域控制 T2I生成 大规模T2I模型已经展示了在生成高分辨率图像方面的显著效能。然而这些模型缺乏空间可控性例如使用自由形式的文本描述来精确指定特定区域的内容。这一限制促使了对区域控制的T2I生成进行研究。正如图3.4左侧所示这些研究探索了在任意区域上的开放式文本描述的额外输入条件增强了T2I模型中的全局图像描述。这种新的输入条件要求T2I模型能够理解空间输入并将其与具体的文本内容关联起来。 ReCoYang等2023b是这一方向上最具代表性的工作之一。其核心思想是扩展文本编码器E的文本词汇并对不同的 tokens 进行排列以表示基于图像的文本输入。该研究使用额外的位置 tokens增强使用预训练的T2I模型理解的文本 tokens这些位置tokens表示量化的空间坐标。如图3.4所示位置tokens例如687204999833与文本tokens无缝混合作为空间修饰符指示后续文本仅对指定空间区域起作用例如“棒球运动员…运动衫”。然后对预训练的T2I模型进行微调以支持这种新的输入接口从而促进区域可控的T2I生成。 ReCoYang等2023b与其他沿此方向的方法一样讨论了区域控制T2I生成在提高与人类意图的一致性方面的若干优势 (2) 基于区域的文本提供了额外的输入条件允许用户轻松指定所需的图像即在特定位置具有自由形式的区域描述。框标记box token 和输入序列设计允许用户使用与查询T2I模型相同的用户界面生成基于区域的文本使扩展易于使用。 (2) 附加的区域级控制文本有助于更好地生成具有正确对象数量、空间关系和区域属性如颜色/大小的图像否则这些属性可能会使原始T2I模型感到困惑Rombach等2022。 (3) 研究还观察到更好的图像生成质量并推测基于区域的文本提供了对象级图像-文本关联从而简化了学习过程。 图3.4ReCo 模型架构概述。 GLIGENLi等2023n是另一项代表性的工作。与通过扩展输入tokens并微调整个T2I模型来生成基于区域的描述不同GLIGEN使用了一种插接式方案冻结原始T2I模型的参数并训练额外的门控自注意力层来学习新的区域化技能。区域化tokens携带两种类型的信息需要基于的文本单词的语义表示和它们的空间配置。然后通过新添加的门控自注意力层将这些区域化tokens添加到预训练的T2I模型中所有剩余的预训练参数保持冻结。该层配备一个门控参数该参数初始化为零允许预训练模型逐步纳入基于区域的文本输入。GLIGEN 促进了各种类型的基于区域的控件包括边界框区域化、关键点区域化、图像提示以及其他类型的空间对齐密集条件。 密集型控制 除了空间坐标还存在其他通常表示为2D数组的空间条件例如分割掩码、边缘图和深度图。ControlNetZhang和Agrawala2023是将这些密集空间控制结合到T2I模型中的突出示例。ControlNet 建立在Stable Diffusion之上并引入了一个额外的可训练的ControlNet分支该分支为文本提示添加了额外的输入条件。这个额外的条件可以是Canny边缘图、霍夫线、HED边界、素描、人体姿态图、分割掩码、深度图像、法线图或线条图每个条件都有其独特的模型副本。添加的分支初始化为SD的U-Net中预训练的下采样块。该分支采用额外的视觉潜在变量和额外的密集条件作为输入。在将输入密集条件与视觉潜在变量合并并将ControlNet分支的输出合并回SD的上采样块之前有一个独特的零初始化的1 × 1卷积层。该层作为一个门控连接器以逐渐将额外条件注入到预训练的Stable Diffusion模型中。通过额外的密集空间控制ControlNet提供了一个有效的生成可控性渠道。 后续研究如Uni-ControlNetZhao等2023b和UniControlQin等2023a通过统一输入条件进一步改进了ControlNet使得单个模型可以理解多种输入条件类型甚至可以接受两种条件的组合。图3.5 给出了密集控制和相应生成图像的示例。 此外DiscoWang等人2023f展示了ControlNet在生成人类舞蹈视频方面的效率其目标旨在生成具有可控元素的视频如人类主体、视频背景和运动姿势序列。该研究成功地将背景和人体姿态条件分离出来并将其输入ControlNet的两个不同分支分别对图像帧和姿态图进行处理。这种控制解耦使Disco舞蹈能够在人物前景和背景中实现高保真度。更重要的是它能够实现人类主体、背景和舞蹈动作的任意组合。 推理时的空间引导 上述工作需要模型训练无论是T2I模型还是用于理解额外空间条件的附加模块。另一种方法是一些研究Bansal等2023Chen等2023e探索在不需要额外模型训练的情况下为T2I模型提供推理时的空间引导。其核心思想类似于分类器引导Dhariwal2021该方法采用鉴别器损失来引导扩散过程具体如下 以空间控制为例判别器可以是一个 Faster-RCNN 目标检测器Ren等2015用 f f f 表示其在中间估计图像 z 0 z_0 z0​ 上运行并使用所需布局 c c c 计算目标检测损失 l l l以指导 ε ^ ( z t , t ) \hatε(z_t , t) ε^(zt​,t)的生成。 s ( t ) s(t) s(t) 是引导强度。这种方法可以在T2I生成中实现空间控制而不进行额外的训练其定性结果如图3.6所示。然而其可能不会产生与微调方法Yang等2023bLi等2023nZhang和Agrawala2023那样精确的结果。 总结和趋势 早期关于空间可控生成的研究如布局到图像和蒙版到图像的生成通常是与T2I 生成并行处理的。然而随着先进的大型T2I模型的出现如本节所述的近期研究正在倾向于将空间条件与文本条件相结合。 我们确定了将空间条件整合到T2I模型中的两个主要趋势。首先区域可控的T2I生成如ReCo通过用位置令牌扩大文本词汇来合并空间坐标控制。其次从ControlNet扩展的研究将额外的“图像类”条件整合到T2I框架中从而捕获了广泛的各种密集条件。 未来T2I 模型可能有一个微调阶段使其能够理解图像和文本输入。在这种情况下可以通过文本纳入框坐标box coordinates而密集控制可以作为图像输入提供。我们将在第3.5节中探讨和阐述这一想法。 3.3 基于文本的编辑Text-based Editing 文本到图像编辑是从给定图像和输入文本描述中合成新图像的过程。与完全从头开始生成图像不同用户可能已经拥有一个令人满意的起点这可能是先前使用T2I模型生成的图像或自然图像。目标是保留大部分视觉内容只修改特定组件。这可能涉及到改变局部物体或整体图像样式以精确匹配用户的意图。这种基于文本的编辑方法为用户提供了一种工具可以从先前的图像中生成新图像在创建准确遵循人类意图的视觉内容方面发挥关键作用。 基于文本的编辑具有各种不同的定义和任务设置。我们介绍以下代表性工作。 (1) 一个经典的编辑场景是改变图像的局部区域例如移除或改变物体或向特定区域添加物体。根据用户生成的掩码在图像生成中空间地操纵潜在的是一种简单但有效的方法(Avrahami等2022ba孟等2021)。研究表明操纵图像文本交叉注意力掩码对于空间编辑也是有效的(Balaji等2022Hertz等2022)。 (2) 从描述空间区域中期望外观的语言输入扩展来看语言也可以用作编辑指令来告诉机器做什么(Kawar等2023Brooks等2023)比如“将图像中的物体A更改为物体B”。 (3) 编辑系统不是扩展单个T2I模型进行编辑而是整合不同的专业模块如分割模型(Kirillov等2023Zou等2023b)和大语言模型(Brown等2020OpenAI2023a)(Wu等2023a)。 扩散过程操纵Diffusion process manipulations 扩散图像生成中的多步骤去噪过程自然地支持一定程度的图像编辑。随机差分编辑Stochastic Differential Editing, SDEdit(Meng等2021)表明首先向输入图像添加噪声进行编辑然后对样本进行去噪可以产生有意义的编辑。混合潜在扩散Blended Latent DiffusionAvrahami等2022a表明通过操纵扩散过程可以使用用户生成的物体掩码 mlatent 实现局部物体编辑。在每个扩散步骤中潜在变量z是前景和背景潜在变量的空间混合 z z f g ⊙ m l a t e n t z b g ⊙ ( 1 − m l a t e n t ) z z_{fg} ⊙ m_{latent} z_{bg} ⊙ (1 − m_{latent}) zzfg​⊙mlatent​zbg​⊙(1−mlatent​) 其中 z f g z_{fg} zfg​是从文本描述生成的编辑后的物体 z b g z_{bg} zbg​是添加了噪声的原始背景图像。 然而对混合空间潜在变量的使用存在一定的限制。首先要求人类生成掩码可能并不总是可行的。其次生成过程有时会在边缘产生伪影。研究人员不满足于简单地在空间上混合潜在变量转而深入研究图像文本交叉注意力图以寻找物体编辑的线索。具体来说Prompt2PromptHertz等2022发现交叉注意力层控制视觉区域和文本单词之间的相互作用。基于这一观察该研究为扩散T2I模型生成的图像提供了三种编辑类型包括单词交换、添加新短语和注意力重新加权每种编辑类型都通过在图像文本交叉注意力图上进行相应的操作得以实现。具体来说Prompt2Prompt跟踪由原始提示即 M t M_t Mt​和编辑提示即 M t ∗ M_t^* Mt∗​生成的交叉注意力图并使用预定义规则将注意力图合并为新的注意力图 M t M_t Mt​用于潜在计算。例如在添加新短语时对于原始提示中存在的单词注意力图 M t M_t Mt​ 保持不变。只有对于原始提示中不存在的单词它才会合并修改后的注意力图 M t M_t Mt​ 。编辑的定性结果如图3.7所示。 除了编辑合成的图像ImagicKawar等2023还探索了对真实自然图像进行编辑。其核心思想是将要编辑的图像表示为文本嵌入并将此嵌入与描述所需图像的目标文本嵌入混合。这种混合确保了产生的图像保留了来自原始图像的元素同时与目标文本提示中详细描述的美学一致。在实践中需要在测试时进行微调以生成高质量的图像。 图3.7通过注意力图操作对合成生成的图像进行三种类型的编辑单词交换、添加新短语、注意力重新加权。 文本指令编辑Text instruction editing 用户直接使用语言指定编辑指令例如图3.8中的“用玫瑰花替换向日葵”可能比在文本提示中重复图像的可视内容更有效。所需的文本指令编辑模型应该适用于由模型生成的图像和自然图像并适用于不同类型的编辑指令。 InstructPix2PixBrooks等2023旨在接受图像和文本编辑指令以产生输入图像的编辑版本。其目标是训练一个能够理解此类编辑文本指令的图像到图像模型。为了实现这一目标可以将T2I模型调整为接受额外的图像输入通过将更多的输入通道集成到SD的卷积层中来实现。然而主要的挑战在于如何生成配对的编辑数据。如图3.9所示Instruct-Pix2PixBrooks等2023建议使用一个语言模型LMMBrown等2020来生成一对编辑指令和编辑后的标题例如“让她骑龙”“一张女孩骑龙的照片”和“一张女孩骑马的照片”。然后该研究使用Prompt2PromptHertz等2022将原始的和编辑过的标题对转换为一对图像对应于GPT生成的编辑指令。该研究生成了超过45万个样本以训练编辑模型。这种数据生成方法随后在如CM3LeonGe等2023等研究中被用于训练通用图像-文本-图像模型。 使用外部预训练模型进行编辑 此外最近的研究表明将外部语言和视觉模型融入编辑过程比仅依靠单一模型更有效。通用分割模型的进步如SAMKirillov等2023和SEEMZou等2023b为使用分割模型来为基于文本的编辑区域奠定基础铺平了道路。代表性作品包括Instruct X-DecoderZou等2023a、Grounded SAM inpaintingLiu等2023h、Inpaint anythingYu等2023c等。另一个新趋势是通过大语言模型LLM分配各种生成和编辑工具。VisualChatGPTWu等2023a之类的研究可以解决复杂的视觉编辑任务需要多个生成和编辑模型在多个步骤中进行合作。 总结和趋势 基于文本的编辑模型的能力取得了显著的进展提高了编辑质量扩展了领域覆盖范围并提供了更灵活的用户界面。例如早期的研究需要用户生成遮罩来进行对象编辑而最近的模型可以在没有遮罩输入的情况下处理合成生成的图像甚至可以直接理解一般的文本编辑指令。 展望未来我们期望一个全面的生成式基础模型能够同时处理图像和文本输入。在这个框架内编辑指令将成为文本输入的一种专门形式与T2I生成中的图像描述无缝集成。 3.4 遵循文本提示Text Prompts Following 使用图像文本配对进行训练可以鼓励T2I模型生成与输入文本条件在语义上对应的图像。然而图像生成训练目标并不能直接强制使生成的图像严格遵循文本提示。一些研究表明Feng等2022bChefer等2023T2I模型可能无法遵循文本提示特别是在图像描述复杂时。例如某些名词短语可能会被省略属性可能会被应用到错误的对象上生成的图像可能具有错误的物体数量、关系、样式等。这些局限性使人们致力于改进T2I模型以更好地遵循文本提示。 相关文献可以大致分为两类。 (1) 推理阶段的操作。在推理阶段潜在变量和注意力调整Liu等2022aFeng等2022bChefer等2023Agarwal等2023设计了各种方法来重新分配视觉潜在变量或图像-文本交叉注意力使文本提示中的所有名词短语都能在生成的图像中得到体现。 (2) 对齐调整。学习额外的模型学习阶段Black等2023Fan等2023b通常以图像-文本相似度作为奖励使得调整后的T2I模型可以更好地遵循文本提示。 推理阶段的操作 使用图像-文本对进行训练并不能保证T2I模型始终遵循文本提示。尤其是在文本描述冗长复杂的情况下可能存在很多差异。例如T2I模型可能会将属性应用于错误的实体或漏掉某些对象如图3.10所示。直观地说在推理阶段解析文本查询并明确地强制T2I模型更加关注每个名词短语可以生成更好的遵循文本提示的图像。 基于这一直觉StructureDiffusionFeng等2022b利用解析树来提取名词短语和文本提示的语言结构。然后该研究强制模型“查看”所有提取的名词短语。这是通过修改3.1中引入的SD的交叉注意力机制来实现的记作 O M V OM V OMV$ 其中 M 是softmax交叉注意力图。与使用句子特征 V 生成 M 不同这可能导致忽略掉一些单词该研究计算 O 1 k 1 ∑ ( M V i ) O\frac{1}{k1} \sum(MV_i) Ok11​∑(MVi​) 其中 V 0 V_0 V0​ 是句子特征 V i V_i Vi​ 是解析树中的短语特征。这种方法确保了视觉流在所有识别的名词短语上保持平衡的注意力促进了更精确的图像生成。 受相同的目标启发Attend-and-ExciteChefer等2023操纵注意力图。如图3.11右侧方程所示计算正则化损失l以增强对最被忽略的主题标记的最大关注 其中 G 是用于平滑注意力图的高斯核 N s u b N_{sub} Nsub​是主题标记的数量。然后损失用于在推理时更新潜在变量 z t z_t zt​。结果表明这种推理时的引导使T2I模型更多地关注文本提示中描述的对象从而实现了更好的图像生成。后续研究Agarwal人2023进一步优化引导损失以优化跟随提示的性能。 调整模型以遵循文本提示 除了在推理时进行操作我们也可以考虑是否可以优化预训练的T2I模型以更好地遵循文本提示。一个有前途的方法是通过强化学习来实现使用图像文本相似性作为奖励而不是主要的T2I训练中使用的图像生成目标。这使得模型能够被优化以更好地对齐图像和文本。 沿着这个方向的一项工作是去噪扩散策略优化DDPOBlack等2023其调整框架如图3.12所示。具体来说使用一个视觉语言模型Li等2023e将生成的图像转换为文本描述。然后将这个生成的标题与输入文本提示进行比较通过使用 BERTScoreZhang等2019得出相似度奖励。然后将相似度奖励用于微调预训练的T2I模型使模型可以更好地遵循文本提示。图3.12的底部显示了这种基于相似度的训练过程中生成样本的进展。此外值得注意的是其他人类意图也可以被格式化为模型调整的奖励例如可压缩性、美观度等。 总结和趋势 在这部分我们介绍了旨在增强 T2I模型更好地遵循文本提示的能力的研究。尽管推理时的操作取得了良好的性能但对齐调整提供了更直观的用户体验消除了对额外修改的需求。与指令调整大型语言模型LLM以对齐人类意图进行文本生成类似T2I模型的调整具有类似的目标但关注于图像生成。 我们预见在不久的将来将会出现类似的范式应用于生成式T2I基础模型开发。具体而言初始训练阶段仍然依赖于现有的大规模数据上的图像生成目标而随后的对齐调整阶段增强了模型对提示的遵守和其他的人类意图例如减少有害内容。当前的基于强化学习的方法显示出潜力但它们通常专注于单一的优化目标。未来的研究可以扩展这些方法以实现更灵活的对齐调整以适应多样化的图像和文本场景。 3.5 视觉概念定制Concept Customization 尽管语言是表达人类意图的强大媒介但它在全面描述视觉概念的所有细节方面效率较低。例如使用文本来详细地描述我的宠物狗或家庭成员的细节以便它们可以在不同的视觉场景中生成是具有挑战性的。在这种应用中直接通过图像输入扩展T2I模型以理解视觉概念是更好的选择。 我们回顾了关于视觉概念定制的相关研究该研究为用户提供了生成这些个性化概念的能力。 (1) 早期的研究Gal等2022Ruiz等2023Wei等2023涉及测试时微调的单一概念定制将视觉概念的多个图像编码成新的标记 token 嵌入从而可以在T2I生成期间使用学到的嵌入来引用该概念。 (2) 多概念定制Kumari等人2023Avrahami等人2023a允许从T2I模型的标记词汇中扩展多个概念标记使多个概念可以在生成过程中相互交互并与其余的视觉场景互动。 (3) 测试时微调要求用户为每个新概念进行T2I模型的微调以进行定制。为了简化使用研究Chen等2022fShi等2023aChen等2023fYang等2023a探索了无需测试时微调的定制使用统一的微调阶段扩展T2I模型以接受图像条件输入。这些模型将视觉概念的图像作为额外的输入条件并按照文本描述生成带有视觉概念的图像。 单一概念定制 视觉概念定制的目标是使T2I模型能够理解针对非常特定情况量身定制的附加视觉概念。文本倒置Textual InversionGal等人2022中研究的问题设置中涉及将视觉概念从少数图像中的视觉概念翻译成唯一的标记嵌入。如图3.13左侧所示T2I模型处理四幅不同狗品种的图像随后学习了一个新标记的嵌入表示为[V]。这个[V]标记可以作为文本标记使用以表示这种特定的狗。[V]标记可以与其他文本描述无缝集成以在各种情境中呈现特定的狗比如在游泳、在桶里和理发时。 Gal 等 (2022) 的 Textual Inversion 方法通过通过前缀调整学习了 [V] token 的嵌入即冻结所有 T2I 模型的参数并训练 [V] token 来生成输入图像。后来的研究表明调整更多的模型参数可以显著提高图像生成的质量。然而只调整输入图像可能会导致 T2I 模型过度拟合特定概念并失去生成多样化图像的能力。例如模型可能无法生成各种类型的狗。为了解决这个问题Dreambooth (Ruiz 等, 2023) 提出了类别特定的先验保留损失class-specific prior preservation loss。该方法的核心是使用预训练的 T2I 模型来生成与目标定制概念同类的图像。然后模型在输入图像带有 [V] token和模型生成的图像没有 [V] token上进行联合微调。这样可以确保模型能够区分独特的“[V] dog”和其他它最初训练的一般的狗从而保持其整体的 T2I 能力。Dreambooth 然后微调路所有 T2I 模型的参数并实现了更好的图像生成质量。 多概念定制 基于专注于学习单一视觉概念[V]的研究最近的研究探讨了将多个视觉概念集成到一个单一的文本到图像T2I模型中的可能性表示为[V1]、[V2]等。Custom DiffusionKumari等2023采用了模型权重的选择性子集特别是来自多组概念图像的从文本到潜在特征的交叉注意力层中关键和值映射。该研究有助于将多个定制的视觉概念嵌入到单个文本提示中。Break-A-SceneAvrahami等2023a探索了从单一图像中提取多个视觉概念的可能性。该研究使用分割掩码增强输入图像以精确定位目标概念然后将其转换为一系列概念嵌入表示为[Vi]。 无需测试时微调的定制化 虽然上面描述的概念定制研究已经实现了良好的视觉质量但测试时微调的必要性阻碍了其在实际场景中的应用。大多数最终用户和应用平台缺乏测试时进行微调所需的计算资源更不用说微调过程的复杂性了。这自然引发了一个问题我们能否将概念图像作为输入条件无需微调就能实现概念定制 所设想系统的输入/输出格式与检索增强生成retrieval-augmented generationChen等2022f其目的是通过以检索到的相似图像为条件来简化图像生成过程。该系统支持包含与生成过程相关的信息的额外图像输入。通过在训练阶段改变条件图像模型可以潜在地实现广泛的上下文学习功能生成与给定输入示例对齐的图像。在此框架下SuTIChen等2023f训练一个单一模型来模仿微调后的特定主题专家并生成以文本和主题输入图像为条件的图像如图3.14所示。因此训练后的模型可以在上下文中执行概念定制化而无需测试时微调并且可以推广到未见过的主题和描述的情况。另一项工作InstantBoothShi等2023a也展示了在生成不仅与语言对齐而且保留身份的图像方面取得了的成果只需一次前向传播。 Figure 3.14:Illustration of in-context concept customization without test-time finetuning. Image credit: Chen et al., 2023f. 总结和趋势 视觉概念定制领域已经从测试阶段的微调嵌入发展到直接使用冻结模型进行上下文图像生成。融入额外图像输入的上下文生成流程在实际应用中显示出了显著的潜力。 在本小节中我们探索了这种方法的两个应用通过检索相关图像来促进生成Chen等2022f以及通过在主题图像上进行条件设置来个性化视觉概念Chen等2023fShi等2023a。一个有趣的方向是统一描述性文本指令指导的各种图像输入的使用我们将在下节中详细阐述。 3.6 趋势统一调整以实现与人类对齐 在前面的主题中我们介绍了与调整T2I模型以更准确地符合人类意图相关的文献。这包括增强空间可控性、编辑现有图像以改善对齐、更有效地遵循文本提示以及针对新的视觉概念的个性化T2I模型。从这些主题中观察到的一个趋势是向综合对齐解决方案发展使针对特定问题需要的调整最少。 沿着这个方向我们设想未来的T2I模型具有一个统一的的对齐调整阶段将预训练的T2I模型转化为更密切符合人类意图的模型。这样的模型可以无缝地处理文本和图像输入生成所需的视觉内容而无需多个模型以针对不同的对齐挑战。 与 LLM 开发中已经精力的人类意图对齐调整的实践相似我们预计在本节中综述的技术将融入到生成基础模型开发的第二阶段调整中。这个对齐调整阶段有两个主要目的首先它扩展了T2I的文本输入包括交错的图像文本输入如图3.15所示。其次通过使用旨在与人类期望对齐的数据、损失和奖励来微调基础T2I模型该模型使用图像生成损失进行训练。 图3.15人类对齐的统一图像和文本输入界面概述以及与前面各节的联系 统一的图像和文本输入 我们从讨论界面统一开始。具体来说我们的目标是将T2I模型的文本输入演变为一个多模态界面无缝地集成图像和文本输入。如图3.15所示我们考虑三种类型的输入内容文本输入描述要生成的视觉场景图像输入容纳密集的2D输入如图像和密集条件指令文本输入解释如何将输入的内容文本和图像共同组合成生成条件。 如图3.15的第一行所示普通的 T2I模型接受图像描述的“内容文本输入”并生成相应的图像。对于第3.2节中的空间可控生成可以通过扩展文本单词来指定额外的空间条件或者通过将密集的空间条件通过图像输入进行指定。对于第3.3节中的基于文本的编辑我们研究了文本指令编辑的有效性这是一项微调T2I模型以理解编辑指令文本的任务这些指令文本会操作图像输入相应地改变其像素值。对于第3.5节中的视觉概念定制现在无需训练模型就可以理解个性化指令以从图像输入中提取视觉概念并将该概念与上下文文本输入结合起来生成图像。 结合输入界面的这三个元素设想的对齐调整 T2I模型 可以处理第3.2-3.5节中描述的所有先前任务。它的行为由特定的文本指令控制这些指令规定了图像和文本输入应该如何共同处理作为生成条件。给定相同的图像输入不同的文本指令可以调用不同的任务“生成具有相同布局的猫图像”用于空间控制“改变狗的颜色”用于编辑“生成相同的狗睡觉”用于概念定制以及现有模式的任意混合。 在生成基础模型中实现这样一个统一的界面可能是可能的通过对包含来自各种任务的数据的合并数据集进行训练类似于LLM中观察到的监督指令调整取得的成功。此外从处理单个图像-文本对过渡到处理交错的图像-文本对可以实现更有趣的功能如上下文的视觉演示Sun等2023b。另一个有趣的方向是构建一个生成模型该模型能够从任何输入模式的组合中生成输出模式的任何组合如语言、图像、视频或音频就像可组合扩散CoDiTang等2023b中所展示的那样。 使用对齐损失和奖励进行调整 除了统一的输入界面外另一个值得考虑的要素是对齐损失和奖励。如第3.4节所述基于图像-文本对的图像生成损失使模型能够生成与目标数据分布相匹配的图像。然而它并不总是与人类意图完全对齐这让人联想起 LLM 训练中的语言模型损失需要一个单独的对齐调整阶段Ouyang等2022。 最近在监督指令调整和人类反馈方法的强化学习Black等2023在图像生成方面的成功提供了类似的对齐调整工具可以在生成基础模型中进行有效利用。在未来探索中一个有趣的话题是如何平衡不同的目标损失和奖励例如联合优化以获得更高的美学分数、更好的图像-文本对齐、更少的有害内容、更强的指令尊从性以及许多其他期望的属性。 多模态内容理解和生成闭环的集成 展望未来一个充满希望的研究方向是多模态内容理解和生成之间的闭环集成。初步研究表明使用合成数据从理解中受益Li等2023aHe等2022b反之亦然。一个令人兴奋的前景是开发一个图像-文本输入、图像-文本输出的基础模型用于理解和生成任务。理想的平衡以及实现这种平衡的最有效方法是未来探索的目标。 展望未来一条充满前景的研究途径是多模态内容理解和生成的闭环集成。初步研究表明使用合成数据来促进从理解到生成Li等2023aHe等2022b反之亦然。一个令人兴奋的前景是开发一个具有图像文本输入和图像文本输出的基础模型用于理解和生成任务。如何在这两个维度上实现理想的平衡以及实现它的最有效方法是未来探索的目标。 【本节完待续】 参考资料 Chuanyuan Li, Zhe Gan, Zhengyuan Yang, 等, Multimodal Foundation Models: From Specialists to General-Purpose Assistants, Microsoft Corporation, arxiv.org/html/2309.10020 v1 版权声明 本文是对论文 “Multimodal Foundation Models: From Specialists to General-Purpose Assistants” 的翻译仅供学习使用。 youcansxidian 作品转载必须标注原文链接 微软报告多模态基础模型3视觉生成 【https://blog.csdn.net/youcans/】 Copyright 2024 youcans, XIDIAN Crated2024-11
文章转载自:
http://www.morning.hpspr.com.gov.cn.hpspr.com
http://www.morning.lxmks.cn.gov.cn.lxmks.cn
http://www.morning.mqpdl.cn.gov.cn.mqpdl.cn
http://www.morning.tgnr.cn.gov.cn.tgnr.cn
http://www.morning.fglxh.cn.gov.cn.fglxh.cn
http://www.morning.kjmcq.cn.gov.cn.kjmcq.cn
http://www.morning.rcjqgy.com.gov.cn.rcjqgy.com
http://www.morning.srxhd.cn.gov.cn.srxhd.cn
http://www.morning.jtkfm.cn.gov.cn.jtkfm.cn
http://www.morning.rjmg.cn.gov.cn.rjmg.cn
http://www.morning.rrqbm.cn.gov.cn.rrqbm.cn
http://www.morning.bwjws.cn.gov.cn.bwjws.cn
http://www.morning.wzdjl.cn.gov.cn.wzdjl.cn
http://www.morning.sthgm.cn.gov.cn.sthgm.cn
http://www.morning.dmjhp.cn.gov.cn.dmjhp.cn
http://www.morning.pqcbx.cn.gov.cn.pqcbx.cn
http://www.morning.rqqlp.cn.gov.cn.rqqlp.cn
http://www.morning.synkr.cn.gov.cn.synkr.cn
http://www.morning.qqbjt.cn.gov.cn.qqbjt.cn
http://www.morning.wgtr.cn.gov.cn.wgtr.cn
http://www.morning.bwkhp.cn.gov.cn.bwkhp.cn
http://www.morning.rhpgk.cn.gov.cn.rhpgk.cn
http://www.morning.cplym.cn.gov.cn.cplym.cn
http://www.morning.vvdifactory.com.gov.cn.vvdifactory.com
http://www.morning.yrsg.cn.gov.cn.yrsg.cn
http://www.morning.hrtfz.cn.gov.cn.hrtfz.cn
http://www.morning.jzklb.cn.gov.cn.jzklb.cn
http://www.morning.prznc.cn.gov.cn.prznc.cn
http://www.morning.ltypx.cn.gov.cn.ltypx.cn
http://www.morning.mfsjn.cn.gov.cn.mfsjn.cn
http://www.morning.jprrh.cn.gov.cn.jprrh.cn
http://www.morning.mldrd.cn.gov.cn.mldrd.cn
http://www.morning.srxhd.cn.gov.cn.srxhd.cn
http://www.morning.tralution.cn.gov.cn.tralution.cn
http://www.morning.wrlxy.cn.gov.cn.wrlxy.cn
http://www.morning.fhkr.cn.gov.cn.fhkr.cn
http://www.morning.ylpwc.cn.gov.cn.ylpwc.cn
http://www.morning.bpcf.cn.gov.cn.bpcf.cn
http://www.morning.yldgw.cn.gov.cn.yldgw.cn
http://www.morning.mdmxf.cn.gov.cn.mdmxf.cn
http://www.morning.ydzly.cn.gov.cn.ydzly.cn
http://www.morning.ptdzm.cn.gov.cn.ptdzm.cn
http://www.morning.pghfy.cn.gov.cn.pghfy.cn
http://www.morning.jbfzx.cn.gov.cn.jbfzx.cn
http://www.morning.ppbrq.cn.gov.cn.ppbrq.cn
http://www.morning.dddcfr.cn.gov.cn.dddcfr.cn
http://www.morning.dndk.cn.gov.cn.dndk.cn
http://www.morning.qlznd.cn.gov.cn.qlznd.cn
http://www.morning.mnsts.cn.gov.cn.mnsts.cn
http://www.morning.rynq.cn.gov.cn.rynq.cn
http://www.morning.hbywj.cn.gov.cn.hbywj.cn
http://www.morning.hqbk.cn.gov.cn.hqbk.cn
http://www.morning.zgdnd.cn.gov.cn.zgdnd.cn
http://www.morning.yrbp.cn.gov.cn.yrbp.cn
http://www.morning.lsmgl.cn.gov.cn.lsmgl.cn
http://www.morning.dtnyl.cn.gov.cn.dtnyl.cn
http://www.morning.qllcm.cn.gov.cn.qllcm.cn
http://www.morning.bnlch.cn.gov.cn.bnlch.cn
http://www.morning.nwjzc.cn.gov.cn.nwjzc.cn
http://www.morning.lbgsh.cn.gov.cn.lbgsh.cn
http://www.morning.bybhj.cn.gov.cn.bybhj.cn
http://www.morning.srndk.cn.gov.cn.srndk.cn
http://www.morning.bpmdq.cn.gov.cn.bpmdq.cn
http://www.morning.qxbsq.cn.gov.cn.qxbsq.cn
http://www.morning.rzmsl.cn.gov.cn.rzmsl.cn
http://www.morning.ssrjt.cn.gov.cn.ssrjt.cn
http://www.morning.bssjp.cn.gov.cn.bssjp.cn
http://www.morning.skqfx.cn.gov.cn.skqfx.cn
http://www.morning.nkjnr.cn.gov.cn.nkjnr.cn
http://www.morning.blxlf.cn.gov.cn.blxlf.cn
http://www.morning.rklgm.cn.gov.cn.rklgm.cn
http://www.morning.bykqg.cn.gov.cn.bykqg.cn
http://www.morning.rqgq.cn.gov.cn.rqgq.cn
http://www.morning.zkqjz.cn.gov.cn.zkqjz.cn
http://www.morning.mbbgk.com.gov.cn.mbbgk.com
http://www.morning.tnwwl.cn.gov.cn.tnwwl.cn
http://www.morning.rkhhl.cn.gov.cn.rkhhl.cn
http://www.morning.pqrhb.cn.gov.cn.pqrhb.cn
http://www.morning.c7629.cn.gov.cn.c7629.cn
http://www.morning.tdmr.cn.gov.cn.tdmr.cn
http://www.tj-hxxt.cn/news/219264.html

相关文章:

  • 局域网建站软件广西住房和城乡建设厅继续教育网
  • wordpress全站ssl雄安做网站的公司
  • 免费手机h5模板网站模板seo谷歌外贸推广
  • 怎么用eclipse做网站开发服装定制一般多少钱
  • 好的素材下载网站如何做好网站管理工作
  • 网站建设大概多少钱c 做网站后台
  • 义乌做网站广州企业网站建站公司哪家好
  • 自己开外销网站怎么做怎么写网站头部和尾部
  • 用视频做背景的网站pdf转wordpress
  • 校园网站建设的缺陷电商商城网站开发框架
  • 各大网站提交入口网址html怎么发布网页
  • 佛冈县住房和城乡建设局网站上海模板网站公司
  • dedecms5.7环保科技公司网站模板如何判断网站html5
  • 设计学网站php建网站
  • 建设网站的个人心得体会找商务合作的平台
  • 国内永久免费的建站少儿编程官网
  • 如何做网站流量分析搭建网站用什么语言
  • 网站构成要素产品设计怎么写
  • 企业在线设计网站wordpress弹窗通知插件
  • 子目录网站关键词推广网站
  • 网站最新域名ip查询接口个人网页包括哪些内容
  • 做网站打印费复印费清单手机网站开发如何设置触摸功能
  • 网站首页 排版平凉公司网站建设
  • 快乐麻花网站源码用ih5做微网站
  • 建网站怎么上线昆山网站建设公司怎么样
  • 网站开发需求分析的内容盐田区住房和建设局网站
  • 政务网站建设具体指导意见南安网站开发
  • 上海市城乡住房建设部网站佛山网站建设公司价格
  • 工程建设信息都在哪个网站发布重庆营销型网站开发公司电话
  • 网站开发注意企业如何做好网站运营管理