蓝色网站模版,廊坊网站建设廊坊网络公司驻梦,网站建设平台计划书,规模以上工业企业奖励引言#xff1a;
问题#xff1a; 当前的多模态任务#xff08;如图像、视频、音频描述生成、编辑、生成等#xff09;通常需要针对特定任务训练专门的模型#xff0c;而现有的方法在跨模态泛化方面存在局限性#xff0c;难以适应新任务。此外#xff0c;多模态嵌入反演…引言
问题 当前的多模态任务如图像、视频、音频描述生成、编辑、生成等通常需要针对特定任务训练专门的模型而现有的方法在跨模态泛化方面存在局限性难以适应新任务。此外多模态嵌入反演等问题通常依赖梯度优化限制了其实用性。
解决方案 MILSMultimodal Iterative LLM Solver 是一种免训练的方法通过迭代反馈机制让大语言模型LLM作为“生成器”提出候选方案并使用现成的多模态模型如 CLIP作为“评分器”对方案进行评估和反馈最终收敛至高质量的解决方案。该方法无需额外训练能够适用于多种多模态任务。
一MILS是什么原理-结构
MILS是免训练的training-free仅使用测试样本作为输入。它依赖于两个关键模块称为 GENERATOR生成器和 SCORER评分器。GENERATOR 生成任务的候选解决方案而 SCORER 对这些候选方案进行评分并将它们反馈给 GENERATOR以生成改进后的候选集。对于某些任务该过程可能会通过初始候选集的评分进行引导。该优化过程会运行至收敛或达到设定的迭代次数最终生成任务的最终解决方案。 1GENERATOR生成器
GENERATOR 的目标是生成候选输出 以解决给定任务。它的输入包括某些文本 其中包含任务的描述以及来自 SCORER 的评分 如果有的话用于优化过程的上一轮。GENERATOR 利用这些信息生成下一组候选方案。
GENERATOR 通常使用 LLM 来建模因为它可以接收文本输入并进行推理。然而它的输出不限于文本候选生成结果也可以用于引导后续模型生成其他模态数据例如使用文本到图像T2I模型如 Emu生成图像。一些 GENERATOR 也可以将测试样本作为输入例如在图像编辑或风格化任务中。
2SCORER评分器
SCORER 的目标是为 GENERATOR 生成的候选方案 计算标量评分 。它的输入是测试样本和候选方案 并对它们进行比较。SCORER 可以采用多种不同的实现方式例如 低级图像处理函数可以比较两张图片的纹理 经过训练的机器学习模型例如 CLIP。
SCORER 根据评分对所有候选方案进行排序并返回前 个候选方案及其得分。根据 GENERATOR 的能力如上下文长度SCORER 可以返回完整的评分列表或采用 -贪心策略-greedy strategy以包含一些低分候选方案。在初步实验中发现贪心选择前 top-K方案效果最佳因此在本研究中采用该方法。评分结果会格式化为文本 并传递回 GENERATOR。
3优化过程
MILS 在 SCORER 的损失函数下搜索最优生成方案 C。该优化过程运行N 轮或直到收敛。收敛可通过候选集 在连续步骤中的相似性来定义。根据不同任务该优化过程可以通过初始候选方案集引导并对其进行评分。例如在图像描述生成任务中初始候选方案可以是 GENERATOR 生成的大量图像描述。而对于文本到图像T2I等任务则无需这样的初始集合。
二实验的反馈分析
1实验综合解析
对 MILS 进行了实验评估并将其与现有方法进行分析比较涵盖其在多模态理解和生成任务中的应用。对于每个下游任务依次介绍 GENERATOR、SCORER、基准测试和评估设置然后给出关键实验结果。最后对 MILS 的各种设计选择进行消融分析。
MILS 是一种测试时优化test-time optimization方法并展现出 零样本zero-shot能力。它不仅能泛化到新的测试数据分布还能泛化到新的任务和模态。这与大多数现有的零样本方法形成对比后者通常需要任务或模态特定的数据整理或训练。由于大多数先前工作属于后者类型因此很难进行公平比较。然而仍然与最接近的零样本方法进行比较并证明 MILS 在许多情况下可以与专门针对特定任务或模态优化的方法相媲美甚至更优。
2图像描述生成
研究图像理解的基本任务——为给定图像生成文本描述。
GENERATOR本文使用 Llama 3.1 8B (Dubey et al., 2024) 作为主要的生成模块。首先生成一个包含 30K 个提示词的初始列表并用于引导优化过程。为了确保初始集合的多样性使用不同的对象类别对 LLM 进行提示并将生成的提示词组合在一起类似于 (Gandelsman et al., 2024)。然后在每个优化步骤中保留 SCORER 评分最高的前 50 个生成结果并将其转换为文本提示词。所使用的提示词描述详见附录。整个优化过程运行 10 轮。
SCORER 使用图像-文本相似性模型 SigLIP 对候选描述进行评分。值得注意的是与利用精心整理的图像-文本对进行训练的传统图像描述模型不同SigLIP 本身并不具备描述生成能力。然而当与 MILS 结合时它能够充当一个有效的描述生成器
基准测试和评价指标 在 MSCOCO 描述测试集 上评估 MILS。该测试集包含从 MSCOCO 数据集 中抽取的 5,000 张图像。采用标准的描述评价指标包括 BLEU METEOR CIDEr SPICE
特别关注 METEOR 和 SPICE 指标因为它们更侧重于语义相似性而非严格的词匹配并且与人类偏好更相关。这对像 MILS 这样不依赖特定任务训练的零样本方法 尤为重要因为它不会学习某个特定基准测试或模态中的词汇。
图像实验结果
将 MILS 与现有基线方法进行比较。一些基线方法如 ZeroCap也结合了语言模型和类似 CLIP 的模型但它们提出了一种基于梯度优化的搜索方法以在当前生成的基础上寻找最优的下一个 token。 另一些方法如 MeaCap则从一个记忆模块中筛选关键概念并结合多个文本和多模态编码器在多步过程中生成描述。相比之下MILS 的概念更加简单实现更为直接同时还能取得更好的结果。下图 3 中展示了 MILS 生成的描述示例并将其与 MeaCap 进行对比。值得注意的是MILS 无需任何描述数据或特定于描述生成的训练即可生成忠实且语法正确的描述。 3视频描述生成
由于其简单性和通用性MILS 可无缝适用于视频无需进行重大更改。使用与前面图像描述生成相同的 GENERATOR并采用相同的初始提示词集。对于 SCORER使用 ViCLIP ViT-L/14 模型该模型基于视频的 8 帧计算视频与描述之间的相似度得分。
在 MSR-VTT测试集上进行实验该数据集包含 2,990 个视频每个视频时长 10 到 30 秒。结果如下表 2 所示。由于大多数现有视频描述生成方法依赖于视频-描述训练数据将 MILS 与 Nagrani 等人2022的模型进行比较该模型在 HowTo100M或 VideoCC3M数据集上训练并在 MSR-VTT 上进行评估。 采用 CIDEr和 METEOR指标进行评测这些指标与之前的研究保持一致。结果表明尽管 MILS 从未针对视频描述任务进行过训练但在 CIDEr 和 METEOR 指标上均优于在 HowTo100M 训练的 Nagrani 等人2022模型。即使与在数据质量更高的 VideoCC3M 上训练的同一模型相比MILS 仍然在语义敏感的 METEOR 指标上表现更佳。这种基线模型在不同训练数据上的表现差异表明训练数据对视频描述模型的重要性。而 MILS 无需任何视频描述训练即可达到竞争水平展现出极大的潜力。
4音频描述生成
与视频类似MILS 也可以无缝适用于音频描述生成。使用与前面相同的 GENERATOR并结合 LLM 生成的 50,000 条初始音频提示词。作为 SCORER采用 ImageBind 模型该模型能将音频、文本等多种模态映射到同一嵌入空间。
在 Clotho数据集上评估该方法该数据集是一个常用的音频描述数据集。评测使用自动描述生成指标。结果如下表 3 所示。MILS 在对比可比的零样本方法 ZerAuCaps时表现出色特别是在 METEOR 和 SPICE 等语义敏感指标上表现更优。尽管已有其他音频描述生成方法被提出但它们需要在音频-描述数据上进行训练。更多定性分析结果见附录 C。 5高质量图像生成
如前所述MILS 并不仅限于前述的多模态理解任务。介绍 MILS 如何用于多模态生成任务首先是提升文本到图像T2I生成模型的质量。
GENERATOR。为了生成高质量图像将 LLM 与 T2I 模型串联使用。本文实验了两种最先进的模型隐空间扩散模型LDM和 FLUX.1 [schnell]Labs。LLM 的目标是“重写”输入到 T2I 模型的提示词使最终生成的图像质量提升同时保持或增强对原始文本提示词的忠实度。值得注意的是此 GENERATOR 不需要 依赖初始提示词集进行引导。
SCORER。使用 PickScore对生成结果进行评分。PickScore 是一种类似 CLIP 的模型它接受图像和文本提示词作为输入并预测该图像在该提示词下被人类偏好的可能性。使用 PickScore 计算 GENERATOR 生成的每张图像与输入提示词的匹配得分并返回每个生成结果的得分。其余流程与前述任务保持一致。
基准测试与评测指标。使用 Imagen 的 DrawBench 提示词集 进行评测该数据集包含 200 条文本提示词。由于自动评测指标在媒体生成任务中的噪声较大采用 Amazon Mechanical TurkAMT上的人工标注者进行评测并遵循 JUICE 框架。
按照媒体生成的标准评测方法在两个维度上评估生成质量 视觉质量美学吸引力 文本忠实度与输入文本的一致性
在每个评测任务中标注者会看到两张图像一张是基线模型生成的另一张是经过 MILS 增强的。对于 文本忠实度 评测标注者还会看到原始文本提示词。标注者需选择他们更偏好的图像。每张图像由三位标注者独立评估采用 多数投票 计算各模型的胜率win%。完整的人工评测细节见下面 高质量图像的结果是
下图 4 总结了人工评测的结果。从胜率可以看出人工标注者明显更偏好 MILS 增强后的图像而非基线模型直接生成的图像。下图 5 展示了定性对比MILS 在美学质量上的提升尤为明显。MILS 能够简化复杂提示词并添加美学细节从而提升生成图像的整体质量和忠实度。 基于 LLM 的提示词重写可以提高媒体生成的表现。然而这些方法通常需要手动尝试多种不同的重写方案直至找到适用于该模型的最佳提示词。MILS 能够自动化并辅助这一过程既可以在每次生成时进行提示词优化也可以为专家提示词工程师提供备选方案以进一步改进。
先前在其他任务中对比的方法很难具备这一能力。这些方法通常需要通过多步扩散过程计算梯度以估计 LLM 应该生成哪些 token。而 MILS 采用无梯度优化gradient-free optimization方法因此能够在一个简单框架下轻松扩展至多种不同应用场景。
6风格迁移
除了图像生成MILS 还可以应用于图像编辑任务。这里特别考虑风格迁移任务其中给定测试图像和风格图像目标是生成一张包含测试图像内容且具有风格图像风格的图像。
生成器。本文通过将 LLM 的输出链接到图像生成模型来实现生成器。与前面不同的是由于希望生成与测试样本相同的内容生成器还将测试样本作为输入。因此使用图像编辑模型作为图像生成模块。它根据测试样本和来自 LLM 的编辑提示生成风格化图像。
评分器。为了衡量风格迁移的质量使用一种简单的方法来估计生成图像与风格图像在颜色和纹理上的相似性。使用图像特征的 Gram 矩阵之间的距离如Gatys2015所提出的。在 VGG19Simonyan Zisserman2015CNN 的不同层特征上计算此距离其中较低层确保风格忠实性较高层确保内容忠实性。使用 MILS 来最小化风格和内容损失。
结果。下图 6 展示了一些风格迁移的示例结果。MILS 完全零样本泛化到这一新任务并生成准确风格化的图像。请注意它不仅无需任何训练就能实现此类编辑而且 LLM 实际上并未看到测试样本或风格图像的任何特征 7跨模态计算
探索了 MILS 实现的一个有趣应用。与之前的工作将嵌入映射到连续图像空间不同MILS 中的无梯度方法能够将此类嵌入反转到离散文本空间。这在前面的结果中也有所体现。这实现了一个有趣的跨模态计算应用。
从 ImageBind中获得灵感它将多种不同模态映射到图像嵌入空间。利用这一共享嵌入作者能够组合模态并根据该组合生成或检索图像。实际上MILS 更加灵活因为反转到文本可以与更多模型进行交互。例如ImageBind 通过利用类似 DALLE-2 的 T2I 模型展示了音频到图像生成的结果。这是可能的因为 ImageBind 恰好与 CLIP 嵌入空间对齐而 CLIP 嵌入空间与 DALLE-2 使用的相同。因此ImageBind 与任何其他 T2I 模型例如隐空间扩散模型不兼容。另一方面文本表示可以与任何 T2I 模型兼容包括那些不将文本输入表示为嵌入空间中的点的模型。
在下图 7 中展示了组合图像和音频模态的示例。首先将图像和音频反转到文本使用 LLM 组合这两个输出详见附录B最后将提示转换为高质量图像。生成的图像结合了这两种模态的语义概念。 8消融实验
现在对 MILS 中的一些关键设计选择进行消融实验。主要将分析重点放在图像描述任务上并在部分消融实验中改进图像生成。为了计算方便从 MSCOCO 中随机抽取 1000 张图像进行描述并使用包含 200 个提示的 DrawBench 集作为图像生成的测试集。报告了包括 CLIP 相似性和 PickScore 在内的所有指标这些指标均在这些集合上取平均值。
优化步骤的性能。在下图 9 中对这两个任务进行了评估。报告了评分器的输出可以视为本文设置中的“训练损失”以及下游指标。对于图像描述任务报告了 SPICE对于文本到图像生成任务报告了与原始提示生成结果的人类评估对比。对于后者还展示了 ±4 点的误差条这是在人类评估中发现的典型随机方差范围。如图 9 所示评分器输出和下游指标都随着优化步骤的增加而改善并在 10 到 20 步后收敛。还注意到优化目标评分器输出与下游性能密切相关。
最后在下图 8 和图 11 中分别对描述和生成任务进行了定性可视化。在这两种情况下输出的质量都随着步骤的增加而提高展示了 MILS 的有效性。 生成器和评分器的规模。
在下图 12 中评估了生成器Llama 3和评分器MetaCLIP的规模以参数数量衡量对图像描述任务的影响。较大的模型通常表现更好其中 LLM 的扩展表现出最有潜力的增益。还在附录 C 中尝试了不同类型的生成器和评分器。 三总结与未来工作可能性
MILS这是一种无需任何任务特定数据策展或训练即可解决多模态任务的简单方法。MILS 展现了对各种不同任务和模态的零样本泛化能力。值得注意的是展示了 MILS 在图像、视频和音频三种模态的描述任务上均取得了强劲的性能表明 LLM 无需任何训练即可“看到”和“听到”这进一步推动并实现了各种媒体生成任务的改进例如图像生成、图像编辑风格迁移和跨模态计算。
尽管前景广阔但 MILS 仍存在一些局限性未来的工作可以尝试解决。其性能受限于生成器生成多样化候选者的能力以及评分器为生成器提供准确反馈的能力。例如风格迁移的性能受限于 Gram 矩阵距离在检测细粒度纹理相似性时的分辨率以及 LLM 描述潜在风格的能力。随着 LLM 和多模态模型的不断改进MILS 也会随之改进。另一个局限性是优化过程的速度。随着核心 LLM 变得更快速、更高效以及其上下文长度和推理能力OpenAI的提升优化步骤将减少速度也会提高。将 MILS 应用于其他模态和任务例如空间和 3D 任务也将是一个有趣的方向。
论文地址https://arxiv.org/pdf/2501.18096