网站栏目设计规划表,网站设计宣传广告方案,wordpress免费商城模板下载地址,网站开发的价钱摘要
论文地址#xff1a;https://arxiv.org/pdf/2403.05075 近年来#xff0c;机器学习模型在各个领域越来越受欢迎。学术界和工业界都投入了大量精力来提高机器学习的效率#xff0c;以期实现人工通用智能#xff08;AGI#xff09;。其中#xff0c;大规模语言模型https://arxiv.org/pdf/2403.05075 近年来机器学习模型在各个领域越来越受欢迎。学术界和工业界都投入了大量精力来提高机器学习的效率以期实现人工通用智能AGI。其中大规模语言模型LLM等生成模型的巨大进步彻底改变了自然语言处理NLP领域。大规模语言模型在理解和生成类人文本方面表现出了非凡的能力已成为机器翻译、常识推理和编码任务等各种自然语言处理任务中不可或缺的工具。
最近的一项突破即上下文学习ICL通过在推理过程中获取特定任务的知识进一步提高了大规模语言模型的适应性从而减少了对大量微调的需求。虽然大规模语言模型已在各种自然语言处理应用中证明了其有效性但它们在其他领域的全部潜力尚未得到充分研究。特别是大规模语言模型在处理结构化数据如图时非常吃力在处理特定领域查询如生物学和化学时也面临挑战。
为了填补这一空白本文探讨了以下关键研究问题大规模语言模型能否有效处理分子预测任务为了回答这个研究问题我们确定了包括分类和回归预测任务在内的关键任务并使用六个基准分子数据集如 ogbg-molbace、ogbg-molbbbp、ogbg-molhiv、ogbg-molesol、ogbg-molfreesolv 和ogbg-molipo进行调查。
如下图所示分子可以用多种表示格式表示包括 SMILES 字符串和几何结构。然而现有大规模语言模型的一个主要局限是依赖于非结构化文本这使它们无法将重要的几何结构作为输入。为了应对这一挑战Fatemi 等人提出了一种将图形结构编码为文本描述的方法。在本文中这种方法被扩展到将分子的原子属性和图形结构都编码到文本描述中如下图所示。 然后战略性地设计一系列提示利用大规模语言模型的各种能力如领域知识、ICL 能力生成对分子任务的响应。然后根据下游任务的一致性和性能对这些回答进行评估并与针对分子预测任务设计的现有机器学习模型生成的回答进行比较。
研究表明与现有的机器学习模型相比大规模语言模型缺乏有竞争力的性能尤其是专门用于捕捉分子几何形状的模型显示出较差的结果。ICL 技术可以大大提高大规模语言模型的性能但仍与现有机器学习模型存在差距这凸显了当前大规模语言模型直接处理分子任务的能力有限。
然后我们探讨了将大规模语言模型的反应与现有机器学习模型相结合的可能性并观察到在许多情况下都有显著的改进。结果表明目前使用大规模语言模型作为领域知识增强器比让它们直接处理分子预测任务更有效。此外研究还深入探讨了现有大规模语言模型在分子任务中的局限性和有前途的方法。希望这项工作能为设计由大规模语言模型增强的分子任务跨学科框架提供新的见解。
方法
本文旨在评估大规模语言模型在处理生物学领域结构化分子数据的挑战性预测任务时的性能。分子可以用多种格式表示如 SMILES 字符串或几何结构。然而现有的大规模语言模型受限于对非结构化文本的依赖无法将重要的几何结构作为输入。为了克服这一限制Fatemi 等人提出了一种将图形结构编码为文本描述的方法。本文进一步扩展了这种方法将分子的原子属性和图形结构都编码到文本描述中。这样就可以将重要的分子特性纳入不同的预测任务中。
首先让我们讨论一下问题的设置。首先分子 G 表示为 G, , )其中 是 SMILES 字符串 是几何结构 是对 G 生成的原子属性和图结构的描述∈Y 表示 G 的标签。其中分子集 M{G1G2… , G} 让MT⊂M包含已知标签 的分子。目标是预测所有 G 的未知标签∈ M M M。此外MT 被分成两个子集M和 MM作为训练集M 作为验证集。这种分离允许对模型参数进行微调减少过拟合并在将机器学习ML模型应用于测试数据集 M 之前对其进行验证。
提示工程的下一个目标是将问题 Q 以适当的形式格式化以便大规模语言模型返回相应的答案。本文的目的是为大规模语言模型提供有用的、全面的分子知识使其能够对测试数据集进行预测。微调和 LoRA 等方法可用于提高大规模语言模型的性能但这些方法通常需要访问模型的内部结构且计算成本高昂因此通常难以应用于实际场景。因此本文针对的情况是及其参数是固定的并且是黑盒设置中唯一的文本输入和输出。随着专有模型数量的增加及其硬件要求的提高这种设置尤为重要。
第一组提示IF、IP、IE提供分子的 SMILES 字符串 和描述并要求大规模语言模型在没有预先训练或任务知识的情况下生成所需格式的输出。大规模语言模型的指令只提供背景信息。特别是IF 要求大规模语言模型提供对预测任务有用的有意义的见解。 IPs 寻求对分子特性的预测IEs 寻求进一步的解释而大规模语言模型应阐明解释的生成过程并提供有用的证据来理解预测。作为对 IF、IP 和 IE 描述的补充还衍生出了 IFD、IPD 和 IED 提示。描述提供了更全面的分子图特征和结构信息但会产生大量的标记这可能会影响大规模语言模型中应答的一致性和约束性。 下面的提示集FS提供了少量任务和所需输出的示例允许大规模语言模型从这些示例中学习并在新输入上执行任务。该方法被归类为简单的语境内学习ICL技术提示模板作为样本呈现FS- 显示了提示中的 个语境知识实例。本文不讨论 FSD 提示因为生成的描述包含大量标记可能超出大规模语言模型的输入限制。 最近流行的 ICL 技术包括思维链CoT、思维树ToT、思维图GoT和检索增强生成RaG。从理论上讲这些技术可以支持复杂的任务并包含大量的知识背景。然而早期实验表明CoT、ToT 和 GoT 在分子特性预测任务中的表现明显较差。这归因于设计适当的链式思维需要扎实的专业知识RaG 的实现不稳定查询速度慢性能不如 FS。作者认为这是由于信息检索系统的质量造成的并计划在今后的研究中对此进行更详细的讨论。
此外本文还介绍了为目标分子 M生成预测的预测模型。本文讨论了大规模语言模型LLM、语言模型LM和基于图神经网络GNN的方法以提供分子信息的全面视角。
基于大语言模型的方法将根据上述模板生成的提示作为输入并根据指定格式生成答案。其中LLMSolo 将基于 IF、IP、IE 和 FS 模板的查询作为输入而 LLMDuo 则将基于 IFD、IPD 和 IED 模板的查询作为输入。 语言模型根据可用的文本信息生成预测。例子包括大规模语言模型提供的 SMILES 字符串、描述和回复。实验结果表明使用描述的语言模型的性能无法与其他设置相比。因此本文采用了两种设计一种是仅将 SMILES 字符串作为输入LMSolo另一种是由大规模语言模型提供 SMILES 字符串和响应LMDuo。
图神经网络模型是分子性质预测任务中最先进的方法因为它们能有效捕捉分子的几何结构信息。此外在语言模型的帮助下可用的文本信息可以转换成附加特征然后输入图神经网络模型。
特别是语言模型的灵活性允许将文本信息转换为嵌入信息从而使图神经网络模型能够灵活地纳入来自不同角度的信息。本文采用了三种设计即 GNNSolo、GNNDuo 和 GNNTrio如下图所示转载。 试验
本节介绍实证研究和分析以评估大规模语言模型在分子预测任务中的有效性。分析的重点是特别具有挑战性的分子图性质预测任务。
首先介绍实验设置。我们使用了机器学习研究中常用的六个基准分子特性预测数据集。这些数据集包括ogbg-molbace、ogbg-molbbbp、ogbg-molhiv、ogbg-molesol、ogbg-molfreesolv 和 ogbg-mollipo。下表概述了所收集的数据集。 为了研究大规模语言模型在分子预测任务中的有效性我们还考虑了两类不同的机会学习模型第一类是只将文本信息作为输入的语言模型使用 DeBERTa第二类是捕捉这些信息的图神经网络我们考虑了两种经典的图神经网络变体 GCN 和 GIN。我们考虑了两种经典的图神经网络变体GCN 和 GIN。这些框架如下图所示。 本文重点讨论大规模语言模型参数固定且系统可在黑盒环境中使用的情况。在这种情况下Llama-2-7b、Llama-2-13b、GPT-3.5 和 GPT-4 被用作大规模语言模型其中 GPT-3.5 是大多数实验中的主要大规模语言模型。这些模型来自官方 API 或官方实现。
机器学习预测模型是根据官方实施方案实现的。例如我们采用 OGB 基准排行榜上的图神经网络模型变体的可用代码对于 DeBERTa我们采用官方实现并将其纳入管道。对于大型语言模型我们调用由 OpenAI 提供的 API 或官方实现并使用默认超参数设置。
接下来是评估过程的工作流程。下图给出了一个概览。传统的评估工作流程是评估模型在下游任务中的性能而这次还分析了大规模语言模型的响应一致性。 大规模语言模型会造成知识错觉幻觉并可能产生偏离用户预期的回答。因此我们计算了大规模语言模型中遵循所需格式的回答比例回答一致性。为了确保比较的公平性我们采用了 Hu 等人提供的固定分割方法。这确保了不同实验中评估条件的一致性并允许对不同模型进行有意义的比较。
初步研究还利用 ogbg-molhiv 数据集评估了各种大规模语言模型的效果。提示是根据模板IP、IPD、IE、IED、FS-1、FS-2 和 FS-3生成的。如下图所示在所有评估指标上GPT 模型都优于 Llama 模型表现出一致的性能。 这表明GPT 模型在分子预测任务中更具优势。然而GPT-4 应用程序接口的使用成本是 GPT-3.5 的 20 倍响应时间也比 GPT-3.5 慢 10 倍。因此出于性能和计算效率的考虑本文采用 GPT-3.5 作为默认的大规模语言模型。
下表显示了对六个数据集的分析结果。结果显示LLM 一直不如三种 ML 模型。这表明作为分子预测任务的专家依赖大规模语言模型可能是不够的。有必要了解大规模语言模型的局限性并探索提高预测准确性的替代方法。 目前的大规模语言模型依赖于非结构化文本这限制了它们将分子几何结构作为输入的能力。为了解决这一限制Fatemi 等人提出了一种将图形结构编码成文本的方法。然而上表中的结果显示在提示中添加解释可能不会提高性能反而会降低性能。他们认为这是由于额外的标记分散了注意力增加了大规模语言模型的复杂性。
下表转载于后中的结果显示整合了几何结构的模型优于未整合几何结构的模型。现有的大规模语言模型很难将几何信息直接整合到提示中因为生成的解释中的词块数量超过了限制条件。 论文指出应对这一挑战对未来研究非常重要。可能的解决方案包括令牌管理技术、复杂的提示工程策略或可处理多种输入表示的替代模型架构。这将使大规模语言模型能够更好地捕捉分子的几何复杂性并提高其在化学建模任务中的预测能力。
除了将大规模语言模型直接用于分子预测任务之外我们还探索了将这些模型与现有机器学习模型集成的潜在优势。按照下图所示的框架如下图所示机器学习模型如图神经网络的输入特征与大规模语言模型生成的响应相辅相成。 下面两个表格中的结果表明引入大规模语言模型的响应作为额外的输入特征可显著提高预测性能。这表明使用大规模语言模型生成的响应可以补充传统机器学习模型捕获的信息并提高预测精度。这种混合方法是推动分子性质预测技术发展的一个很有前途的方向。
下表 显示了分子图形特性在六个数据集ogbg-molbace、ogbg-molbbbp、ogbg-molhiv、ogbg-molesol、ogbg-molfreesolv、ogbg-mollipo 上的预测性能并遵循了 Duo 管道ogbg-molbace、ogbg-molbbbp、ogbg-molhiv、ogbg-molesol、ogbg-molfreesolv、ogbg-mollipo 。它遵循 Duo 流程。分类任务用 ROC-AUC 进行评估↑越高越好回归任务用 RMSE 进行评估↓越低越好。每个模型的最佳性能以下划线表示最佳总体性能以粗体表示。 下表还显示了分子图形特性在六个数据集ogbg-molbace、ogbg-molbbbp、ogbg-molhiv、ogbg-molesol、ogbg-molfreesolv、ogbg-mollipo中的预测性能这些数据集遵循 Trio管道。分类任务用 ROC-AUC 进行评估↑越高越好回归任务用 RMSE 进行评估↓越低越好。每个模型的最佳性能以下划线表示总体最佳性能以粗体表示。 总结
本文就大规模语言模型处理分子相关任务的能力提出了重要见解对六个基准数据集的综合分析表明大规模语言模型在预测分子任务中的竞争力低于现有的机器学习模型。显然它们的竞争力低于学习模型。此外研究人员还提出了利用大规模语言模型作为补充工具的潜力表明将大规模语言模型与现有机器学习模型相结合可以提高预测准确性。这为大规模语言模型与传统机器学习模型的有效结合提供了一种很有前景的方法。
这项工作凸显了大规模语言模型目前在分子相关任务中的局限性同时也为未来的研究开辟了新的方向。特别是它探索了创新方法将大规模语言模型与特定领域的知识和结构信息更好地整合在一起从而有可能缩小观察到的性能差距。这篇论文让人们更好地了解了大规模语言模型在分子相关任务中的优缺点并为其在化学、生物学及相关领域的实际应用提出了明智的策略建议。
除了分子预测任务未来还有许多其他有前景的研究方向。特别是解决大规模语言模型在理解分子几何结构方面的局限性非常重要。大规模语言模型无法捕捉此类结构的微妙之处往往会导致结果不准确。克服这一局限加强大规模语言模型对分子几何结构的理解对于扩大大规模语言模型在分子任务中的应用至关重要。
尽管本文提出了将大规模语言模型与传统机器学习模型相结合的简单而有效的框架但在这方面仍有进一步完善方法的空间。设计一个复杂的框架将大规模语言模型与现有的机器学习模型无缝集成是未来研究的一个很有前景的方向可以提高预测性能和模型的可解释性。
开发专用于分子的大规模语言模型也被认为非常重要。尽管大规模语言模型在许多任务中不如基线模型但它们能从有限的样本中推导出解决方案这表明了通用智能在分子领域的潜力。不过目前的大规模语言模型在化学任务中表现出明显的幻觉晕轮表明还有改进的余地。为了提高大规模语言模型解决实际化学问题的效率我们需要继续开发大规模语言模型并研究如何减少幻觉晕轮。