当前位置: 首页 > news >正文

百度不收录哪些网站多网站管理

百度不收录哪些网站,多网站管理,wordpress 文章分栏,搜外seo25年2月来自 U of Chicago、Princeton U 和 U of Oxford 的论文“ScoreFlow: Mastering LLM Agent Workflows via Score-based Preference Optimization”。 最近的研究利用大语言模型多智体系统来解决复杂问题#xff0c;同时试图减少构建它们所需的手动工作量#xff0c;从…25年2月来自 U of Chicago、Princeton U 和 U of Oxford 的论文“ScoreFlow: Mastering LLM Agent Workflows via Score-based Preference Optimization”。 最近的研究利用大语言模型多智体系统来解决复杂问题同时试图减少构建它们所需的手动工作量从而推动自动智体工作流优化方法的发展。然而现有方法在依赖离散优化技术时由于表征限制、缺乏适应性和可扩展性差仍然缺乏灵活性。本文用 ScoreFlow 解决这些挑战这是一个简单但高性能的框架它利用连续空间中高效的基于梯度优化。ScoreFlow 结合 Score-DPO一个直接偏好优化DPO方法的一种变型它考虑定量反馈。在涵盖问答、编码和数学推理的六个基准测试中ScoreFlow 比现有基线提高 8.2%。此外它使较小的模型能够以较低的推理成本胜过较大的模型。 大语言模型 (LLM) 已证明其在解决自然语言任务方面表现出色 [25, 33, 1, 2, 41, 42]。此外LLM 的多智体系统工作流中多个智体协调并交换信息以完成任务这使得基于 LLM 的智体能够协作并解决广泛领域的复杂任务例如数学问题解决 [47, 38]、问答 [24] 和编码任务 [12, 28]。 然而这些手动设计的智体工作流需要付出巨大努力并且处理不同领域任务的能力有限。因此该领域的新兴重点是通过开发自动化的工作流生成和优化方法来解决静态工作流的局限性。这些优化可以针对各个方面包括快速细化、超参调整和工作流结构设计 [17, 49, 44, 14, 46, 7, 19, 21, 32, 45]。 自动优化方法可能受到预定义工作流结构固有限制和工作流空间表征的刚性限制 [17, 49, 44, 21]。DyLAN [21] 深思熟虑地强调 LLM 辩论中的通信结构但忽略其他潜在的通信结构。GPTSwarm [49] 利用基于图的结构并采用强化微调进行优化。然而图结构中缺乏对条件状态的考虑对搜索空间施加限制。 为了提高表示能力AFlow [46] 和 ADAS [14] 使用代码作为工作流的表示从而促进稳健而灵活的工作流搜索。然而ADAS 面临着搜索过程效率低下和工作流存储粗糙的挑战这导致无关数据的积累和复杂性增加最终降低其有效性。为了解决这些问题AFlow 采用蒙特卡洛树搜索MCTS的变型作为优化方法来提高效率。然而工作流结构收敛速度过快再加上离散优化方法限制搜索空间的探索常常导致结果不理想。此外它们都针对整个任务集优化单一工作流这限制包含各种问题较大数据集的适应性和可扩展性 [45, 32]。 智体工作流优化 针对提示和超参的自动优化。强调提示优化 [11, 44, 40, 17] 或超参优化 [29] 的自动优化方法可以提高性能但是它们对工作流结构施加限制并且通常需要手动修改以适应新任务从而限制它们的适应性和可扩展性。 工作流结构的自动优化。工作流优化方法 [48, 49, 14, 46, 7, 19, 21, 32, 45] 专注于改进工作流的结构使其更强大可以处理各种任务。但是工作流表征的不灵活性和局限性例如图结构中条件状态的丢失可能会限制搜索空间从而妨碍适应多样化和复杂工作流的能力。 从语言模型的偏好中学习 PPO。近端策略优化 (PPO) [30] 分两个阶段处理偏好反馈。首先在偏好数据集 D_R 上训练奖励模型 R_φ其中每个条目 (x, y_w, y_l) 由提示 x、首选响应 y_w 和拒绝响应 y_l 组成。通过最小化以下损失函数来优化奖励模型该函数的灵感来自 Bradley-Terry (BT) 模型 [5]用于对排名pair-ranking。 接下来通过最大化分配给其生成响应的奖励来完善策略模型 π_θ同时保持软 KL 散度约束以防止退化。 DPO。直接偏好优化 (DPO) [27] 使用偏好数据促进直接策略优化无需显式奖励模型或主动策略采样。这种方法提高优化过程的效率和稳定性。从上述策略模型目标函数的闭式解中隐式奖励可以表示为 R_φ(x, y) β log π_θ^⋆ (y | x)/π_ref (y | x) βZ(x)其中 π_θ^⋆ 是最优策略Z(x) 是分区函数。然后可以使用上述奖励目标直接优化策略模型从而导致 DPO 损失。 ScoreFlow 是一种自动化且经济高效的多智体工作流生成框架它采用优化方法来实现高性能、可扩展性和适应性。其流程如下 ScoreFlow 的推理过程概述如图所示。给定数学任务 A 和 B以及可选择的智体类型程序员、可自定义操作员、集成操作员和审阅人将为每个任务生成一个基于 Python 的工作流其中工作流 A 和 B 的智体集分别包含一个和五个状态。然后将每个任务输入到其各自的工作流中以产生执行结果。 现在将 LLM 多智体工作流优化问题和一些符号形式化如下。 给定一个输入任务 q格式化为提示希望确定解决此任务的最佳工作流 G(q)其中 G 是工作流生成器。工作流函数 W_f 定义为某个任务 q 和智体集 V qV的集成到执行结果 W_f (qV) 的映射通常是该任务的解决方案。智体集 V 由一组智体组成每个智体都以其系统提示、温度设置和其他相关参数为特征。然后将工作流定义为智体集和工作流函数的组合VW_f。定义工作流搜索空间为W {VW_f| V ⊂ VVW_f满足条件 C}其中 V 表示整个智体空间。 条件 C 对搜索空间施加约束使得 W_f 对于智体集 V 是可执行的。给定这些符号优化目标是确定最佳的工作流生成器 其中 D 表示任务数据集S 是针对任务 q 执行工作流 G(q) 所生成结果的第三方评估器例如人工提供的分数、平均胜率或其他相关指标。 使用代码作为工作流函数 W_f [14, 46] 的表示可以解释线性序列、循环、条件逻辑并提供超出图或网络结构的灵活性。此外按照 Aflow [46]将 V 中的智体表征为操作员。操作员是预定义的、可重复使用的智体节点组合代表常见操作例如程序员、审阅员、校对员、问答操作员、集成操作员、测试操作员和可定制操作员等。通过允许生成器 G 自定义操作员内的系统提示实现提示的优化扩展智体空间 V丰富搜索空间 W。 为了使工作流适应输入任务 q即根据输入问题调整所选的操作员和生成工作流的结构复杂性需要从 q 中提取语义信息。具体来说用一个开源的预训练大语言模型作为生成器 G 的基础模型。生成器的输入包括任务 q 和生成指南的组合包括格式要求和可用操作员的介绍所有这些都被格式化为一个指导提示。 直接使用 DPO 对收集的偏好数据进行生成器微调会导致收敛速度慢并且无法达到最佳性能。这些问题是由于评估分数中的错误和方差造成的。本文提出一种广泛适用的优化方法 Score-DPO这是 DPO 的改进版旨在解决这些挑战。本文实验证明 Score-DPO 在优化 LLM 工作流生成器方面的优势表明它适用于类似的设置。 增强的采样分布。在设置中应用 DPO 时观察的收敛速度慢和性能不佳可以归因于收集的偏好数据不准确这是由评估分数中不可避免的方差和误差造成的。为了解决这个问题建议增加样本对 (w, l) 的权重使分数差异 s_w − s_l 更大。具体来说引入一个函数 d(x, y) : [0, 1]2 → [0, 1]该函数关于 x − y 严格单调递增。然后根据 P^⋆(w, l) ∝ d(s_w, s_l)P(w, l) 增加得分差异较大的数据对采样概率通过增加其可能性来提高权重其中 P(w, l) 表示偏好数据集 D_pre 上的均匀随机采样分布。此调整可确保在采样过程中优先考虑得分差异较大的对从而提高优化过程的有效性。 将评估分数纳入排名目标。Bradley-Terry (BT) [5] 排名目标 σ(r_w −r_l) 有一些替代公式比 DPO [23, 4, 26] 更有效其中 r_w : β log(π_θ(y_w|x)/π_ref (y_w|x)) 和 r_l : β log(π_θ(yl|x)/π_ref (yl|x))。在设置中结合评估分数来指导隐性奖励。具体来说将基于分数的 BT 排名目标定义为 σ(r_w⋆ − r_l⋆)其中 r_w⋆ : f(s_w)r_wr_l^⋆ : (1 − f(s_l))r_lf(x) : [0, 1] → [0, 1] 是严格单调递增函数。从经验上讲这种方法可确保具有更确定性评估分数的数据点对损失函数的影响更大。最后将 Score-DPO 的损失函数定义为 虽然 DPO 很难有效地学习偏好排名 [6]但以下定理将证明这种分数-指导方法将每个样本对优化目标的影响与其评估分数的大小相一致。 为了使分析形式化引入符号来量化每个特定样本对优化目标的影响。 定义 1每个样本的影响。对于给定的样本 zz 对目标函数的影响称为每个样本的影响定义为 每个样本的影响 I(z) 是样本 z 贡献的梯度表示 z 对优化目标的定量影响。当 I(z) 0 时优化过程会增加 z 的对数使其更有可能被优先考虑。当 I(z) 0 时它会降低 z 的对数使其不太可能被优先考虑。以下定理 2 展示分数指导对 I(z) 的影响。 定理 2。假设函数 d(x, y) : [0, 1]^2 → [0, 1] 关于 x − y 严格单调递增函数 f(x) : [0,1] → [0,1] 关于 x 严格单调递增。样本 z 的每个样本影响由以下公式给出 当 −(1 − f(s_z))−1 ≤ r_z ≤ f^−1(s_z) 成立时该影响随得分 s_z 严格单调递增。 因此Score-DPO 可以将得分信息纳入自采样偏好优化中使优化过程能够考虑定量信息而不是仅使用赤裸裸偏好对信息并且可以减少得分不准确造成的误差和方差。请注意定理 2 中所述的条件不是限制性的因为 |r_z | ≤ 1 为其有效性提供充分条件。此外实验结果表明在收敛之前的优化过程中|r_z| ≤ 1 成立的概率约为 91.1%。 最后总结的算法如下 数据集。专注于六个公共数据集涵盖一系列任务包括数学问题、问答问题和编码问题。具体来说利用 HumanEval [8] 和 MBPP [3] 的完整数据集。按照 Aflow [46] 的方法对于 GSM8K [9]在测试集中使用 1,319 个数据点。对于 MATH 数据集为了强调高级和具有挑战性的问题从以下问题类型中选择难度级别为 5 的问题组合和概率、数论、初等代数和初等微积分就像 Hong [12] 所做的那样。对于 DROP [10] 和 HotpotQA [43]遵循 Hu [14]、Shinn [31] 和 Zhang [46] 概述的方法从每个数据集中随机选择 1,000 个样本。使用 1:4 的比例将数据分成验证集和测试集。 基线。手动设计的静态工作流基线包括直接 LLM 调用、思维链 [36]、自洽性 CoT对集成生成 5 个响应[34]、MedPrompt3 个响应和 5 张票[24]、多人辩论 [35] 和自我优化2 轮[22]。还与代码表示自动化工作流优化方法进行比较ADAS [14] 和 Aflow [46]其中使用 GPT-4o-mini 作为它们的优化模型。将 Aflow 的迭代轮数设置为 20如 Zhang [46] 所述。 模型。默认情况下用 Llama-3.1-8B-Instruct 作为生成器的基础模型使用 vLLM [18] 进行推理并使用 GPT-4o-mini 作为执行器通过 API 进行推理温度为 0。在消融研究中用 Qwen2.5-7B-Instruct [39] 作为生成器并使用 GPT-4o 和 DeepSeek 系列模型 [20] 作为执行器。所有实验均使用 2 个 A6000 GPU 和 LoRA [13]。 指标和评估分数。在最终结果中报告解决率评估 3 次并取平均值。用 GPT-4o-mini 作为 MATH、DROP 和 HotpotQA 的评判模型以避免格式不一致问题。在优化过程的每次迭代中总共 3 次迭代为每个问题生成 k 8 个工作流并获得它们的评估分数其中不使用判断模型来降低成本和计算开销。具体来说用 F1 分数作为 DROP 和 HotpotQA 的评估指标并解决剩余数据集的速率评估 3 次并取平均值。为了应用 Score-DPO将 f (x) x 和 d(x, y) (x − y)^3 设置为默认选择。
文章转载自:
http://www.morning.rhmt.cn.gov.cn.rhmt.cn
http://www.morning.wpspf.cn.gov.cn.wpspf.cn
http://www.morning.kjtdy.cn.gov.cn.kjtdy.cn
http://www.morning.zzaxr.cn.gov.cn.zzaxr.cn
http://www.morning.grxbw.cn.gov.cn.grxbw.cn
http://www.morning.kzyr.cn.gov.cn.kzyr.cn
http://www.morning.fbqr.cn.gov.cn.fbqr.cn
http://www.morning.tmtrl.cn.gov.cn.tmtrl.cn
http://www.morning.cqyhdy.cn.gov.cn.cqyhdy.cn
http://www.morning.jlmrx.cn.gov.cn.jlmrx.cn
http://www.morning.qytyt.cn.gov.cn.qytyt.cn
http://www.morning.qstjr.cn.gov.cn.qstjr.cn
http://www.morning.qfmns.cn.gov.cn.qfmns.cn
http://www.morning.wnhsw.cn.gov.cn.wnhsw.cn
http://www.morning.dmjhp.cn.gov.cn.dmjhp.cn
http://www.morning.hrzymy.com.gov.cn.hrzymy.com
http://www.morning.qwpyf.cn.gov.cn.qwpyf.cn
http://www.morning.bwqr.cn.gov.cn.bwqr.cn
http://www.morning.wsxly.cn.gov.cn.wsxly.cn
http://www.morning.gypcr.cn.gov.cn.gypcr.cn
http://www.morning.qhfdl.cn.gov.cn.qhfdl.cn
http://www.morning.xnpj.cn.gov.cn.xnpj.cn
http://www.morning.lgnbr.cn.gov.cn.lgnbr.cn
http://www.morning.zsrdp.cn.gov.cn.zsrdp.cn
http://www.morning.cwskn.cn.gov.cn.cwskn.cn
http://www.morning.xsymm.cn.gov.cn.xsymm.cn
http://www.morning.jmspy.cn.gov.cn.jmspy.cn
http://www.morning.nqyfm.cn.gov.cn.nqyfm.cn
http://www.morning.bbgr.cn.gov.cn.bbgr.cn
http://www.morning.trhlb.cn.gov.cn.trhlb.cn
http://www.morning.wklmj.cn.gov.cn.wklmj.cn
http://www.morning.jpmcb.cn.gov.cn.jpmcb.cn
http://www.morning.rwwdp.cn.gov.cn.rwwdp.cn
http://www.morning.tpnxr.cn.gov.cn.tpnxr.cn
http://www.morning.wqpr.cn.gov.cn.wqpr.cn
http://www.morning.gxwyr.cn.gov.cn.gxwyr.cn
http://www.morning.nuejun.com.gov.cn.nuejun.com
http://www.morning.bauul.com.gov.cn.bauul.com
http://www.morning.rqknq.cn.gov.cn.rqknq.cn
http://www.morning.rqlbp.cn.gov.cn.rqlbp.cn
http://www.morning.wdshp.cn.gov.cn.wdshp.cn
http://www.morning.hrjrt.cn.gov.cn.hrjrt.cn
http://www.morning.pfntr.cn.gov.cn.pfntr.cn
http://www.morning.nrbqf.cn.gov.cn.nrbqf.cn
http://www.morning.ndcjq.cn.gov.cn.ndcjq.cn
http://www.morning.mfnsn.cn.gov.cn.mfnsn.cn
http://www.morning.qfcnp.cn.gov.cn.qfcnp.cn
http://www.morning.yqqgp.cn.gov.cn.yqqgp.cn
http://www.morning.frpfk.cn.gov.cn.frpfk.cn
http://www.morning.mltsc.cn.gov.cn.mltsc.cn
http://www.morning.xwgbr.cn.gov.cn.xwgbr.cn
http://www.morning.mqmxg.cn.gov.cn.mqmxg.cn
http://www.morning.dqpd.cn.gov.cn.dqpd.cn
http://www.morning.zzfjh.cn.gov.cn.zzfjh.cn
http://www.morning.sfzwm.cn.gov.cn.sfzwm.cn
http://www.morning.gbcnz.cn.gov.cn.gbcnz.cn
http://www.morning.xhwty.cn.gov.cn.xhwty.cn
http://www.morning.rnhh.cn.gov.cn.rnhh.cn
http://www.morning.wgzzj.cn.gov.cn.wgzzj.cn
http://www.morning.qymqh.cn.gov.cn.qymqh.cn
http://www.morning.huihuangwh.cn.gov.cn.huihuangwh.cn
http://www.morning.swkzk.cn.gov.cn.swkzk.cn
http://www.morning.tzzkm.cn.gov.cn.tzzkm.cn
http://www.morning.wmfny.cn.gov.cn.wmfny.cn
http://www.morning.lmknf.cn.gov.cn.lmknf.cn
http://www.morning.xrqkm.cn.gov.cn.xrqkm.cn
http://www.morning.qcygd.cn.gov.cn.qcygd.cn
http://www.morning.zhoer.com.gov.cn.zhoer.com
http://www.morning.knpbr.cn.gov.cn.knpbr.cn
http://www.morning.tlfyb.cn.gov.cn.tlfyb.cn
http://www.morning.wqnc.cn.gov.cn.wqnc.cn
http://www.morning.dnvhfh.cn.gov.cn.dnvhfh.cn
http://www.morning.yrpg.cn.gov.cn.yrpg.cn
http://www.morning.symgk.cn.gov.cn.symgk.cn
http://www.morning.bzbq.cn.gov.cn.bzbq.cn
http://www.morning.wfkbk.cn.gov.cn.wfkbk.cn
http://www.morning.lgnrl.cn.gov.cn.lgnrl.cn
http://www.morning.gmyhq.cn.gov.cn.gmyhq.cn
http://www.morning.rqjl.cn.gov.cn.rqjl.cn
http://www.morning.yrdkl.cn.gov.cn.yrdkl.cn
http://www.tj-hxxt.cn/news/251575.html

相关文章:

  • 毕业设计报告网站开发网站推广优化业务
  • 商城网站是怎么做的商城软件下载
  • 做优惠卷网站房地产平面设计网站
  • 深圳通信管理局网站公司名称设计logo免费
  • 做好对外门户网站建设淮北做网站
  • 哪个公司建设网站惠安网站建设价格
  • 自己做网站用中文为什么是乱码cms开发
  • 免费微信网站模板下载海鲜网站开发目的在于
  • 基于php网站开发环境php商城网站开发实例视频教程
  • 医院网站如何备案建设工程信息网站
  • 我想网站建设多少钱android软件开发下载
  • 建网站需要哪些条件公司做两个网站有影响吗
  • 制作网站入门广州做外贸网站建设
  • 东营机关建设网站上传户型图生成效果图
  • 网站背景图片切换上海网络推广公司
  • 华润置地建设事业部官方网站外包开发app需要多少钱
  • 做网站设计的公司网络系统管理技能大赛答案
  • 为什么不建议学python郑州做网站优化最好的公司
  • 物流网站首页图片企业建站
  • 为歌手做的个人网站网站怎么做app
  • 怎样修改公司网站内容百度竞价推广账户
  • 银川做网站网站开发课程培训
  • 北京网站建设品牌lol中国战队
  • 烟台市建设工程质量监督站网站游戏开发巨头
  • 网站建设资讯版块如何做用户运营百度一下你就知道移动首页
  • 如何运营垂直网站ps做字幕模板下载网站
  • 校园网站建设和管理工作制度网站站点创建成功是什么意思
  • 安阳网站制作哪家好请多记几个本站域名防止
  • 怎么做兼职类网站大连哪家科技公司做网站好
  • 网页制作与网站建设教程视频教程j2ee网站开发参考文献