当前位置: 首页 > news >正文 盐城网站建设代理商长宁苏州网站建设公司 news 2025/11/3 3:50:33 盐城网站建设代理商,长宁苏州网站建设公司,成都五月花网页设计培训,个人网页设计教程为什么需要奖励模型 因为指令微调后的模型输出可能不符合人类偏好#xff0c;所以需要利用强化学习优化模型#xff0c;而奖励模型是强化学习的关键一步#xff0c;所以需要训练奖励模型。 1.模型输出可能不符合人类偏好 上一篇讲的SFT只是将预训练模型中的知识给引导出来…为什么需要奖励模型 因为指令微调后的模型输出可能不符合人类偏好所以需要利用强化学习优化模型而奖励模型是强化学习的关键一步所以需要训练奖励模型。 1.模型输出可能不符合人类偏好 上一篇讲的SFT只是将预训练模型中的知识给引导出来的一种手段而在SFT 数据有限的情况下我们对模型的引导能力就是有限的。这将导致预训练模型中原先错误或有害的知识没能在 SFT 数据中被纠正从而出现「有害性」或「幻觉」的问题。 2.需要利用强化学习优化模型 一些让模型脱离昂贵标注数据自我进行迭代的方法被提出比如RLHFDPORLHF是直接告诉模型当前样本的好坏得分DPO 是同时给模型一条好的样本和一条坏的样本。最终目的是告知模型什么是好的数据什么是不好的数据将大模型训练地更加符合人类偏好。 3.设计有效的奖励模型是强化学习的关键一步 设计有效的奖励模型是 RLHF 的关键一步因为没有简单的数学或逻辑公式可以切实地定义人类的主观价值。在进行RLHF时需要奖励模型来评估语言大模型actor model回答的是好是坏这个奖励模型通常比被评估的语言模型小一些deepspeed的示例中语言大模型66B奖励模型只有350M。奖励模型的输入是promptanswer的形式让模型学会对promptanswer进行打分。奖励模型的目标是构建一个文本质量对比模型对于同一个提示词SFT 模型给出的多个不同输出结果的质量进行排序。 训练奖励模型 1.训练数据人工排好序的数据 奖励模型的训练数据是人工对问题的每个答案进行排名如下图所示 对于每个问题给出若干答案然后工人进行排序而奖励模型就是利用排序的结果来进行反向传播训练。 问题最终目的是训练一个句子打分模型为什么不让人直接打分而是去标排序序列呢 直接给生成文本进行打分是一件非常难统一的事情。如果对于同样的生成答案有的标注员打 5 分但有的标注员打 3 分模型在学习的时候就很难明确这句话究竟是好还是不好。 既然打绝对分数很难统一那就转换成一个相对排序的任务能够更方便标注员打出统一的标注结果。 模型通过尝试最大化「好句子得分和坏句子得分之间的分差」从而学会自动给每一个句子判分。 问题使用多少数据能够训练好一个RM 在 OpenAI Summarize 的任务中使用了 6.4w 条]偏序对进行训练。 在 InstructGPT 任务中使用了 3.2w 条 [4~9] 偏序对进行训练。 在 StackLlama]任务中使用了 10w 条 Stack Exchange 偏序对进行训练。 从上述工作中我们仍无法总结出一个稳定模型需要的最小量级这取决于具体任务。 但至少看起来5w 以上的偏序对可能是一个相对保险的量级。 2.模型架构 奖励模型RM 模型将 SFT 模型最后一层的 softmax 去掉即最后一层不用 softmax改成一个线性层。RM 模型的输入是问题和答案输出是一个标量即分数。 由于模型太大不够稳定损失值很难收敛且小模型成本较低因此RM 模型采用参数量为 6B 的模型而不使用 175B 的模型。 问题RM 模型的大小限制 Reward Model 的作用本质是给生成模型的生成内容进行打分所以 Reward Model 只要能理解生成内容即可。 关于 RM 的规模选择上目前没有一个明确的限制 Summarize 使用了 6B 的 RM6B 的 LM。 InstructGPT 使用了 6B 的 RM175B 的 LM。 DeepMind 使用了 70B 的 RM70B LM。 不过一种直觉的理解是判分任务要比生成认为简单一些因此可以用稍小一点的模型来作为 RM。 3.损失函数最大化差值 假定现在有一个排好的序列A B C D。 我们需要训练一个打分模型模型给四句话打出来的分要满足 r(A) r(B) r(C) r(D)。 那么我们可以使用下面这个损失函数 其中yw 代表排序排在 yl 的所有句子。 用上述例子A B C D来讲loss 等于 loss r(A) - r(B) r(A) - r(C) r(A) - r(D) r(B) - r(C) ... r(C) - r(D) loss -loss 为了更好的归一化差值我们对每两项差值都过一个 sigmoid 函数将值拉到 0 ~ 1 之间。 可以看到loss 的值等于排序列表中所有排在前面项的reward减去排在后面项的reward的和。 而我们希望模型能够最大化这个好句子得分和坏句子得分差值而梯度下降是做的最小化操作。因此我们需要对 loss 取负数就能实现最大化差值的效果了。 问题奖励模型的损失函数为什么会比较答案的排序而不是去对每一个答案的具体分数做一个回归 每个人对问题的答案评分都不一样无法使用一个统一的数值对每个答案进行打分训练标签不好构建。如果采用对答案具体得分回归的方式来训练模型会造成很大的误差。但是每个人对答案的好坏排序是基本一致的。通过排序的方式避免了人为的误差。 问题奖励模型中每个问题对应的答案数量即K值为什么选 9 更合适而不是选择 4 呢 进行标注的时候需要花很多时间去理解问题但答案之间比较相近假设 4 个答案进行排序要 30 秒时间那么 9 个答案排序可能就 40 秒就够了。9 个答案与 4 个答案相比生成的问答对多了 5 倍从效率上来看非常划算K9时每次计算 loss 都有 36 项rθ(x,y)需要计算RM 模型的计算所花时间较多但可以通过重复利用之前算过的值也就是只需要计算 9 次即可能节约很多时间。 总结 奖励模型通过与人类专家进行交互获得对于生成响应质量的反馈信号从而进一步提升大语言模型的生成能力和自然度。与监督模型不同的是奖励模型通过打分的形式使得生成的文本更加自然逼真让大语言模型的生成能力更进一步。 文章转载自: http://www.morning.bsgfl.cn.gov.cn.bsgfl.cn http://www.morning.wkxsy.cn.gov.cn.wkxsy.cn http://www.morning.rnsjp.cn.gov.cn.rnsjp.cn http://www.morning.kbgzj.cn.gov.cn.kbgzj.cn http://www.morning.kmlmf.cn.gov.cn.kmlmf.cn http://www.morning.msxhb.cn.gov.cn.msxhb.cn http://www.morning.cqrenli.com.gov.cn.cqrenli.com http://www.morning.yslfn.cn.gov.cn.yslfn.cn http://www.morning.ltrms.cn.gov.cn.ltrms.cn http://www.morning.grfhd.cn.gov.cn.grfhd.cn http://www.morning.ctfwl.cn.gov.cn.ctfwl.cn http://www.morning.wqkzf.cn.gov.cn.wqkzf.cn http://www.morning.krnzm.cn.gov.cn.krnzm.cn http://www.morning.qkwxp.cn.gov.cn.qkwxp.cn http://www.morning.kcypc.cn.gov.cn.kcypc.cn http://www.morning.wnhgb.cn.gov.cn.wnhgb.cn http://www.morning.gjlml.cn.gov.cn.gjlml.cn http://www.morning.snnkt.cn.gov.cn.snnkt.cn http://www.morning.pnjsl.cn.gov.cn.pnjsl.cn http://www.morning.djwpd.cn.gov.cn.djwpd.cn http://www.morning.rqqn.cn.gov.cn.rqqn.cn http://www.morning.yptwn.cn.gov.cn.yptwn.cn http://www.morning.dxqwm.cn.gov.cn.dxqwm.cn http://www.morning.zdsqb.cn.gov.cn.zdsqb.cn http://www.morning.xlmpj.cn.gov.cn.xlmpj.cn http://www.morning.rsmtx.cn.gov.cn.rsmtx.cn http://www.morning.hnhkz.cn.gov.cn.hnhkz.cn http://www.morning.jrgxx.cn.gov.cn.jrgxx.cn http://www.morning.qkrgk.cn.gov.cn.qkrgk.cn http://www.morning.ktmnq.cn.gov.cn.ktmnq.cn http://www.morning.mkpqr.cn.gov.cn.mkpqr.cn http://www.morning.mcjp.cn.gov.cn.mcjp.cn http://www.morning.xlclj.cn.gov.cn.xlclj.cn http://www.morning.ttkns.cn.gov.cn.ttkns.cn http://www.morning.nqmdc.cn.gov.cn.nqmdc.cn http://www.morning.wmhlz.cn.gov.cn.wmhlz.cn http://www.morning.dnphd.cn.gov.cn.dnphd.cn http://www.morning.kkgbs.cn.gov.cn.kkgbs.cn http://www.morning.flfxb.cn.gov.cn.flfxb.cn http://www.morning.qyqdz.cn.gov.cn.qyqdz.cn http://www.morning.pqhgn.cn.gov.cn.pqhgn.cn http://www.morning.brsgw.cn.gov.cn.brsgw.cn http://www.morning.tqsgt.cn.gov.cn.tqsgt.cn http://www.morning.fmrwl.cn.gov.cn.fmrwl.cn http://www.morning.ymwcs.cn.gov.cn.ymwcs.cn http://www.morning.sphft.cn.gov.cn.sphft.cn http://www.morning.nllst.cn.gov.cn.nllst.cn http://www.morning.xbdrc.cn.gov.cn.xbdrc.cn http://www.morning.rnjgh.cn.gov.cn.rnjgh.cn http://www.morning.kmwbq.cn.gov.cn.kmwbq.cn http://www.morning.c-ae.cn.gov.cn.c-ae.cn http://www.morning.rqrh.cn.gov.cn.rqrh.cn http://www.morning.jzfrl.cn.gov.cn.jzfrl.cn http://www.morning.jzgxp.cn.gov.cn.jzgxp.cn http://www.morning.dlwzm.cn.gov.cn.dlwzm.cn http://www.morning.niukaji.com.gov.cn.niukaji.com http://www.morning.tkxr.cn.gov.cn.tkxr.cn http://www.morning.ffhlh.cn.gov.cn.ffhlh.cn http://www.morning.nwcgj.cn.gov.cn.nwcgj.cn http://www.morning.jhswp.cn.gov.cn.jhswp.cn http://www.morning.rfrnc.cn.gov.cn.rfrnc.cn http://www.morning.pzrpz.cn.gov.cn.pzrpz.cn http://www.morning.nlbhj.cn.gov.cn.nlbhj.cn http://www.morning.iznek.com.gov.cn.iznek.com http://www.morning.nzfqw.cn.gov.cn.nzfqw.cn http://www.morning.hrqfl.cn.gov.cn.hrqfl.cn http://www.morning.mbnhr.cn.gov.cn.mbnhr.cn http://www.morning.lndongguan.com.gov.cn.lndongguan.com http://www.morning.xhgxd.cn.gov.cn.xhgxd.cn http://www.morning.nywrm.cn.gov.cn.nywrm.cn http://www.morning.gmmyn.cn.gov.cn.gmmyn.cn http://www.morning.tkgjl.cn.gov.cn.tkgjl.cn http://www.morning.bklkt.cn.gov.cn.bklkt.cn http://www.morning.xlwpz.cn.gov.cn.xlwpz.cn http://www.morning.qfrmy.cn.gov.cn.qfrmy.cn http://www.morning.tktcr.cn.gov.cn.tktcr.cn http://www.morning.rpzth.cn.gov.cn.rpzth.cn http://www.morning.ldfcb.cn.gov.cn.ldfcb.cn http://www.morning.pgxjl.cn.gov.cn.pgxjl.cn http://www.morning.brld.cn.gov.cn.brld.cn 查看全文 http://www.tj-hxxt.cn/news/272692.html 相关文章: php网站架设教程手机网页游戏开发 做网站需要做什么全国住房与城乡建设部网站 网站建设一般多少钱方案去除wordpress主题版权 成功营销网站中英企业网站管理系统 荣耀华为手机商城官方网站站酷网电脑版 自己建网站花钱吗制作网站的工具 网站建设电话销售话术网站后台建设 招聘 太原网站模板wordpress 退出 跳转 织梦网站头部到底部去了wordpress dms iis网站开发教程网站UI怎么做 如何制作网站后台大网站怎样选域名 网站建设总体上可划分为两个阶段做钓鱼网站违法吗 个人博客网站html模板珠海本地网站设计公司 徐州市建设局网站首页网站建设方案策划书前言 网站地址申请网站怎么制作视频 百度蜘蛛抓取新网站优品ppt官网网址 建设路第3小学网站电话北京制作网站软件 网站开发软件开发淘宝网站建设 推广 上海 广州网站优化关键词排名网站是干嘛用的 站长之家关键词查询注册的空间网站 瑜伽网站设计重庆正云环保建设网站 网站推广只能使用在线手段进行电商设计工资一般多少 聊天网站备案建设局网站自查自纠 郑州网站seo排名专门做配电箱的网站 网站开发是啥了多个域名 一个网站 设计网站都有哪些邢台网站关键词优化 自己的网站如何优化wordpress企业电商主题排行榜 自贡建网站网页设计商城网站建设 网站开发岗位名称设计官网公司 最便宜服装网站建设淘宝客导购网站模板