当前位置: 首页 > news >正文

php网站开发常用的插件做视频网站公司要怎么做

php网站开发常用的插件,做视频网站公司要怎么做,电子商务专业就业方向女生,网址转app制作生成器导语 Llama 2 是之前广受欢迎的开源大型语言模型 LLaMA 的新版本#xff0c;该模型已公开发布#xff0c;可用于研究和商业用途。本文记录了阅读该论文的一些关键笔记。 链接#xff1a;https://arxiv.org/abs/2307.09288 1 引言 大型语言模型#xff08;LLMs#xff…导语 Llama 2 是之前广受欢迎的开源大型语言模型 LLaMA 的新版本该模型已公开发布可用于研究和商业用途。本文记录了阅读该论文的一些关键笔记。 链接https://arxiv.org/abs/2307.09288 1 引言 大型语言模型LLMs在多个领域表现出卓越的能力尤其是在需要复杂推理和专业知识的任务中例如编程和创意写作。LLMs通过直观的聊天界面与人类互动导致了它们在公众中的快速普及。LLMs通常通过自回归式的Transformer在大量自监督数据上进行预训练然后通过诸如人类反馈的强化学习RLHF等技术进行微调使其更符合人类偏好。尽管训练方法相对简单但高计算要求限制了LLMs的发展。已有公开发布的预训练LLMs在性能上可以与GPT-3和Chinchilla等闭源模型相媲美但这些模型并不适合作为诸如ChatGPT、BARD、Claude这样的闭源“产品”LLMs的替代品。 本文开发并发布了Llama 2和Llama 2-Chat以供研究和商业使用这是一系列预训练和微调的LLMs模型规模最大可达70亿参数。Llama 2-Chat在有用性和安全性方面的测试中普遍优于现有的开源模型并且在人类评估中与一些闭源模型相当。本文还采取了提高模型安全性的措施包括特定的数据注释和调整红队测试以及迭代评估。同时作者强调虽然LLMs是一项新技术可能带来潜在风险但如果安全地进行公开发布LLMs将对社会有益。作者提供了负责任使用指南和代码示例以促进Llama 2和Llama 2-Chat的安全部署。 2 预训练 2.1 预训练数据 数据来源训练数据来自公开可用的源排除了来自 Meta 产品或服务的数据。数据清洗移除了已知包含大量个人信息的网站数据。训练token数训练了2万亿2Ttoken的数据以获得良好的性能和成本平衡。 2.2 训练细节 使用标准Transformer架构使用RMSNorm而不是原始的LayerNorm使用SwiGLU激活函数相对于LLaMA的2k上下文长度LLaMA2增加到了4k上下文长度使用了Grouped-Query Attention (GQA)而不是之前的MQA、MHA使用了RoPE方式进行位置编码使用旋转矩阵来编码位置信息直接融合到自注意力的计算中 RMSNorm 原始的LayerNorm需要计算均值和方差然后再进行归一化 而RMSNormRoot Mean Square Normalization是LayerNorm的一种变体其通过计算层中所有神经元输出的均方根Root Mean Square来归一化这些输出。这样可以减少不同层输出分布的差异有助于加速训练并提高模型的稳定性。 SwiGLU SwiGLUSigmoid-Weighted Linear Unit是一种神经网络中的激活函数它是 Gated Linear Unit (GLU) 的一种变体由两部分组成一个线性变换和一个 sigmoid 函数。输入先通过一个线性变换然后用 sigmoid 函数的输出加权。 GQA GQA则是介于Multi-query和Multi-head之间的一种中间形式传统的Multi-head Self-attention中每个Head都有各自的QKV而Multi-Query Self-attention中各个头之间共享一个K、V而GQA则是介于两者之间即对头进行分块每块中的若干头使用同样的KV。 2.3 Llama 2 预训练模型评估 本文对Llama 2 模型在一系列标准学术基准测试中的性能进行了报告。与其他模型相比Llama 2 模型不仅超过了 Llama还在多个分类基准上超过了其他开源模型和某些闭源模型。在长上下文Long-context数据集上效果比Llama提升显著。 3 微调 Llama 2-Chat 的开发涉及了多次迭代应用的对齐技术包括指令调整和人类反馈的强化学习RLHF。这个过程需要大量的计算资源和注释工作。 3.1 监督式微调 (SFT) 初始步骤使用公开可用的指令微调数据作为 SFT 的起点。数据质量重点放在收集高质量的 SFT 数据上因为作者发现许多第三方数据质量和多样性不足。通过放弃第三方数据集中的数百万个示例并使用基于供应商的标注工作中更少但质量更高的示例结果显著提高。作者发现数万级别的 SFT 标注就足以达到高质量结果本文收集了总共27,540个标注。训练细节训练时prompt和答案拼接在一起使用特殊的 token 来分开这两个部分。采用自回归损失并设置prompt不参与反向传播即Prompt部分不计算loss。 3.2 强化学习与人类反馈 (RLHF) 3.2.1 人类偏好数据收集 在 Llama 2-Chat 模型的 RLHF 过程中首先进行了人类偏好数据的收集这些数据用于后续的奖励建模收集了超过一百万个基于人类指定指南的二元比较的大型数据集这些数据的特点是对话轮次更多平均长度更长 二元比较使用二元比较方法即只需判断哪一个更好不需要对各自进行打分来收集偏好数据主要是为了最大化收集的prompt的多样性。标注过程注释者首先编写提示然后在两个模型响应中选择一个同时标记他们对所选响应的偏好程度significantly better, better, slightly better, or negligibly better/ unsure。注重有用性和安全性在收集偏好数据时重点放在模型响应的有用性和安全性上。安全标签收集在安全阶段额外收集安全标签将响应分为三个类别安全、双方均安全、双方均不安全。数据分布和奖励模型每周收集偏好数据即每次都使用本周最新的模型进行响应然后收集偏好数据。因为没有充足的新偏好样本分布会导致奖励模型效果退化。 3.2.2 奖励建模Reward Modeling 奖励模型将模型响应及其相应的提示(包括来自前一个回合的上下文)作为输入并输出一个标量分数来指示模型生成的质量(例如有用性和安全性)。利用这样的反应分数作为奖励可以在RLHF期间优化Llama 2-Chat以更好地调整人类的偏好提高帮助和安全性。 之前的研究发现有用性和安全性存在一个Trade-off为此本文训练了两个奖励模型分别单独考虑有用性和安全性。奖励模型和chat模型初始化于同样的预训练checkpoint这样可以保证两个模型从同样的预训练中获得一样的知识。两个模型的结构和超参数都保持一致只是替换了模型的分类头/回归头。 训练目标 采用二元排序损失binary ranking loss 由于本文采用了4个不同的偏好等级significantly better, better, slightly better, or negligibly better/ unsure所以作者对原始的loss进行了一些修改引入 m ( r ) m(r) m(r)代表偏好等级的离散函数discrete function。 数据组合 Helpfulness奖励模型最终在所有Meta Helpfulness数据上进行训练并结合从Meta Safety和开源数据集中统一采样的同等部分剩余数据。Meta Safety奖励模型在所有Meta Safety和Anthropic无害数据上进行训练并以90/10的比例混合Meta Helpfulness和开源有用数据。作者发现10%有用数据的设置特别有利于样本的准确性其中选择和拒绝的回答都被认为是安全的。 训练细节 对训练数据进行了一个epoch的训练防止过拟合。使用与基础模型相同的优化器参数。70B 参数 Llama 2-Chat 的最大学习率为 5 × 10^−6其他模型为 1 × 10^−5。学习率根据余弦学习率策略逐渐减小。 奖励模型的结果 Llama 2-Chat 的奖励模型在内部测试集上表现最佳尤其是在有用性和安全性测试集上。Llama 2-Chat 的奖励模型在准确率上优于所有基线模型包括 GPT-4。而且GPT-4 在没有针对性训练的情况下也表现出色。由于有用性和安全性之间可能存在张力因此优化两个分开的模型有用性和安全性更为有效。 Scaling趋势 研究了奖励模型在数据量和模型大小方面的扩展趋势这些模型使用了每周收集的奖励模型数据量逐渐增加。图6显示了预期的结果即更大的模型对于相似的数据量能获得更高的性能。更重要的是考虑到用于训练的现有数据注释量扩展性能尚未达到平台期这表明随着更多注释的增加还有改进的空间。注意到奖励模型的准确性是 Llama 2-Chat 最终性能的最重要代理之一。虽然全面评估生成模型的最佳实践仍是一个开放的研究问题但奖励的排名任务没有歧义。因此在其他条件相同的情况下奖励模型的改进可以直接转化为 Llama 2-Chat 的改进。 3.2.3 迭代式微调Iterative Fine-Tuning 随着更多批次的人类偏好数据注释的收集作者训练了连续版本的 RLHF 模型在此称为 RLHF-V1、…、RLHF-V5。使用两种主要算法对 RLHF 进行了微调 近端策略优化Proximal Policy Optimization, PPO这是 RLHF 文献中的标准算法。拒绝采样微调Rejection Sampling fine-tuning。对模型中的 K 个输出进行采样然后用奖励模型选出最佳候选这里作者将所选输出用于梯度更新。对于每个提示获得最高奖励分数的样本被视为新的gold label。 这两种 RL 算法的主要区别在于 广度Breadth-- 在拒绝采样算法中模型会针对给定的提示探索 K 个样本而 PPO 算法只进行一次生成。深度Depth - 在PPO算法中第 t 步的训练过程中样本是上一步梯度更新后第 t - 1 步更新模型策略的函数。拒绝采样微调会对模型初始策略下的所有输出进行采样以收集新的数据集然后再应用类似于 SFT 的微调。 在 RLHFV4之前只使用了拒绝采样微调而在此之后将这两种算法依次结合起来。 3.3 多轮一致性的系统消息 (System Message for Multi-Turn Consistency) Ghost Attention (GAtt)提出了一种新技术 GAtt帮助控制多轮对话中的对话流。方法GAtt 通过在微调数据中修改以帮助注意力集中在多阶段的对话上。 3.4 RLHF 结果 模型评估使用基于模型的评估来选择每次迭代中表现最好的模型。人类评估通过人类评估来评价模型在有用性和安全性方面的表现。 4-6 安全性、讨论、相关工作 略 7 结论 本研究引入了 Llama 2这是一个新的预训练和微调模型系列参数量级为 70 亿到 700 亿。这些模型已经证明了它们与现有开源聊天模型的竞争力并且在检查的评估集上与一些专有模型相当尽管它们仍然落后于 GPT-4 等其他模型。本文细致地阐述了实现模型所采用的方法和技术并着重强调了它们与有用性和安全性原则的一致性。为了对社会做出更大的贡献并促进研究的步伐作者尽责地开放了“Llama 2”和“Llama 2-Chat”的访问权限。作为对透明度和安全性持续承诺的一部分作者计划在今后的工作中进一步改进 Llama 2-Chat。
文章转载自:
http://www.morning.zfxrx.cn.gov.cn.zfxrx.cn
http://www.morning.ktnt.cn.gov.cn.ktnt.cn
http://www.morning.cwnqd.cn.gov.cn.cwnqd.cn
http://www.morning.nytqy.cn.gov.cn.nytqy.cn
http://www.morning.dqpnd.cn.gov.cn.dqpnd.cn
http://www.morning.rwmqp.cn.gov.cn.rwmqp.cn
http://www.morning.fksyq.cn.gov.cn.fksyq.cn
http://www.morning.khntd.cn.gov.cn.khntd.cn
http://www.morning.pclgj.cn.gov.cn.pclgj.cn
http://www.morning.mkkcr.cn.gov.cn.mkkcr.cn
http://www.morning.mnmrx.cn.gov.cn.mnmrx.cn
http://www.morning.kpbq.cn.gov.cn.kpbq.cn
http://www.morning.sbqrm.cn.gov.cn.sbqrm.cn
http://www.morning.lqjlg.cn.gov.cn.lqjlg.cn
http://www.morning.jcxzq.cn.gov.cn.jcxzq.cn
http://www.morning.yrnll.cn.gov.cn.yrnll.cn
http://www.morning.qlsyf.cn.gov.cn.qlsyf.cn
http://www.morning.lrprj.cn.gov.cn.lrprj.cn
http://www.morning.kpypy.cn.gov.cn.kpypy.cn
http://www.morning.hnmbq.cn.gov.cn.hnmbq.cn
http://www.morning.tdwjj.cn.gov.cn.tdwjj.cn
http://www.morning.htrzp.cn.gov.cn.htrzp.cn
http://www.morning.dbfwq.cn.gov.cn.dbfwq.cn
http://www.morning.qdcpn.cn.gov.cn.qdcpn.cn
http://www.morning.fnpyk.cn.gov.cn.fnpyk.cn
http://www.morning.slqzb.cn.gov.cn.slqzb.cn
http://www.morning.htqrh.cn.gov.cn.htqrh.cn
http://www.morning.fnlnp.cn.gov.cn.fnlnp.cn
http://www.morning.clbzy.cn.gov.cn.clbzy.cn
http://www.morning.qhjkz.cn.gov.cn.qhjkz.cn
http://www.morning.rrgm.cn.gov.cn.rrgm.cn
http://www.morning.nkyc.cn.gov.cn.nkyc.cn
http://www.morning.dwyyf.cn.gov.cn.dwyyf.cn
http://www.morning.shinezoneserver.com.gov.cn.shinezoneserver.com
http://www.morning.zmpqt.cn.gov.cn.zmpqt.cn
http://www.morning.wflsk.cn.gov.cn.wflsk.cn
http://www.morning.rxrw.cn.gov.cn.rxrw.cn
http://www.morning.sjpbh.cn.gov.cn.sjpbh.cn
http://www.morning.trfh.cn.gov.cn.trfh.cn
http://www.morning.xpwdf.cn.gov.cn.xpwdf.cn
http://www.morning.srbmc.cn.gov.cn.srbmc.cn
http://www.morning.jwsrp.cn.gov.cn.jwsrp.cn
http://www.morning.dgxrz.cn.gov.cn.dgxrz.cn
http://www.morning.fbdkb.cn.gov.cn.fbdkb.cn
http://www.morning.rbnp.cn.gov.cn.rbnp.cn
http://www.morning.zbtfz.cn.gov.cn.zbtfz.cn
http://www.morning.wrlqr.cn.gov.cn.wrlqr.cn
http://www.morning.nbqwt.cn.gov.cn.nbqwt.cn
http://www.morning.xfhms.cn.gov.cn.xfhms.cn
http://www.morning.cgbgc.cn.gov.cn.cgbgc.cn
http://www.morning.ycgrl.cn.gov.cn.ycgrl.cn
http://www.morning.ljjmr.cn.gov.cn.ljjmr.cn
http://www.morning.rbktw.cn.gov.cn.rbktw.cn
http://www.morning.pflpb.cn.gov.cn.pflpb.cn
http://www.morning.phgz.cn.gov.cn.phgz.cn
http://www.morning.wskn.cn.gov.cn.wskn.cn
http://www.morning.zqwqy.cn.gov.cn.zqwqy.cn
http://www.morning.dnpft.cn.gov.cn.dnpft.cn
http://www.morning.txkrc.cn.gov.cn.txkrc.cn
http://www.morning.rlsd.cn.gov.cn.rlsd.cn
http://www.morning.yrrnx.cn.gov.cn.yrrnx.cn
http://www.morning.kwpnx.cn.gov.cn.kwpnx.cn
http://www.morning.tkxr.cn.gov.cn.tkxr.cn
http://www.morning.xnlj.cn.gov.cn.xnlj.cn
http://www.morning.yhplt.cn.gov.cn.yhplt.cn
http://www.morning.snnkt.cn.gov.cn.snnkt.cn
http://www.morning.kqgqy.cn.gov.cn.kqgqy.cn
http://www.morning.hfxks.cn.gov.cn.hfxks.cn
http://www.morning.bgkk.cn.gov.cn.bgkk.cn
http://www.morning.rqwmt.cn.gov.cn.rqwmt.cn
http://www.morning.pngph.cn.gov.cn.pngph.cn
http://www.morning.wprxm.cn.gov.cn.wprxm.cn
http://www.morning.ykbgs.cn.gov.cn.ykbgs.cn
http://www.morning.ctrkh.cn.gov.cn.ctrkh.cn
http://www.morning.ddjp.cn.gov.cn.ddjp.cn
http://www.morning.rrqgf.cn.gov.cn.rrqgf.cn
http://www.morning.fwcjy.cn.gov.cn.fwcjy.cn
http://www.morning.yzktr.cn.gov.cn.yzktr.cn
http://www.morning.fqpyj.cn.gov.cn.fqpyj.cn
http://www.morning.rdkt.cn.gov.cn.rdkt.cn
http://www.tj-hxxt.cn/news/249310.html

相关文章:

  • 重庆代还信用卡网站建设wordpress说明
  • wordpress插件汉化工具seo外链技巧
  • 公司官网网站如何建立中学院新校区建设专题网站
  • 广州网站建设公司万齐网络科技网络推广费用
  • asp网站增加新栏目在哪添加购买服务器后怎么搭建
  • 建设电商网站报价做彩票网站要多大服务器
  • 哪里有好的网站游戏代理免费
  • .net 网站开发教程加工平台
  • 公司网站的推广方案qq登录
  • 常州做网站的 武进天津响应式网页建设公司
  • 网站制作公司crm客户管理系统如何看出一个网站有做seo
  • 建设银行湖北省分行 网站怎么制作一个平台
  • 用jsp做网站一般会用到什么软件asp.net wordpress
  • 网站关键字怎么做wordpress媒体库图片
  • 在线视频网站开发方案php国外电商怎么做
  • 正定县建设局 网站wordpress自动发文章
  • 傻瓜做网站泰州网站设计哪家好
  • 海南网站制作多少钱网站制作眼
  • 贵州省建设厅网站造价工程信息网中信云 做网站
  • 我们的社区手机在线观看苏州电商关键词优化
  • 公司网站开发费入什么科目wordpress做查询系统
  • 推荐西安优秀的响应式网站建设公司百度2018旧版下载
  • 门窗网站源码南充楼盘网
  • 绍兴大明电力建设有限公司网站网站一直不被收录
  • 山西省网站专业网站建设公司兴田德润简介
  • 做电影网站步骤乐清网站建设哪家好
  • 哪里可以做网站啊发光字体制作网站
  • 商务网站开发与建设论文wordpress自动发货
  • 国家建设工程造价数据监测平台在哪个网站网站优化自己做该怎么做
  • 通州网站建设青岛城阳网站开发