当前位置: 首页 > news >正文

网站开发人员的职责是什么网站建设市场推广招聘

网站开发人员的职责是什么,网站建设市场推广招聘,二维码生成器下载,如何自己安装wordpressRAFT#xff08;检索增强的微调#xff09;代表了一种全新的训练大语言模型#xff08;LLMs#xff09;以提升其在检索增强生成#xff08;RAG#xff09;任务上表现的方法。“检索增强的微调”技术融合了检索增强生成和微调的优点#xff0c;目标是更好地适应各个特定领…RAFT检索增强的微调代表了一种全新的训练大语言模型LLMs以提升其在检索增强生成RAG任务上表现的方法。“检索增强的微调”技术融合了检索增强生成和微调的优点目标是更好地适应各个特定领域。该技术由微软的主要AI倡导者 Cedric Vidal 和 Meta 的 AI 倡导者 Suraj Subramanian 共同提出。 一、前言 生成式 AI 对企业最具影响力的应用之一是创建能够访问已有知识库的自然语言接口换句话说它能够针对银行、法律和医学等特定领域提供问题解答。目前主要有两种方法可以实现这一点 特定领域微调 (DSF)在代表特定领域知识的文档集上训练现有的基础模型。 检索增强生成 (RAG)将文档存储在矢量数据库中并在查询时根据与问题的语义相似性检索相关文档并将其纳入大型语言模型的上下文进行情境学习。 本文将探讨这两种方法的局限性并介绍加州大学伯克利分校研究人员 Tianjun Zhang 和 Shishir G. Patil 提出的 RAFT 方法如何克服这些局限性。该团队以 Gorilla 大型语言模型而闻名他们在 RAFT 论文中介绍了这种新方法并展示了如何使用 Meta Llama 2 和 Azure AI Studio 进行研究和实施。 伯克利团队还发表了一篇博客文章解释了 RAFT 方法的优缺点以及如何产生更有效的结果。RAFT 论文的代码实现可在他们的 Github 代码库中找到。 接下来我们将介绍 RAFT 方法的工作原理。 二、理解 RAFT 方法 RAFT 是一种将预训练的大型语言模型微调到特定领域 RAG 设置的通用方法。在特定领域 RAG 中模型需要根据特定领域的一组文档回答问题例如企业中的私有文件。这与通用 RAG 不同因为通用 RAG 中的模型并不知道它将在哪个领域进行测试。 为了更好地理解特定领域 RAG我们可以将其与考试类比。 闭卷考试类比于大型语言模型无法访问任何外部信息来回答问题的情况例如聊天机器人。在这种情况下模型只能依靠预训练和微调期间学习到的知识来响应用户的提示。 开卷考试类比于大型语言模型可以参考外部信息来源例如网站或书籍的情况。在这种情况下模型通常会与检索器配对检索器会检索相关文档并将其附加到用户的提示中。模型只能通过这些检索到的文档获取新知识。因此模型在开卷考试设置中的性能很大程度上取决于检索器的质量以及检索器识别相关信息的能力。 传统的 RAG 在收到查询时会从索引中检索一些可能包含答案的文档并将其作为上下文来生成答案。这就像学生参加开卷考试可以翻阅教科书寻找答案。相比之下微调就像闭卷考试学生只能依靠记忆来回答问题。显然开卷考试更容易这也解释了 RAG 的有效性和流行性。 然而这两种方法都存在局限。微调的模型只能依赖于它所训练的知识有时可能会出现近似或幻想的问题。RAG 虽然基于文档但检索到的文档可能只是与查询语义接近并不一定包含正确答案。这些干扰性文档可能会误导模型导致生成错误的答案。 为了克服 RAG 的这些缺陷Tianjun 和 Shishir 提出了一种新的方法RAFT。他们认为如果学生在开卷考试前预先学习教科书就能取得更好的成绩。同样如果大型语言模型能够事先“学习”文档就能提高 RAG 的性能。他们提出的检索增强型微调Retrieval-Augmented Fine Tuning方法就是试图让模型在使用 RAG 之前先对特定领域进行学习和适应。 RAFT 专注于一种比通用开卷考试更窄但越来越受欢迎的领域称为特定领域开卷考试。在这种情况下我们事先知道模型将要测试的领域例如企业文档、最新新闻或代码库等。模型可以使用它所微调的特定领域中的所有信息来回答问题。 RAFT 使用 Meta Llama 2 7B 语言模型首先准备一个合成数据集其中每个样本包含 一个问题 一组参考文档包括相关文档和干扰性文档 从文档中生成的答案 使用思维链解释包含来自相关文档的摘录由如 GPT-4 或 Llama 2 70B 这样的通用大语言模型生成 该数据集用于微调 Llama 2 7B 模型使其更好地适应特定领域并学会从检索到的上下文中提取有用的信息。思维链解释可以防止过拟合提高训练的鲁棒性。 RAFT 介于 RAG 和特定领域微调之间它既能使大型语言模型学习领域知识和风格又能提高答案生成的质量。对于像 Llama 2 这样在多个领域训练的预训练模型RAFT 可以使其更适合医疗保健或法律等专业领域。 三、RAFT 模型评估 为了评估 RAFT 模型的性能伯克利团队使用了来自不同领域的数据集包括维基百科、编码/API 文档和医学问答 自然问题 (NQ)、Trivia QA 和 Hotpot QA基于维基百科的开放域问题主要集中在常识。 HuggingFace、Torch Hub 和 TensorFlow Hub来自 Gorilla 论文中提出的 APIBench主要关注如何根据文档生成正确的 API 调用。 PubMed QA专门针对生物医学研究问答的数据集主要侧重于根据给定文档回答医学和生物学问题。 研究人员还比较了以下基线模型 使用零样本提示的 LlaMA2-7B-chat 模型这是问答任务中常用的指令微调模型提供清晰的指令但不提供参考文档。 使用 RAG 的 LlaMA2-7B-chat 模型 (Llama2 RAG)与前者类似但添加了参考上下文是处理特定领域问答任务时最常用的组合。 使用零样本提示的特定领域微调 (DSF)在没有参考文档的情况下进行标准指令微调。 使用 RAG 的特定领域微调 (DSF RAG)为特定领域微调模型配备外部知识使其能够参考上下文来回答未知问题。 下表展示了 RAFT 在医学 (PubMed)、常识 (HotPotQA) 和 API (Gorilla) 基准测试上的结果。 四、Azure AI Studio 微调 伯克利团队使用 Azure AI Studio 中的模型即服务 (MaaS) 对 Meta Llama 2 进行了微调用于他们的 RAFT 论文。微软学习平台也提供了相关教程解释如何在 Azure AI Studio 中微调 Llama 2 模型。 过去微调通常需要机器学习工程师具备丰富的专业知识包括生成式 AI、Python、机器学习框架、GPU 和云基础设施等。Azure AI Studio 的出现改变了这一现状它自动化了所有技术细节和基础设施设置让用户可以专注于数据准备。 以下是训练 RAFT 模型的简短教程包括数据集准备、模型微调和模型部署。 4.1、数据集准备 我们提供一个示例来准备 RAFT 的数据集。数据集包含问题、上下文和答案。上下文是一组文档答案是使用思维链风格从其中一个文档生成的并借助 GPT-4 进行辅助。 Question: The Oberoi family is part of a hotel company that has a head office in what city?context: [The Oberoi family is an Indian family that is famous for its involvement in hotels, namely through The Oberoi Group]...[It is located in city center of Jakarta, near Mega Kuningan, adjacent to the sister JW Marriott Hotel. It is operated by The Ritz-Carlton Hotel Company. The complex has two towers that comprises a hotel and the Airlangga Apartment respectively]...[The Oberoi Group is a hotel company with its head office in Delhi.]CoT Answer: ##Reason: The document ##begin_quote## The Oberoi family is an Indian family that is famous for its involvement in hotels, namely through The Oberoi Group. ##end_quote## establishes that the Oberoi family is involved in the Oberoi group, and the document ##begin_quote## The Oberoi Group is a hotel company with its head office in Delhi. ##end_quote## establishes the head office of The Oberoi Group. Therefore, the Oberoi family is part of a hotel company whose head office is in Delhi. ##Answer: Delhi 4.2、模型微调 我们将训练模型根据问题和提供的上下文输出思维链答案。基础模型 Llama2-7B 适用于 RAG 任务因为它具备推理、理解语言、低延迟推理和易于适应不同环境的能力。用户只需打开 AI Studio 的微调向导 选择要微调的模型 选择上传数据选项并上传您的训练数据集它必须是 JSONL 格式 并指定提示和完成所在的列 最后设置批量大小乘数、学习率和训练轮数即可。 对于这些参数Tianjun 和 Shishir 建议 对于微调使用乘数 1学习率 0.00002 和训练轮数 1。 4.3、模型部署 训练模型后您可以将其部署在您自己的 GPU 或 CPU 上也可以将其部署在微软 AI Studio 上。 AI Studio 极大地降低了大型语言模型微调的门槛让开发人员和企业可以更轻松地调整模型以适应特定领域的任务。这将推动定制模型在不同企业中的应用促进生成式 AI 和大型语言模型的普及。 五、RAFT 团队答疑 Cedric 和 Suraj 就 RAFT 的相关问题采访了 Tianjun 和 Shishir。 问为什么选择 Llama 2 7B 答因为我们专注于 RAG 任务这类任务需要模型具备推理、理解语言、低延迟推理和易于适应不同环境的能力。Llama 2 7B 恰好满足这些要求它是许多常识性问答任务的良好基础模型具有优秀的数学能力并且能够解析较长的文档。同时它也适合在 4 个 A100-40G GPU 上训练并在单个 GPU 上部署。综合考虑性能、易部署性和许可证等因素Llama 2 模型非常适合 RAFT 任务。我们也希望借助微软 AI Studio 探索 Llama 2 13b 或 70b 的潜力。 问对于尝试微调 Llama 的人您有什么建议 答微调 Llama 是一项复杂的任务涉及数据收集、数据清理和实际微调。我们建议收集与目标领域相关的多样化问题并构建思维链答案。存储中间检查点可以帮助提前停止训练。此外微调的学习率应该比预训练的学习率低至少一个数量级。其他最佳实践包括使用 16 位精度、训练不超过 3 个 epoch以及使用大批量大小。 问微调应该应用于每个领域吗 答微调模型的知识学习依赖于特定领域但其行为在一定程度上可以泛化到其他领域。这涉及到准确性和泛化性之间的权衡。通常针对特定领域进行微调是比较好的做法但如果企业文档集有限针对这些文档进行微调可能会获得更好的性能因为知识范围更集中。 问您对 Azure AI Studio 微调系统有何看法 答Azure AI 微调系统非常用户友好从训练数据上传到超参数选择再到部署训练好的模型一切都非常简单易用。 问AI Studio 微调有什么优势 答最大的优势是用户无需担心 GPU、训练平台和模型部署等问题只需一键操作即可完成而且性能出色 问您认为 AI Studio 微调可以改进什么 答作为研究人员我们希望开发者能够提供更多关于系统内部微调配方的细节例如它是使用低秩近似微调还是全参数微调使用了多少个 GPU以及 LoRA 的超参数设置等等。 问您认为 AI Studio 微调会给行业带来什么变化 答它可以使企业轻松进行大型语言模型的微调和部署极大地促进定制模型在不同企业中的应用。 六、结论 Llama 和 Azure 通过提供易于使用的平台使开发人员和企业能够创建针对特定需求和挑战的创新解决方案推动了特定领域 AI 开发的新范式。这将使更多人受益于生成式 AI 和大型语言模型的最新进展构建更加多样化和包容的 AI 生态系统。注 AI Studio 微调目前在美国西部 3 可用 七、References [1]. Tianjun Zhang, Shishir G. Patil, Naman Jain, Sheng Shen, Matei Zaharia, Ion Stoica, Joseph E. Gonzalez, R. (2024). RAFT: Adapting Language Model to Domain Specific RAG: https://arxiv.org/pdf/2401.08406.pdf [2]. Gorilla LLM https://github.com/ShishirPatil/gorilla [3]. Meta Llama 2 https://llama.meta.com/ [4]. Azure AI Studio https://ai.azure.com/ [5]. RAFT Github Repo: https://github.com/ShishirPatil/gorilla/tree/main/raft [6]. Fine-tune a Llama 2 model in Azure AI Studio: https://learn.microsoft.com/en-us/azure/ai-studio/how-to/fine-tune-model-llama [7]. MS Learn https://learn.microsoft.com/ [8]. RAFT: Adapting Language Model to Domain Specific RAG: https://gorilla.cs.berkeley.edu/blogs/9_raft.html
http://www.tj-hxxt.cn/news/140665.html

相关文章:

  • 家用电脑可以做网站吗类似享设计的网站
  • 金融公司网站 html台州网页设计
  • 智能家居型网站开发网络营销推广的心得体会
  • 网站建设广州网站建设简单的电商网站
  • 在旅行社做网站运营静态网站开发的目的
  • 做app网站的软件有哪些内容吗cent os wordpress
  • 河南城乡住房和建设厅网站开发公司装饰装修合同范本简单
  • 南京做网站南京乐识赞网页美工设计图片
  • node 网站开发wordpress瀏覽器圖標
  • 雄安网站建设推广海南旅游网站开发背景
  • 做一个网站策划上传网站怎么安装
  • 站长工具查询入口大型企业网站源码
  • asp网站的缺点怎样在百度上发表文章
  • node.js企业网站开发旅行社网站制作
  • 网站降权查下设计模板网站都有哪些
  • 网站的模板家谱网站怎么做
  • 服务器建立网站c++线上培训机构哪个好
  • 做注册任务的网站有哪些郑州做网站哪家最好
  • 网站建设注册密码咋弄国际域名注册网站
  • 四川省网站建设网站开发怎样
  • 留言网站怎么做网页设计与制作报告书
  • 怎样找回网站备案密码广东快速做网站公司
  • 合肥网站开发培训学校wordpress弹窗视频播放插件
  • 个人电脑做服务器网站中天建设第四网站
  • 谷歌搜索入口365贵阳哪家网站做优化排名最好
  • 手机什么app做网站湖南禹班建设集团网站
  • 网站的新闻栏与产品栏如何做办公用品网站建设策划书
  • 温室网站建设什么是网站建设策划
  • 深圳建站网站模板河北省住建和城乡建设厅网站
  • 佛山网站建设 骏域网站网站建设备案优化之看