安徽省建设厅网站张天培,wordpress 发卡插件,263邮箱注册,桂林软件开发公司本文是LLM系列的相关文章#xff0c;针对《Shepherd: A Critic for Language Model Generation》的翻译。 Shepherd#xff1a;语言模型生成的评价 摘要1 引言2 数据收集3 Shepherd模型4 评估反馈5 结果6 相关工作7 结论不足 摘要
随着大型语言模型的改进#xff0c;人们对…本文是LLM系列的相关文章针对《Shepherd: A Critic for Language Model Generation》的翻译。 Shepherd语言模型生成的评价 摘要1 引言2 数据收集3 Shepherd模型4 评估反馈5 结果6 相关工作7 结论不足 摘要
随着大型语言模型的改进人们对利用这些模型的能力来完善其自身输出的技术越来越感兴趣。在这项工作中我们介绍了Shepherd这是一个专门针对批评模型响应和建议改进的语言模型它超越了未经编辑的模型的能力可以识别各种错误并提供补救建议。我们方法的核心是一个高质量的反馈数据集我们根据社区反馈和人类注释对其进行策划。尽管Shepherd很小7B参数但它的批评与包括ChatGPT在内的已建立模型的批评是等效的或首选的。使用GPT4进行评估与竞争对手相比Shepherd的平均胜率为53-87%。在人类评估中Shepherd严格优于其他模型平均而言与ChatGPT密切相关。
1 引言
2 数据收集
3 Shepherd模型
4 评估反馈
5 结果
6 相关工作
7 结论
我们引入了一个新的模型来批评大型语言模型的生成。通过在多个数据集和不同的评估设置上进行广泛的实验我们证明了我们的模型可以有效地评判答案达到与ChatGPT相当的性能。随着LLM在越来越多的现实应用中被采用我们认为开发自动机制来检查模型生成是很重要的。我们的批判模型Shepherd可以非常有助于提高生成质量和减少幻觉。
不足
在本文中我们通过自动评估和人的评估来评估模型的批判能力。尽管我们努力尝试大量的数据示例并尽我们最大的财力使用人工注释器但很明显该论文可以从进一步的增强中受益。这可以通过执行更细致的分析来实现该分析使用了更多的注释器和更广泛的各种任务。