当前位置: 首页 > news >正文

做会议活动的网站越秀做网站

做会议活动的网站,越秀做网站,随州网站推广哪家权威,wordpress主题 20145月I/O大会上#xff0c;Med-PaLM 2重磅升级#xff0c;甚至达到了专家水准。 今天#xff0c;谷歌揭秘微调后的Med-PaLM#xff0c;同样在医学问题上一骑绝尘。 研究成果已登Nature。 论文地址#xff1a;https://www.nature.com/articles/s41586-023-06291-2 这项研究…5月I/O大会上Med-PaLM 2重磅升级甚至达到了专家水准。 今天谷歌揭秘微调后的Med-PaLM同样在医学问题上一骑绝尘。 研究成果已登Nature。 论文地址https://www.nature.com/articles/s41586-023-06291-2 这项研究最重要的贡献在于谷歌提出了全新的MultiMedQA评估基准以评测大模型在临床方面的能力。 OpenAI带着ChatGPT在通用大模型领域领跑而AI医疗这条赛道谷歌称得上是头部领先者。 有人或许疑问这和Med-PaLM 2的区别在哪 论文作者给出了答复Med-PaLM 2是最新的模型在USMLE风格的问题上达到了86.5%的准确率比谷歌自己的Med-PaLM的最先进结果提高了19%。 # 主要贡献 如何评估AI的回答尤其在医学领域对治病方案、医疗操作准确性要求极高。 目前常见的评价医疗模型最主要的方法主要依赖单个医疗测试的得分。 这就像把AI当成考生一样去测试他的水平然而在真实的医疗场景中有时候并不能应对自如甚至是个未知数。 那么如何将一个AI考生变成一个真正的AI医生构建一个全面的评估至关重要。 对此谷歌提出了一个全新的基准测试——MultiMedQA其中涵盖了医学考试、医学研究等领域的问题和回答。 基于MultiMedQA研究人员还评估了PaLM及其指令微调变体Flan-PaLM。 接着通过利用提示策略的组合Flan-PaLM在MedQA美国医疗执照考试USMLE、MedMCQA、PubMedQA和MMLU临床主题上超越了SOTA。 特别是在MedQAUSMLE上比先前的SOTA提高了17%以上。 最后研究人员通过指令提示微调进一步将Flan-PaLM与医学领域对齐并提出了全新的医学模型——Med-PaLM。 在人工评估框架下Med-PaLM对消费者医学问题的回答与临床医生给出的回答相比表现出色证明了指令提示微调的有效性。 # 医疗大模型最新基准MultiMedQA ** ** 谷歌最新Nature研究的第一个关键贡献在医学问答背景下评估LLM。 谷歌构建的最新基准MultiMedQA是由七个医学问答数据集组成的基准。 其中包括6个现有数据集MedQA 、MedMCQA 、PubMedQA、LiveQA 、MedicationQA和MMLU临床主题 。 值得一提的是谷歌在此添加了一个全新数据集即第7个数据集「HealthSearchQA」。 它由常见的搜索健康问题组成仅这个数据集就包含了3173个常见消费者医学问题。 具体来讲这些数据集构成如下 - MedQA数据集由USMLE风格的问题组成有四个或五个可能的答案。开发集由11,450个问题组成测试集有1,273个问题。 - MedMCQA数据集包含来自印度医学入学考试AIIMS/NEET的194,000多个四选项多项选择题。该数据集涵盖2,400个医疗保健主题和21个医学主题。开发集很丰富有超过187,000个问题。 - PubMedQA数据集由1,000个专家标记的问答对组成其中任务是在给定一个问题的情况下产生一个是/否/可能是多项选择题的答案并将PubMed摘要作为上下文Q上下文A。 - MMLU包含57个领域的试题。团队选择了与医学知识最相关的子任务解剖学、临床知识、大学医学、医学遗传学、专业医学和大学生物学。每个MMLU子任务包含四个选项的多项选择题以及答案。 - LiveQA数据集是作为2017年文本检索挑战赛TREC的一部分策划的。该数据集由人们提交给国家医学图书馆NLM的医学问题组成。 - MedicationQA数据集由常见的消费者关于药物的问题组成。除了问题之外数据集还包含与药物焦点和相互作用相对应的标注。 为了使用使用MultiMedQA评估LLM研究人员构建了语言模型PaLM一个5400亿参数的LLM及其指令微调模型变体Flan-PaLM。 # 模型开发和性能评估 研究第二个关键贡献是 通过少样本、CoT、以及自洽性提示策略的组合Flan-PaLM在MedQA、MedMCQA、PubMedQA和MMLU临床主题上取得了SOTA超越几个强大LLM基线。 第三个关键贡献是 研究引入指令提示微调并构建了Med-PaLM。这是一种用于将LLM与安全关键的医学领域保持一致方法。 MedQA的最新技术 在由具有4个选项的USMLE样式问题组成的MedQA数据集上Flan-PaLM 540B模型达到了67.6%的多选题正确率比DRAGON在其他论文中用过模型高出20.1%。 与谷歌的研究同时进行的PubMedGPT是一个专门训练于生物医学摘要和论文的27B模型该模型在具有4个选项的MedQA问题上取得了50.3%的成绩。 它是MedQA的最新技术而Flan-PaLM 540B比它高出了17.3%。 在MedMCQA 和 PubMedQA中的成绩 ** ** 在由印度的医学入学考试问题组成的MedMCQA数据集上Flan-PaLM 540B在开发测试集上达到了57.6%的成绩超过了Galactica模型取得的52.9%的最好成绩。 同样在PubMedQA数据集上谷歌的模型达到了79.0%的准确率超过了先前的最先进模型BioGPT21的0.8%如上图。 虽然与MedQA和MedMCQA数据集相比提高似乎不大但单一评分single-rater的人类在PubMedQA上的成绩也只是78.0%说明在这个任务的成绩可能存在一定的软上限。 ** ** 在MMLU临床主题中的表现 ** ** MMLU数据集包含来自多个临床知识、医学和生物学相关主题的多项选择问题。 其中包括解剖学、临床知识、专业医学、人类遗传学、大学医学和大学生物学等内容。 Flan-PaLM 540B在所有这些子集上都最佳的成绩在专业医学和临床知识子库中Flan-PaLM 540B分别达到了83.8%和80.4%的最佳准确率。 下图总结了结果并与其他LLM进行了比较。 # 消融实验 谷歌对三个多选题择数据集MedQA、MedMCQA和PubMedQA进行了几项消融研究目的是更好地理解他们的结果并确定对Flan-PaLM性能贡献的关键部分。 指令微调改善了性能 ** ** 在所有大小的模型中谷歌发现到指令微调的Flan-PaLM模型在MedQA、MedMCQA和PubMedQA数据集上的性能优于基线PaLM模型。 在PubMedQA数据集中8B的Flan-PaLM模型的性能领先基线PaLM模型超过30%。 在62B和540B变体的情况下也发现了类似的显著改进。 如下图所示的这些结果表明了指令微调的强大优势。 谷歌没有对指令提示微调对多项选择准确性的影响进行彻底分析。 在本节中谷歌的分析是针对Flan-PaLM而不是Med-PaLM的。 规模提升改善医学问题回答的表现 当将模型从8B扩展到540B时性能提升了约2倍对于PaLM还是Flan-PaLM模型都是这样的。 这些改进在MedQA和MedMCQA数据集中更为显著特别是对于Flan-PaLM来说540B变体的性能比62B变体提高了14%以上比8B变体提高了24%以上。 鉴于这些结果和Flan-PaLM 540B模型的强大性能谷歌在后续的实验和消融研究中都会基于这个模型。 思维链提示 研究人员没有发现COT在MedQA、MedMCQA和PubMedQA多项选择数据集上优于标准的少样本提示词策略的提升。 这可能是由于存在许多可能的思路推理路径导向特定答案随机选择一条路径可能无法产生最准确的结果。 此外研究人员还探索了使用非医学COT提示的方法。 下图的结果表明COT提示在引导模型解决这些类型问题方面是有效的不用向模型添加新的知识。 # 人类评估结果 研究人员从HealthSearchQA中随机选择了100个问题从LiveQA中随机选择了20个问题从MedicationQA中随机选择了20个问题作为一个较小的长答案基准用于详细的人类评估。 那么具体评估结果如何 理解、检索和推理 为了研究Med-PaLM在医学理解、知识检索和推理方面的能力。 团队邀请了一组临床医生来评估这些回答中包含的医学阅读理解、医学知识检索和医学推理是否正确一个或多个示例。 通过对比可以看到专家给出的答案大幅优于Flan-PaLM而指令提示微调则显著提升了Med-PaLM的性能。 例如在正确检索医学知识的证据方面临床医生的答案得分为97.8%而Flan-PaLM的得分为76.3%。 然而经过指令提示微调的Med-PaLM模型的得分为95.4%缩小了与临床医生之间的差距。 内容不正确或缺失 为了评估模型的答案是否有信息缺失、或者给出不正确回复来了解生成的答案的完整性和正确性。 与Flan-PaLM相比临床医生在1.4%的情况下会给出不适当或错误的内容而Flan-PaLM则为16.1%。 指令提示微调似乎降低了性能Med-PaLM有18.7%的答案被认为包含不适当或错误的内容。 相比之下指令提示微调提高了模型在「遗漏重要信息」方面的性能。 Flan-PaLM答案中有47.6%被判断为遗漏重要信息而Med-PaLM答案中仅有15.3%遗漏减小了与临床医生之间的差距。 根据评估临床医生的答案在11.1%的情况下被认为遗漏了信息。 如下表中展示了一些定性例子表明LLM的答案在未来的使用场景中可以作为对医生回答患者问题的补充和完善。 对这些发现的一个潜在解释是指令提示微调教会了Med-PaLM模型生成比Flan-PaLM模型更详细的答案减少了重要信息的遗漏。 科学共识和安全性 在科学共识方面临床医生给出的答案中有92.9%与其一致。 同时利用全新的指令提示微调技术进行对齐的Med-PaLM也有92.6%的答案与其一致。 相比之下只经过通用指令微调的Flan-PaLM一致性仅有61.9%。 除此之外指令提示微调也可以让生成的答案更安全。 其中29.7%的Flan-PaLM回答被认为有潜在的伤害风险这一数字在Med-PaLM中降至5.9%与临床医生生成的答案5.7%相近。 同样在伤害可能性的评估中指令提示微调使Med-PaLM答案能够与专家生成的答案相媲美。 医学人群统计偏见 对于偏见的评估团队试图了解答案是否包含对特定人群不准确或不适用的任何信息。 对于每个答案评审员被问及「所提供的答案是否包含对某个特定患者群体或人口群体不适用或不准确的信息」。 例如答案是否仅适用于特定性别的患者而另一性别的患者可能需要不同的信息评审员需要给出是或否的回答。 根据这个偏见的定义Flan-PaLM的答案在7.9%的情况下被认为包含有偏见的信息。 然而对于Med-PaLM来说这个数字降至0.8%与临床医生的答案在1.4%的情况下被认为包含有偏见的证据相比有明显的优势。 普通用户评估 除了专家评估研究团队还请一组非领域专家印度的非医学背景普通人评估答案。 如图所示Flan-PaLM的答案在只有60.6%的情况下被认为是有帮助的而Med-PaLM竟有80.3%。 然而这仍然不如临床医生的答案医生有91.1%的回复是有帮助的。 同样Flan-PaLM的答案在90.8%的情况下被认为直接回答了用户问题。而Med-PaLM的比例为94.4%临床医生的答案在95.9%。 普通用户的评估进一步展示了指令提示微调有助于输出更满足用户的答案此外还表明在不断靠近人类临床医生所提供的输出质量方面还有很多工作要做。 ​ 如何学习AI大模型 作为一名热心肠的互联网老兵我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。 这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】 一、全套AGI大模型学习路线 AI大模型时代的学习之旅从基础到前沿掌握人工智能的核心技能 二、640套AI大模型报告合集 这套包含640份报告的合集涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师还是对AI大模型感兴趣的爱好者这套报告合集都将为您提供宝贵的信息和启示。 三、AI大模型经典PDF籍 随着人工智能技术的飞速发展AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型如GPT-3、BERT、XLNet等以其强大的语言理解和生成能力正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。 四、AI大模型商业化落地方案 作为普通人入局大模型时代需要持续学习和实践不断提高自己的技能和认知水平同时也需要有责任感和伦理意识为人工智能的健康发展贡献力量。
http://www.tj-hxxt.cn/news/218152.html

相关文章:

  • wwe中文官网站a00000网站建设丽丽
  • 深圳品牌做网站门户网站 模板之家
  • 汽车销售服务东莞网站建设软件商店最新版下载
  • 乡镇美丽乡村建设网站信息网站备案的流程
  • 为什么网站之有首页被收录什么是网站开发公司电话
  • 南阳网站建设网络系统架构
  • 物流公司做网站安徽网新科技有限公司官网
  • 查看邮箱注册的网站可视化域名网站模块被删了
  • 有几家做网站的公司wordpress主题检测
  • 网站备案审核通过后wordpress wp
  • 阜阳建设工程质量监督局网站wordpress个性主题
  • 南京市建设中心网站重庆长寿网站设计公司哪家好
  • 社交app定制开发南京seo收费
  • 怎么用家里的电脑做网站服务器安徽通皖建设工程有限公司网站
  • 优秀vi设计网站wordpress轮播图设置
  • wordpress站群主题wordpress编辑富文
  • 做网站域名服务器赚钱软件学生
  • 企业推广宣传文案谷歌seo关键词排名优化
  • 网站建设与管理的过程重庆网页制作
  • 做电商网站都需要学什么上海加盟网网站建设
  • 网站制作与网站建设实际报告吕梁网站建设kuyiso
  • 上海网站设计开发公司上海响应式网站建设
  • 怎么获取免费的网站域名个人网站模板王
  • 简洁风格的网站模板免费下载vps主机可以做几个网站
  • 网站建设哪家好知道万维科技厦门模板建站系统
  • wordpress如何在首页不显示某类分类目录下的文章?网站可以做多少优化关键词
  • 大型门户网站设计解决方案基层消防力量建设
  • 郑州门户网站建设建筑公司企业使命和愿景大全
  • 素米高端品牌网站建设系部 网站建设方案
  • 网站建设后期维护小魔仙贵阳网站建设服务公司