学校网站的建设需求,软件开发外包公司哪个好,建筑模板工厂价格尺寸,h5营销欢迎关注【youcans的GPT学习笔记】原创作品#xff0c;火热更新中 微软对 GPT-4 的全面测试报告#xff08;1#xff09; 微软对 GPT-4 的全面测试报告#xff08;2#xff09; 【GPT4】微软对 GPT-4 的全面测试报告#xff08;2#xff09;2. 多模态与跨学科的组合火热更新中 微软对 GPT-4 的全面测试报告1 微软对 GPT-4 的全面测试报告2 【GPT4】微软对 GPT-4 的全面测试报告22. 多模态与跨学科的组合Multimodal and interdisciplinary composition2.1 综合能力Integrative ability2.2 视觉Vision2.2.1 超越记忆的图像生成2.2.2 按照详细说明生成图像 (a la Dall-E风格)2.2.3 草图生成的应用可能将 GPT-4 与现有图像合成模型结合2.3 音乐3. 代码生成Coding4. 数学能力5. 与世界交互6. 与人类交互7. 判别力8. GPT4 的局限性9. 社会影响10. 结论与对未来展望2023 年 3 月24日微软研究院在 arXiv上发布了论文【Sparks of Artificial General Intelligence: Early experiments with GPT-4】公开了对 GPT-4 进行的全面测试。 基本结论如下 **通用人工智能AGI是指拥有推理、计划、解决问题、抽象思维、理解复杂思想、快速学习和从经验中学习的能力。 ****通过严格的测试证明 GPT-4 除了掌握语言之外 无需任何特殊提示就可以解决跨越数学、编程、视觉、医学、法律、心理学等领域的新颖而困难的任务。 **在所有这些任务中GPT-4 的性能惊人地接近甚至超过人类的水平远远超过以前的模型包括 ChatGPT。GPT-4 可以被视为 通用人工智能AGI的早期版本。 本系列介绍该文的主要内容。 2. 多模态与跨学科的组合Multimodal and interdisciplinary composition
衡量智力的一个关键指标是综合来自不同来源或模态的信息的能力以及跨越不同背景或学科应用知识和技能的能力。
在本节中我们将看到GPT-4 不仅在文学、医学、法律、数学、物理科学和编程等不同领域表现出很高水平的熟练程度而且还能够流畅地将来自多个领域的技能和概念结合起来显示出对复杂思想的深刻理解。
除了自然语言实验我们还针对语言模型探索了两种特殊模态视觉和音频。注意我们的实验是在GPT-4 的早期版本上进行的该版本本身并不支持多模态。 注目前讨论的 GPT4 的”多模态“是指多模态输入。本文中的 GPT 测试版本不带多模态输入功能本节所指的”多模态“是以文本方式输入要求 GPT 生成多模态的输出结果例如通过编程绘制图形、生成乐谱。 2.1 综合能力Integrative ability
为了展示 GPT-4 模型优秀的整合能力我们从几个需要结合多学科的知识或技能来生成文本和代码的示例开始。我们故意挑选了训练数据很少涵盖的领域的组合例如文学和数学或编程和艺术。 为了测试模型结合艺术和编程的能力我们要求GPT-4“生成生成画家康定斯基风格随机图像的 JavaScript代码”。参见图2.1和图b - 1中的示例图像和代码。 图2.1中左图是 Composition 8Wassily Kandinsky 的艺术作品中间和右图分别由 GPT-4 和 ChatGPT 制作。prompt 是“写一段 JavaScript 代码随机生成绘画图像看起来像Kandinsky 的风格。“ 该模型能够以莎士比亚的文学风格证明存在无限多个素数(图2.2)。 图2.2中分别是 GPT4 和 ChatGPT 输出的结果。最后我们请 GPT4 进行了点评。 prompt假如你是老师你能比较下上面的两个输出吗? GPT-4我认为两个学生都做得很好用莎士比亚戏剧的风格写了一个质数有无穷多个的证明。他们都使用了相同的证明的基本思想即假设只有有限个素数然后构造一个更大的素数与这个假设相矛盾。他们还使用了适当的语言和词汇以匹配莎士比亚戏剧的风格。 不过我认为GPT-4在押韵和格律的运用上做得更好让对话更有诗意和戏剧性。ChatGPT 完全没有使用押韵韵律也不一致。我还觉得 GPT-4 在创造双方的对比上做得更好一方自信另一方怀疑而 ChatGPT 用的是罗密欧和朱丽叶双方都是一致和相爱的。 因此我会给 GPT-4 打一个比ChatGPT 更高的分数。我会给GPT-4打A给ChatGPT打B。 我们测试了模型结合历史和物理知识的能力要求它写一封信支持电子粒子Electron作为美国总统候选人信是由圣雄甘地Mahatma Gandhi写给他的妻子Kasturba Gandhi的(图2.3)。 图2.3中分别是 GPT4 和 ChatGPT 输出的结果。最后我们请 GPT4 进行了点评。 prompt假如你是老师你能比较下上面的两个输出吗? GPT-4我认为两位学生都做得很好以圣雄甘地Mahatma Gandhi的口吻为美国总统候选人电子Electron写了一封支持信。他们都用了同样的基本思路解释了电子Electron为什么是一个合适且合格的候选人电子Electron的愿景和计划如何与圣雄甘地的非暴力和公民不服从原则相一致。他们还用恰当的语言和语调传达了圣雄甘地对Kasturba Gandhi的尊重和钦佩以及他对电子候选人资格的热情和乐观。 不过我认为 GPT-4 在使用隐喻和意象方面做得更好让这封信更有说服力和吸引力。GPT-4 使用电子Electron如何代表和影响生活的各个方面的例子如能量、创造力、多样性、领导力、催化剂、信使和和平缔造者。ChatGPT 使用了更多事实性和技术性的描述来描述电子的属性如尺寸、重量、稳定性、导电性和适应性。我还认为GPT-4 在概述电子的具体提案和政策方面做得更好而 ChatGPT 则更加模糊和笼统。 因此我会给 GPT-4 打一个比 ChatGPT 更高的分数。我会给 GPT-4 打分 A给 ChatGPT 打分 B。 我们提示模型“为一个程序生成 python 代码该程序将患者的年龄、性别、体重、身高和血液测试结果向量作为输入并表明该人患糖尿病的风险是否增加”代码在图b - 3中。
GPT-4 编写的代码如下。
# Define a function that calculates the body mass index (BMI) from weight and height
def bmi(weight, height):return weight / (height / 100) ** 2# Define a function that checks if the blood test results are abnormal
def abnormal_results(results):# Assume the results vector has four elements: fasting glucose, HbA1c, triglycerides and HDL cholesterol# Define the normal ranges for each test according to the American Diabetes Association criterianormal_glucose (5.6, 7.0) # mmol/Lnormal_hba1c (5.7, 6.4) # %normal_triglycerides (0.45, 1.7) # mmol/Lnormal_hdl (1.0, 1.6) # mmol/L for men, (1.3, 2.2) for women# Check if any of the results are outside the normal rangesabnormal_glucose results[0] normal_glucose[0] or results[0] normal_glucose[1]abnormal_hba1c results[1] normal_hba1c[0] or results[1] normal_hba1c[1]abnormal_triglycerides results[2] normal_triglycerides[0] or results[2] normal_triglycerides[1]if results[3] normal_hdl[0] or (sex male and results[3] normal_hdl[1]) or (sex female and results[3] normal_hdl[3]):abnormal_hdl Trueelse:abnormal_hdl False# Return True if any of the results are abnormal, False otherwisereturn abnormal_glucose or abnormal_hba1c or abnormal_triglycerides or abnormal_hdl# Define a function that indicates if the patient is in increased risk for diabetes
def diabetes_risk(age, sex, weight, height, results):# Calculate the BMI from weight and heightbmi_value bmi(weight, height)# Define the BMI thresholds for overweight and obesity according to the World Health Organization criteriaoverweight 25obesity 30# Check if the patient is overweight or obeseif bmi_value obesity:weight_status obeseelif bmi_value overweight:weight_status overweightelse:weight_status normal# Check if the patient has abnormal blood test resultsabnormal abnormal_results(results)# Define the age threshold for increased risk according to the American Diabetes Association criteriaage_threshold 45# Check if the patient is older than the age thresholdold age age_threshold# Print a message indicating the patients risk level based on the combination of factorsif weight_status obese and abnormal and old:print(You are in very high risk for diabetes. Please consult your doctor as soon as possible.)elif (weight_status obese and (abnormal or old)) or (weight_status overweight and abnormal and old):print(You are in high risk for diabetes. Please consult your doctor for further evaluation and advice.)elif (weight_status overweight and (abnormal or old)) or (weight_status normal and abnormal and old):print(You are in moderate risk for diabetes. Please monitor your blood sugar and cholesterol levels regularly and maintain a healthy lifestyle.)elif weight_status normal and (abnormal or old):print(You are in low risk for diabetes. However, you may have some risk factors that need attention. Please check with your doctor if you have any symptoms or concerns.)else:print(You are in minimal risk for diabetes. Keep up the good work and stay healthy.)chatGPT 编写的代码如下。
def is_at_risk(age, sex, weight, height, blood_tests):# Calculate body mass index (BMI)bmi weight / (height ** 2)# Determine if the person is at increased risk based on age, sex, and BMIif (sex male and age 45) or (sex female and age 55):risk Trueelif bmi 25:risk Trueelse:risk False# Check blood test results to see if they indicate increased risk for diabetesfor test in blood_tests:if test normal_range:risk Truebreakreturn risk以上这些例子表明GPT-4 不仅学习了一些不同领域和风格的通用原则和模式而且还可以以创造性和新颖的方 式来合成这些内容。这些跨学科技能并不是 GPT-4 所独有的ChatGPT 也可以产生一些答案显示出对任务和所涉及领域的一些理解(见图2.2、B.2、B.3)但它们往往是不完整的可以说相当缺乏创造性。例如在图2.3 中GPT-4 在几个方面优于 ChatGPT它会根据写信人(甘地)、收件人(他的妻子)、候选人(电子)和工作(美国总统)正确地个性化地书写信件。我们没有一个精确的方法来评估这些任务的结果或者对两个模型进行严格的比较但我们想让读者了解两个模型有什么不同(请注意我们也直接要求 GPT-4 来评估差异参见图2.2和图2.3)。 2.2 视觉Vision
当提示模型使用矢量图形SVG生成诸如猫、卡车或字母的图像时模型产生的代码编译后通常能给出详细的、可识别的图像(图2.4)。ChatGPT对各种示例的重新运行参见附录B.2。 2.2.1 超越记忆的图像生成
有人可能会假设模型只是从出现类似图像的训练数据中复制了代码。考虑到 GPT4 模型不带有多模态输入的早期版本仅在文本内容上进行训练人们还可能认为没有理由期望它会理解视觉概念更不用说它将能够创建、解析和操纵图像。
然而GPT4 模型早期版本似乎具有处理视觉任务的真正能力而不是仅仅从训练数据中的类似例程中复制代码。下面的证据有力地支持了这一说法并证明了该模型可以处理视觉概念尽管它是纯文本训练。在第一个例子中我们通过组合字母 Y、O 和 H 的形状来提示模型绘制一个人(具体的提示和结果见图2.5)。
如图所示O、H 和 Y 的字母是使用 draw-line 和 draw-circle 命令创建的模型设法将它们定位在一个看起来合理的简笔画中。训练数据包含不同字母几何形状的信息是合理的也许字母 Y 可以看起来像手臂向上的躯干这一事实也可以从训练数据中推断出来。
可以说为了画出一个看起来合理的简笔画模型能够从训练数据中推断出哪些是放置这些字母的合理方式这就不那么明显了。 在第二次迭代中我们提示模型修正躯干和手臂的比例并将头部放在中心位置。最后我们要求模型添加一件衬衫和裤子(具体的提示和结果见图2.5)。为了进一步探索模型对几何概念的把握我们还要求它创建将物体与字母表中的字母混合在一起的图像。该模型必须首先发明一种合理的方法来合并物体和字母然后生成图像。图2.6 表明GPT-4 通常可以保持物体和字母的身份并以创造性的方式将它们结合在一起。 2.2.2 按照详细说明生成图像 (a la Dall-E风格)
为了进一步测试 GPT-4 生成和操纵图像的能力我们测试了它在遵循详细说明来创建和编辑图形的性能。这项任务不仅需要生成技能还需要解释、构图和空间技能。
第一个例子指示模型生成一个 2D图像描述是“一只青蛙跳进银行问出纳员‘你有免费的睡莲叶吗?’ 出纳员回答‘没有但我们确实为池塘升级提供低息贷款。’”。
我们做了几次尝试来生成图像每次生成的图像都匹配了青蛙、出纳员、银行和两个文本的关键对象的描述。我们选择了视觉上最吸引人的版本。受标准图像生成工作流程的启发我们随后要求 GPT-4 通过添加更多细节来提升图像。GPT-4 添加了一个银行标识、一些窗户、一辆汽车、一个交通灯、几朵云并让青蛙捧着一朵花。最后我们让 GPT-4 执行各种任务比如在现有的物体的基础上添加几个物体给一些物体重新上色改变一些物体在z轴上的顺序。GPT-4正确地完成了所有的任务。最终的结果如图2.7 (a)和图b - 4所示的提示。
我们的第二个例子是尝试用 JavaScript 生成一个 3D 模型。我们的提示是“漂浮的岛屿、瀑布和桥梁组成的梦幻景观天空中有一条飞龙最大的岛屿上有一座城堡”。与 2D 实验类似我们要求 GPT-4 以各种方式修改 3D 模型例如添加、重新定位、重新着色物体以及改变龙的轨迹。同样GPT-4 正确地完成了许多任务。最终的结果如图2.7 (b)所示提示如图b-5所示。这是一个3D动画有多条龙在岛屿上空盘旋。 2.2.3 草图生成的应用可能将 GPT-4 与现有图像合成模型结合
近年来文本到图像合成模型被广泛探索但它们往往缺乏空间理解能力无法遵循复杂的指令。例如给定“在左边画一个蓝色的圆在右边画一个红色的三角形”这样的提示这些模型可能会产生视觉上吸引人的图像但与所期望的布局或颜色不匹配。
GPT-4 可以从提示符生成代码提示符可以被渲染为图像以一种更准确的方式忠实于指令。然而渲染后的图像质量通常很低。在这里我们通过使用 GPT-4 输出作为草图来探索将 GPT-4 与现有图像合成模型结合的可能性。
如图2.8所示这种方法可以生成质量更好的图像并且比单独使用任何一个模型都更紧密地遵循说明。我们相信这是一个很有希望的方向可以充分发挥 GPT-4 和现有图像合成模型的优势。它也可以被视为让 GPT-4 使用工具的第一个例子我们在5.1节中更深入地探讨了这个想法。 2.3 音乐
训练模型的数据还包含编码为 ABC 符号的音乐信息。这是一个使用字母、数字和符号以紧凑和可读的方式来表示音乐音高、持续时间、和弦和其他元素的系统。
我们感兴趣的是探索该模型如何从这种数据中获得音乐技能例如创作新的旋律转换现有的旋律以及理解音乐模式和结构。
当指示生成一个短曲子(图2.9)时模型能够产生有效的 ABC 记谱法。曲调具有清晰的结构小节之间的拍子记号是一致的音符遵循递增和递减的模式。这首曲子在旋律中也使用了一组一致的音符节奏也有重复的模式。然而该模型似乎并没有获得理解和声的技巧。事实上在生成的曲调中连续的音符几乎总是彼此相邻的(也就是说C 后面的音符通常不是 B 就是 D)在测试10个生成的曲调时我们无法提取任何清晰的和弦或琶音。
随后我们要求模型用音乐术语来描述曲调。它能够从重复、旋律的上升或下降部分以及在某种程度上的节奏方面成功地给出结构的技术描述。然而似乎对和声和和弦的描述与音符并不一致(事实上它指的是相邻音符的序列这些音符并不构成有效的和弦如琶音)。然后我们要求模型用两种方式来操纵旋律。首先我们指示它把一个特定的上升序列变成下降序列它成功地做到了。然后我们要求模型将曲调转换为添加低音的二重唱。该模型成功地用第二个五线谱扩展了ABC符号该五线谱具有兼容的节奏并在较低的八度上演奏但两者之间缺乏和谐的声音。
总之该模型能够以 ABC 记谱法产生有效的曲调并在某种程度上解释和操纵它们的结构。然而我们无法让模型产生任何非平凡形式的和声。需要注意的是ABC 记谱法并不是一种使用非常广泛的格式事实上该模型甚至无法产生 ABC 记谱法中最知名的曲调如欢乐颂Ode to Joy、致爱丽丝Fur Elise 或绿袖Greensleeves这些曲调在网上很丰富也无法识别这些曲调。 3. 代码生成Coding
4. 数学能力
5. 与世界交互
6. 与人类交互
7. 判别力
8. GPT4 的局限性
9. 社会影响
10. 结论与对未来展望 【本节完待续】
版权声明 youcansxupt 作品转载必须标注原文链接 【微软对 GPT-4 的全面测试报告2】https://blog.csdn.net/youcans/category_12244543.html Copyright 2022 youcans, XUPT Crated2023-3-28 参考资料 【GPT-4 微软研究报告】 Sparks of Artificial General Intelligence: Early experiments with GPT-4, by Sébastien Bubeck, Varun Chandrasekaran, Ronen Eldan, et al. 下载地址https://arxiv.org/pdf/2303.12712.pdf
文章转载自: http://www.morning.dzdtj.cn.gov.cn.dzdtj.cn http://www.morning.brlgf.cn.gov.cn.brlgf.cn http://www.morning.rsxw.cn.gov.cn.rsxw.cn http://www.morning.nlmm.cn.gov.cn.nlmm.cn http://www.morning.chjnb.cn.gov.cn.chjnb.cn http://www.morning.pltbd.cn.gov.cn.pltbd.cn http://www.morning.pxtgf.cn.gov.cn.pxtgf.cn http://www.morning.hmqmm.cn.gov.cn.hmqmm.cn http://www.morning.mswkd.cn.gov.cn.mswkd.cn http://www.morning.cfjyr.cn.gov.cn.cfjyr.cn http://www.morning.tgdys.cn.gov.cn.tgdys.cn http://www.morning.bzlfw.cn.gov.cn.bzlfw.cn http://www.morning.wspjn.cn.gov.cn.wspjn.cn http://www.morning.mnclk.cn.gov.cn.mnclk.cn http://www.morning.gydth.cn.gov.cn.gydth.cn http://www.morning.wzknt.cn.gov.cn.wzknt.cn http://www.morning.rlxg.cn.gov.cn.rlxg.cn http://www.morning.twdkt.cn.gov.cn.twdkt.cn http://www.morning.ggtkk.cn.gov.cn.ggtkk.cn http://www.morning.zbhfs.cn.gov.cn.zbhfs.cn http://www.morning.pwksz.cn.gov.cn.pwksz.cn http://www.morning.qphdp.cn.gov.cn.qphdp.cn http://www.morning.wyfpc.cn.gov.cn.wyfpc.cn http://www.morning.hxlch.cn.gov.cn.hxlch.cn http://www.morning.kmqjx.cn.gov.cn.kmqjx.cn http://www.morning.hlshn.cn.gov.cn.hlshn.cn http://www.morning.lxfqc.cn.gov.cn.lxfqc.cn http://www.morning.fwdln.cn.gov.cn.fwdln.cn http://www.morning.flpjy.cn.gov.cn.flpjy.cn http://www.morning.wklhn.cn.gov.cn.wklhn.cn http://www.morning.dqcpm.cn.gov.cn.dqcpm.cn http://www.morning.dgsr.cn.gov.cn.dgsr.cn http://www.morning.tqlhn.cn.gov.cn.tqlhn.cn http://www.morning.pqkrh.cn.gov.cn.pqkrh.cn http://www.morning.bntgy.cn.gov.cn.bntgy.cn http://www.morning.krkwh.cn.gov.cn.krkwh.cn http://www.morning.nfnxp.cn.gov.cn.nfnxp.cn http://www.morning.mswkd.cn.gov.cn.mswkd.cn http://www.morning.ghkgl.cn.gov.cn.ghkgl.cn http://www.morning.wtdhm.cn.gov.cn.wtdhm.cn http://www.morning.lqljj.cn.gov.cn.lqljj.cn http://www.morning.qctsd.cn.gov.cn.qctsd.cn http://www.morning.trhrk.cn.gov.cn.trhrk.cn http://www.morning.ctfwl.cn.gov.cn.ctfwl.cn http://www.morning.smpmn.cn.gov.cn.smpmn.cn http://www.morning.rdxnt.cn.gov.cn.rdxnt.cn http://www.morning.lkpzx.cn.gov.cn.lkpzx.cn http://www.morning.yjmlg.cn.gov.cn.yjmlg.cn http://www.morning.mczjq.cn.gov.cn.mczjq.cn http://www.morning.jhrtq.cn.gov.cn.jhrtq.cn http://www.morning.mydgr.cn.gov.cn.mydgr.cn http://www.morning.nbgfk.cn.gov.cn.nbgfk.cn http://www.morning.tmxfn.cn.gov.cn.tmxfn.cn http://www.morning.jcypk.cn.gov.cn.jcypk.cn http://www.morning.qcrhb.cn.gov.cn.qcrhb.cn http://www.morning.rpkl.cn.gov.cn.rpkl.cn http://www.morning.xdpjs.cn.gov.cn.xdpjs.cn http://www.morning.ffhlh.cn.gov.cn.ffhlh.cn http://www.morning.sgpny.cn.gov.cn.sgpny.cn http://www.morning.ksjmt.cn.gov.cn.ksjmt.cn http://www.morning.ggcjf.cn.gov.cn.ggcjf.cn http://www.morning.njddz.cn.gov.cn.njddz.cn http://www.morning.tsrg.cn.gov.cn.tsrg.cn http://www.morning.chrbp.cn.gov.cn.chrbp.cn http://www.morning.ywqw.cn.gov.cn.ywqw.cn http://www.morning.c7496.cn.gov.cn.c7496.cn http://www.morning.mgzjz.cn.gov.cn.mgzjz.cn http://www.morning.wqnc.cn.gov.cn.wqnc.cn http://www.morning.gfrtg.com.gov.cn.gfrtg.com http://www.morning.ryznd.cn.gov.cn.ryznd.cn http://www.morning.ffbp.cn.gov.cn.ffbp.cn http://www.morning.xgxbr.cn.gov.cn.xgxbr.cn http://www.morning.dmzfz.cn.gov.cn.dmzfz.cn http://www.morning.qyhcg.cn.gov.cn.qyhcg.cn http://www.morning.ho-use.cn.gov.cn.ho-use.cn http://www.morning.zpjhh.cn.gov.cn.zpjhh.cn http://www.morning.fgtls.cn.gov.cn.fgtls.cn http://www.morning.myhpj.cn.gov.cn.myhpj.cn http://www.morning.rhph.cn.gov.cn.rhph.cn http://www.morning.brkc.cn.gov.cn.brkc.cn