电商网站设计页面设计,电商运营八大流程,网店美工考试试题及答案,江苏省建设执业资格中心网站第二届世界科学智能大赛逻辑推理赛道#xff1a;复杂推理能力评估 #大模型技术之逻辑推理方向 #Datawhale #夏令营-CSDN博客 这里在上一篇的基础上#xff0c;已经充分理解了一遍baseline的流程#xff0c;并修复了一些后处理的问题#xff0c;包括答案抽取#xff0c;中间… 第二届世界科学智能大赛逻辑推理赛道复杂推理能力评估 #大模型技术之逻辑推理方向 #Datawhale #夏令营-CSDN博客 这里在上一篇的基础上已经充分理解了一遍baseline的流程并修复了一些后处理的问题包括答案抽取中间结果记录与重试提问合并问题检查等等。本篇笔记主要探索模型的效果上限方便在后续模型调优提供案例和额外数据。
开源模型效果对比
在未改变prompt的情况下尝试对比了一些开源模型的效果
模型score10b以下模型0.6yi-34b-chat0.7041 qwen2-72b-instruct 0.8614qwen2-72b-instructyi-34b-chat0.8630
这里整理了一下复赛的一些要求
本赛道复赛线上推理与评测时间限制为3个小时镜像运行服务器为单卡V10032G显存版本复赛环境网络配置复赛采用镜像方式进行评测容器中无可用网络无法进行下载安装外部API调用等操作。请选手提前将所需软件环境数据模型等装进镜像不要在镜像中写入包含网络操作的代码否则镜像运行会卡死或中断为了不影响最后一周镜像的正常提交和运行请将提交的训练代码包整体控制在50G以内。50G以内一般的模型限制在20b之内例如书生·浦语2-20B模型文件为40G。Qwen1.5-14b模型文件为30G。推荐模型使用20b以下。特别说明参赛选手可以使用开源数据若使用了开源数据需要在代码审核阶段提供数据来源以及相关说明。
单独从模型大小来看
50G的存储空间支持20B模型fp1640B模型(int8)80B模型int4
32G的显存推理支持60Bint430Bint815Bfp16
32G的显存Lora finetune训练支持15Bfp16
接下来全力投入到训练和prompt优化过程争取把15B以下左右的模型调到0.8的效果。