当前位置: 首页 > news >正文

所有做运动的网站营销活动策划方案

所有做运动的网站,营销活动策划方案,墨鱼 主题 wordpress,个人电子邮箱Gemma-SFT Gemma-SFT(谷歌, Google), gemma-2b/gemma-7b微调(transformers)/LORA(peft)/推理 项目地址 https://github.com/yongzhuo/gemma-sft全部weights要用fp32/tf32, 使用fp16微调十几或几十的步数后大概率lossnan;(即便layer-norm是fp32也不行, LLaMA就没有这个问题, …

Gemma-SFT

Gemma-SFT(谷歌, Google), gemma-2b/gemma-7b微调(transformers)/LORA(peft)/推理

项目地址

  • https://github.com/yongzhuo/gemma-sft
  • 全部weights要用fp32/tf32, 使用fp16微调十几或几十的步数后大概率loss=nan;(即便layer-norm是fp32也不行, LLaMA就没有这个问题, 原因暂时未知)

备注

1. 非常重要: 全部weights要用fp32/tf32, 使用fp16微调十几或几十的步数后大概率loss=nan;(即便layer-norm是fp32也不行, LLaMA就没有这个问题, 原因暂时未知)
2. transformers需要4.38及以上;
3. gemma词典大小为25w,多语言版本,包含繁/简体;
4. gemma网络架构同Llama, gemma-2b为18层网络, gemma-7b为28层网络; 
5. prompt:5.1 标准格式为: 
bos + input + eos + bos + output + eos5.2 prompt格式为: 
<start_of_turn>user
input<end_of_turn>
<start_of_turn>model
output<end_of_turn>6 微调输入输出:输入:"<start_of_turn>user\n{问题}<end_of_turn>\n"输出:"<start_of_turn>model\n{答案}<end_of_turn>"
7 推理输入输出(assistant\n放置位置不同):输入:"<start_of_turn>user\n{问题}<end_of_turn>\n<start_of_turn>model\n"输出:"{答案}<end_of_turn>"
8. 网络各层名称
('model.embed_tokens.weight', torch.bfloat16, True)
......
('model.layers.17.self_attn.q_proj.weight', torch.bfloat16, True)
('model.layers.17.self_attn.k_proj.weight', torch.bfloat16, True)
('model.layers.17.self_attn.v_proj.weight', torch.bfloat16, True)
('model.layers.17.self_attn.o_proj.weight', torch.bfloat16, True)
('model.layers.17.mlp.gate_proj.weight', torch.bfloat16, True)
('model.layers.17.mlp.up_proj.weight', torch.bfloat16, True)
('model.layers.17.mlp.down_proj.weight', torch.bfloat16, True)
('model.layers.17.input_layernorm.weight', torch.bfloat16, True)
('model.layers.17.post_attention_layernorm.weight', torch.bfloat16, True)
......
('model.norm.weight', torch.bfloat16, True)
9. RuntimeError: unscale_() has already been called on this optimizer since the last update().微调语料太少导致的

环境配置

transformers>=4.38.1
torch>=1.13.1
safetensors>=0.4.1
accelerate==0.27.1
fsspec==2023.9.2
rouge==1.0.1
nltk==3.6.6
peft>=0.2.0
numpy
tqdm

微调

地址: gemma_sft/ft_gemma配置: gemma_sft/ft_gemma/config.py
训练: python train.py
推理: python predict.py
验证: python evaluation.py
接口: python post_api.py

数据集-中文

  • https://huggingface.co/datasets/JosephusCheung/GuanacoDataset
  • https://huggingface.co/datasets/shareAI/shareGPT_cn
  • https://huggingface.co/datasets/Mutonix/RefGPT-Fact
  • https://huggingface.co/datasets/BAAI/COIG
  • https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM
  • https://github.com/carbonz0/alpaca-chinese-dataset
  • https://github.com/LianjiaTech/BELLE
  • https://github.com/PhoebusSi/Alpaca-CoT
  • https://github.com/Hello-SimpleAI/chatgpt-comparison-detection
  • https://github.com/yangjianxin1/Firefly
  • https://github.com/XueFuzhao/InstructionWild
  • https://github.com/OpenLMLab/MOSS
  • https://github.com/thu-coai/Safety-Prompts
  • https://github.com/LAION-AI/Open-Assistant
  • https://github.com/TigerResearch/TigerBot

参考/感谢

  • https://github.com/google/gemma_pytorch
  • https://huggingface.co/google/gemma-2b-it
  • https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
  • https://github.com/THUDM/ChatGLM-6B
  • https://github.com/THUDM/GLM
  • https://github.com/tatsu-lab/stanford_alpaca
  • https://github.com/LianjiaTech/BELLE
  • https://github.com/huggingface/peft
  • https://github.com/mymusise/ChatGLM-Tuning
  • https://github.com/bojone/bert4keras
  • trl
  • math23k

微调日志-advgen

在这里插入图片描述

推理日志-advgen

请输入:
类型#上衣*颜色#黑色*颜色#紫色*风格#性感*图案#字母*图案#文字*图案#线条*图案#刺绣*衣样式#卫衣*衣长#短款*衣袖型#落肩袖*衣款式#连帽
请稍等...
################################################################################################################################
{'instruction': '类型#上衣*颜色#黑色*颜色#紫色*风格#性感*图案#字母*图案#文字*图案#线条*图案#刺绣*衣样式#卫衣*衣长#短款*衣袖型#落肩袖*衣款式#连帽', 'input': '', 'output': ''}
tensor([[     2,  23055, 235345, 235502, 236524, 235287,  43972, 235345,  57988,235287,  43972, 235345, 124945, 235287,  60525, 235345, 135994, 235287,182148, 235345, 125156, 235287, 182148, 235345,  25047, 235287, 182148,235345, 179958, 235287, 182148, 235345, 237164, 240872, 235287, 236524,95243, 235345, 237587, 236524, 235287, 236524, 236045, 235345, 236809,236604, 235287, 236524, 237785, 235954, 235345, 236362, 238047, 237785,235287, 236524, 166242, 235345, 236557, 238229]])
一款个性吸睛的连帽服務卫衣,黑色系底色,增添了甜美小性感;经典的落肩短款版型,修饰出纤细的颈脖线条;个性时尚的连帽设计,搭配字母刺绣装饰,增添了甜美少女感;肩部的字母刺绣装饰,增添了时尚感,使整体更具特色;紫色的刺绣设计,丰富了视觉感,使整体更具个性。<eos>
请输入:
类型#上衣*风格#街头*图案#创意*衣样式#卫衣
请稍等...
################################################################################################################################
{'instruction': '类型#上衣*风格#街头*图案#创意*衣样式#卫衣', 'input': '', 'output': ''}
tensor([[     2,  23055, 235345, 235502, 236524, 235287,  60525, 235345, 218295,235287, 182148, 235345,  50259, 235287, 236524,  95243, 235345, 237587,236524]])
这一款卫衣采用经典的领口设计,不拘一格的设计,展现出街头风。领口的设计,不仅能够修饰脸型,还能够打造出精致的小脸,而且还能够起到遮挡口型的效果,让脸型更加小巧。领口处采用了创意的圆环装饰,让整个卫衣更加丰富,视觉上更加亮眼。卫衣采用宽大的版型设计,不挑人穿,即使是身材不那么好的人也能轻松驾驭。<eos>
请输入:

口的设计,不仅能够修饰脸型,还能够打造出精致的小脸,而且还能够起到遮挡口型的效果,让脸型更加小巧。领口处采用了创意的圆环装饰,让整个卫衣更加丰富,视觉上更加亮眼。卫衣采用宽大的版型设计,不挑人穿,即使是身材不那么好的人也能轻松驾驭。
请输入:

http://www.tj-hxxt.cn/news/117685.html

相关文章:

  • 北京it外包公司有哪些南宁seo规则
  • 厦门 公司网站建设百度指数批量
  • flv网站建设合肥网络公司
  • 黄页网站营销浏览器直接进入网站的注意事项
  • 织梦dedecms蓝色培训机构模板教育学校学院整站php网站源码网站seo检测工具
  • 公司网站app怎么做宁波正规优化seo公司
  • 网站建设服务便宜南京网站设计
  • 企业单页网站模板今日新闻
  • 做淘宝店标的网站自媒体平台注册下载
  • css选择器优先级顺序搜索引擎优化宝典
  • 易语言可以做网站么网站推广系统
  • 网站前台怎么做昆明seo网站建设
  • 受欢迎的网站建设公司semantic ui
  • php建设网站工具厦门网站搜索引擎优化
  • 肥城住房和城乡建设局网站南宁优化推广服务
  • 烟台专业的做网站公司互联网营销推广公司
  • 网站建设政府关键词查网址
  • 全省政府网站建设管理讲话seo网站推广简历
  • 做微信推送用什么网站推广网上国网
  • 青岛专业做网站的公司自己建网站流程
  • 中山网站建设技术长春网络优化哪个公司在做
  • 德国设计网站企业查询免费
  • 珠宝网站制作免费职业技能培训网站
  • 顶呱呱网站开发子域名在线查询
  • 大连微信网站制作网络营销策略案例分析
  • 中简风格wordpress主题深圳网站优化公司
  • 网站变慢的原因太原模板建站定制网站
  • 佛山专业网站建设网络域名综合查询
  • 郑州做网站比较专业的机构网站数据分析案例
  • wordpress导航函数佳木斯seo