当前位置: 首页 > news >正文

怎么在word里做网站google 网站推广

怎么在word里做网站,google 网站推广,wordpress 批量漏洞,设计师接私活的网站微调模型是为了让模型在特殊领域表现良好,帮助其学习到专业术语等。 本文采用llama_index框架微调BGE模型,跑通整个流程,并学习模型微调的方法。 已开源:https://github.com/stay-leave/enhance_llm 一、环境准备 Linux环境,GPU L20 48G,Python3.8.10。 pip该库即可。…

微调模型是为了让模型在特殊领域表现良好,帮助其学习到专业术语等。

本文采用llama_index框架微调BGE模型,跑通整个流程,并学习模型微调的方法。
已开源:https://github.com/stay-leave/enhance_llm

一、环境准备

Linux环境,GPU L20 48G,Python3.8.10。
pip该库即可。

二、数据准备

该框架实现了读取各种类型的文件,给的示例就是pdf。
在这里插入图片描述
因此准备了一些网络舆情相关的论文pdf,选择70%作为训练数据,剩下作为验证数据。都放在data文件夹下。
在这里插入图片描述

三、微调脚本编写

1.读取数据

使用SimpleDirectoryReader类读取文件。
读取到文本后,使用SentenceSplitter将一个很长的文档切分为若干块。
每一块设置的有token数和重叠token数,在
在这里插入图片描述可以自选,默认的chunk_size大小没找到在哪,重叠的是200.
在这里插入图片描述以上是库的源码实现,我们调用是很简单的。VAL_CORPUS_FPATH 我一开始以为是在load_corpus里的某个类自动保存,结果根本没有。所以自己写了导出为json的函数,是将其text数据保存了。

# 源文件 列表
my_list = [i for i in os.listdir('project_2/data') if i.endswith('pdf')]
# 随机抽取70%的数据,作为训练集
random.shuffle(my_list) # 打乱
num_to_sample = int(len(my_list) * 0.7) # 阈值
# 构造本地文件路径
training_set = [f"project_2/data/{file}" for file in my_list[:num_to_sample]] # 训练集文件list
validation_set = [f"project_2/data/{file}" for file in my_list[num_to_sample:]] # 验证集文件list# 最终形成的训练和验证语料
TRAIN_CORPUS_FPATH = 'project_2/data/corpus/train_corpus.json'
VAL_CORPUS_FPATH = 'project_2/data/corpus/val_corpus.json'# 读取pdf数据,节点
def load_corpus(files, verbose=False):if verbose:print(f"正在加载文件 {files}")reader = SimpleDirectoryReader(input_files=files)docs = reader.load_data()if verbose:print(f"已加载 {len(docs)} 个文档")parser = SentenceSplitter()nodes = parser.get_nodes_from_documents(docs, show_progress=verbose)if verbose:print(f"已解析 
http://www.tj-hxxt.cn/news/30704.html

相关文章:

  • 西安门户网站建设公司哪家好网络营销环境分析包括哪些内容
  • 网站的基本要素基本seo技术在线咨询
  • 彩虹网站建设在线seo短视频
  • 做发型的网站合肥网络seo推广服务
  • 做网站的项目职责怎么写百度网址大全网址导航
  • 专做运动装的网站提高网站收录的方法
  • 高端企业网站建设搜索app下载
  • 南昌电子商务网站建设网站链接查询
  • java开发网站跟php开发网站区别网络推广吧
  • 白城网站开发真实有效的优化排名
  • 做论坛网站多少钱webview播放视频
  • 在哪个网站可以自助建站精准大数据获客系统
  • 汕头个人建站模板正规seo关键词排名网络公司
  • 免费微信微网站模板下载不了沈阳关键词优化报价
  • 微信服务商平台官网seo做得比较好的公司
  • 百度一下建设部网站seo关键词排名网络公司
  • 邮箱域名与网站域名会冲突吗搜索引擎网页
  • 东莞网站建设的价格今日军事头条
  • 英文网站营销百度竞价推广开户
  • 做网站运营有前途吗青岛关键词排名系统
  • 成都网站建设公司高新成都互联网公司排名
  • 网站做赌博做任务百度热门搜索排行榜
  • 专业团队图片高清花都网络推广seo公司
  • 有个人免费网站吗免费seo刷排名
  • 首京建设投资引导基金网站seo搜索引擎优化原理
  • 宿州哪家做网站好中国seo
  • 认真做门户网站迎检工作国内永久免费的云服务器
  • 网站必须兼容哪些浏览器网络营销工具包括
  • 网站在正在建设中四川seo技术培训
  • 做捕鱼网站推广合作