当前位置: 首页 > news >正文

手机版网页开发seo优化网站教程

手机版网页开发,seo优化网站教程,邯郸老区建设网站,wordpress主题开发编辑器分类目录:《自然语言处理从入门到应用》总目录 当我们需要处理长文本时,有必要将文本分割成块。虽然这听起来很简单,但这里存在很多潜在的复杂性。理想情况下,我们希望将语义相关的文本块保持在一起,但什么是"语义…

分类目录:《自然语言处理从入门到应用》总目录


当我们需要处理长文本时,有必要将文本分割成块。虽然这听起来很简单,但这里存在很多潜在的复杂性。理想情况下,我们希望将语义相关的文本块保持在一起,但什么是"语义相关"可能取决于文本的类型。本文就展示了几种实现这一目标的方法。

在高层次上,文本分割器的工作原理如下:

  1. 将文本分割成小的、语义有意义的块(通常是句子)。
  2. 开始将这些小块组合成较大的块,直到达到一定的大小(由某个函数衡量)。
  3. 一旦达到该大小,将该块作为自己的文本片段,然后开始创建一个具有一定重叠的新文本块(以保持块之间的上下文)。

这意味着有两个不同的方向可以定制文本分割器:

  • 文本如何被分割
  • 块的大小如何衡量

默认推荐的文本分割器是RecursiveCharacterTextSplitter。该文本分割器接受一个字符列表作为参数。它尝试根据第一个字符进行分块,但如果有任何分块过大,它将继续尝试下一个字符,依此类推。默认情况下,它尝试进行分割的字符是\n\n\n等。除了控制分割的字符之外,我们还可以控制其他一些内容:

  • length_function:如何计算分块的长度。默认只计算字符数,但通常在这里传递一个标记计数器。
  • chunk_size:分块的最大大小(由长度函数测量)。
  • chunk_overlap:分块之间的最大重叠量。保持一些重叠可以保持分块之间的连续性(例如使用滑动窗口)。
  • add_start_index:是否在元数据中包含每个分块在原始文档中的起始位置。
# This is a long document we can split up.
with open('../../state_of_the_union.txt') as f:state_of_the_union = f.read()
from langchain.text_splitter import RecursiveCharacterTextSplitter
text_splitter = RecursiveCharacterTextSplitter(# Set a really small chunk size, just to show.chunk_size = 100,chunk_overlap  = 20,length_function = len,add_start_index = True,
)
texts = text_splitter.create_documents([state_of_the_union])
print(texts[0])
print(texts[1])

输出:

page_content='Madam Speaker, Madam Vice President, our First Lady and Second Gentleman. Members of Congress and' metadata={'start_index': 0} page_content='of Congress and the Cabinet. Justices of the Supreme Court. My fellow Americans.' metadata={'start_index': 82}

我们还可以使用文本分割器分割下列类型的文件:

  • Character
  • HTML
  • Latex
  • Markdown
  • NLTK
  • Python
  • Recursive Character
  • spaCy
  • tiktoken(OpenAI)

参考文献:
[1] LangChain官方网站:https://www.langchain.com/
[2] LangChain 🦜️🔗 中文网,跟着LangChain一起学LLM/GPT开发:https://www.langchain.com.cn/
[3] LangChain中文网 - LangChain 是一个用于开发由语言模型驱动的应用程序的框架:http://www.cnlangchain.com/

http://www.tj-hxxt.cn/news/86763.html

相关文章:

  • 动态网站开发背景bt kitty磁力猫
  • 帝国网站网站手机版怎么做建网站费用
  • 网站建设贰金手指下拉苏州关键词排名提升
  • 做印刷网站公司整站seo排名费用价格
  • 大邑做网站电商平台怎么运营的
  • 做网站推广的公司百度官网首页
  • 营销导向企业网站策划百度营业执照怎么办理
  • 腾讯云 wordpress360优化大师app下载
  • 湖北去哪做经营性网站备案免费私人网站建设软件
  • 香港主机苏州网站优化公司
  • wordpress网站从零关键词排名查询官网
  • 网站建设与管理logo昆明网站seo优化
  • 重庆市网站建设项目推广平台排行榜
  • 国外怎么做直播网站互联网营销师是干什么的
  • 免抵退税在哪个网站做百度查重工具
  • 对网站建设的建议北京seo技术
  • 香水网站模板网站权重什么意思
  • 零用贷网站如何做石嘴山网站seo
  • 做网站有生意吗关键词网站推广
  • 昆明做网站建设的公司营销页面设计
  • seo网站推广案例凡科建站手机版登录
  • 网站图片自动切换怎么做今日国际新闻热点
  • 快速做网站用什么软件网站seo外包
  • 响水做网站哪家公司好html网页制作模板代码
  • web开发就是网站开发吗上海网络seo公司
  • 网易在线客服系统怎么给网站做优化
  • 软件设计属于什么专业广东seo推广
  • 制作网站公司哪个好a站
  • 政府网站建设的脚注舟山seo
  • 做围棋题最好的网站2022智慧树互联网与营销创新