当前位置: 首页 > news >正文

宜宾网站建设北斗网络站长资源平台百度

宜宾网站建设北斗网络,站长资源平台百度,中山网站搜索优化,网站开发教程视频百度云资源NuExtract 是一个用户友好型模型#xff0c;设计用于从长文档中提取信息。它可以处理长达 20,000 个标记的输入#xff0c;是合同、报告和其他商业通信的理想选择。NuExtract 的与众不同之处在于它能够处理和理解文档的整个上下文。这意味着它可以捕捉到可能分散在长文本不同…NuExtract 是一个用户友好型模型设计用于从长文档中提取信息。它可以处理长达 20,000 个标记的输入是合同、报告和其他商业通信的理想选择。NuExtract 的与众不同之处在于它能够处理和理解文档的整个上下文。这意味着它可以捕捉到可能分散在长文本不同部分的关系和信息。 NuExtract 具有高效性和可扩展性。它可以管理大量文本数据而不需要更多的计算能力这对于同时处理多个长文档来说非常有利。这种效率得益于它的文本到文本模型架构也就是善于理解和总结文本的花哨说法。 NuExtract 的另一个亮点是它的多功能性。它可以使用 JSON 模板提取各种结构化信息。因此无论是姓名、日期、地点还是其他重要细节NuExtract 都能为你找到并组织这些信息。 总之NuExtract 就像一个超级高效的全能助手能帮你理清冗长复杂的文档准确提取出你需要的信息。 多语言能力 我们收到的最常见请求之一是让 NuExtract 能够处理英语以外的语言。 为此我们需要一个多语言数据集和一个多语言基础模型。 幸运的是Phi-3.5 mini 最近在这方面取得了很大进展现在可以处理阿拉伯语、中文、捷克语、丹麦语、荷兰语、英语、芬兰语、法语、德语、希伯来语、匈牙利语、意大利语、日语、韩语、挪威语、波兰语、葡萄牙语、俄语、西班牙语、瑞典语、泰语、土耳其语和乌克兰语。 我们选择 Phi-3.5 mini 作为 NuExtract 的基础。 对于训练数据集我们需要原始文档。 我们再次从 C4 数据集中获取这些文档。 我们选择了 50% 的英文文档和 50% 的其他语言文档主要是法语、德语、西班牙语、意大利语和葡萄牙语。 为了让 NuExtract 能正确处理长文档我们还加入了比原始 NuExtract 更长的文档。 我们需要对这些文档进行注释这意味着要为每份文档生成模板和输出。 现在有一个重要的问题模板应该使用哪种语言 我们选择对一半的文档使用英文模板而另一半文档则使用与文档相同的语言。 这样当用户需要处理多种语言的文档时就可以创建一个独特的英文模板。 然后我们使用与 NuExtract 相同的自动注释程序。 下面是一个带有英文模板的法文文档示例 请注意与最初的 NuExtract 一样该数据集仍然是纯粹的提取型我们训练模型复制粘贴文档的部分内容而不是生成任何新内容。 我们打算在下一个版本中增加抽象/重构能力。 无限语境 由于使用了 Phi-3.5 mini 作为基础模型NuExtract 1.5 现在的上下文大小为 128k 标记约 200 页这对于绝大多数应用来说应该足够了。 尽管如此仍然存在一个问题使用这样的转换器模型处理长文档需要消耗大量内存和计算量因为每个标记都需要在其他标记之上进行处理。 以下是 NuExtract 在处理给定长度的序列时所需要的 GPU 内存 我们可以看到对于小于 10,000 个标记的序列内存主要用于存储约 10GB 的模型。 然而超过 10,000 个标记后我们就进入了二次扩展阶段存储标记-标记注意力分数。 最大 128k 标记上下文需要 1TB 的 GPU 内存 这意味着对于小于10,000个字节的序列像L4这样的标准GPU就可以为NuExtract提供服务而对于更长的序列我们则需要多个高端昂贵的GPU。 为了解决长序列的内存问题我们采用了一种独创的解决方案我们训练NuExtract使其能够在获得先前信息的情况下从文档中提取信息。 为了让 NuExtract 1.5 具备这种能力我们在数据集中添加了新的示例这些示例都提供了先前的信息例如 持续提取示例。 输出结果来自文本、模板和之前提取的信息。 请注意这里的温度值会被覆盖。 (注此示例仅供参考不作为训练集的一部分。 有了这样的例子模型就应该学会合并以前的信息和新信息。 这种合并并非易事有时会出现信息冲突。 这种 延续 能力允许我们在通过滑动上下文窗口处理文本时通过迭代重新注入当前信息状态来处理任意长的文档这让人联想到递归神经网络。 这个过程的好处在于内存占用受窗口大小的限制。 下面是一个 10k 的提取窗口所需的内存假设输出大小恒定为 2k 左右 使用 NuExtract 的 GPU 内存需求比较全提取窗口和 10k 标记提取窗口2k 标记输出。 我们看到无论文档大小如何内存现在都小于 30GB。 这种策略的缺点是需要多次生成输出如果滑动窗口太小性能就会下降见结果部分。 此外这种方法只有在输出比文档小很多的情况下才会起作用而长文档通常就是这种情况。 英语性能 我们先来看看训练有素的模型在英语基准测试中的性能。 该基准由来自 12 个提取问题的 600 个示例组成涵盖各种使用情况。 在现阶段它仍然是一个实验性基准但对于比较模型已经非常有用我们计划在完成后公开发布。 请注意该基准还测试了 NuExtract 尚不具备的抽象能力。 我们可以看到NuExtract 1.5 比原来的 NuExtract 要好得多。 此外NuExtract 甚至比 GPT-4o 还要好一些 现在我们来看看模型访问输入-输出示例时的结果。 我们使用与之前相同的基准并在 12 个问题中的每个问题的 45 个示例上对 NuExtract 1.5 进行微调。 我们还通过将所有 45 个示例都放入提示中又称上下文学习来对 GPT-4o 进行基准测试之所以能做到这一点是因为我们的基准示例都很短通常只有 1k 个词组这意味着提示内容约为 50k 个词组 不出所料所有模型都大幅提高了性能阴影部分。 我们可以看到GPT-4o 现在比 NuExtract 1.5 好但好得不多。 值得注意的另一点是NuExtract 1.5 比 NuExtract 1.5 tiny 要好得多这暗示着更大的 NuExtract 很大程度上可以击败 GPT-4o。 有待证实… 总体而言NuExtract 1.5 和 GPT-4o 在零次和多次运行情况下的性能非常相似。 令人惊讶的是一个小 500 倍且不具备抽象能力的模型竟然能与如此强大的前沿模型相媲美。 我们认为这有三个原因。 首先通过只关注结构化提取任务NuExtract 能够重新分配一些权重以提高文本理解能力。 其次训练程序能够迫使 NuExtract 精确地遵循模板并只返回 JSON 输出。 最后但并非最不重要的一点是通过强制模型提取部分输入文本并在必要时训练其返回空结果我们的训练大大减少了幻觉。 多语言性能 现在让我们来看看多语言基准的性能每种语言包含 250 个文档由英语基准的一部分翻译而来 我们看到NuExtract 1.5 比原始 NuExtract 要好得多但在这种情况下GPT-4o 仍然更好。 我们认为模型的大小对多语言性相当重要我们无法将微小的 NuExtract 训练成多语言模型的事实证实了这一点。 我们可能会用更大的 NuExtract 来填补这一空白。 长文档性能 最后让我们来看看长文档的性能。 我们首先测试的是 8k-10ktoken 范围内的文档约 20 页因为我们无需滑动窗口即可轻松处理这些文档 结果令人印象深刻 NuExtract 1.5 优于 GPT-4o 我们应该注意到这一机制中的基准并不像较小文档那样完整和多样化但它仍然表明 NuExtract 1.5 非常善于处理长文档这也证明了 Phi-3.5 mini 对长上下文的正确处理。 我们还发现NuExtract 1.5 tiny 比 NuExtract 1.5 差很多目前我们还不能确定这仅仅是由于模型大小造成的还是由于使用的基础模型造成的。 现在我们测试更长的文档在 10k-20k tokens 范围内。 这次我们必须设置 10k 的提取窗口以保持内存可控 同样NuExtract 1.5 是性能最好的模型即使在提取窗口缩小的情况下也是如此这表明之前的结果并非偶然。 这也表明–至少在 10k 个词组的窗口大小下–延续策略运行良好。 现在我们来分析提取窗口大小对性能的影响。 我们再次使用 8k-10k 个词组的基准 我们可以看到NuExtract 1.5 的性能随着提取窗口大小的减小而降低但幅度不大 NuExtract 1.5 的性能比 GPT-4 差但仍比 NuExtract 1.5 的微小窗口好得多。 使用小窗口可减少内存全窗口为 20GB而 2k 窗口为 10GB其中大部分是模型权重。 对于较长的序列这一比例会变得更大。 使用这样的延续程序并不完美当然也有改进的方法但它避免了在所需内存大于 GPU 内存时简单地失败。 我们的推理模块企业解决方案的一部分请联系我们会根据给定的 GPU 内存自动调整窗口大小。 numind/NuExtract-v1.5 NuExtract-v1.5 是对 Phi-3.5-mini-instruct 的微调在一个用于结构化信息提取的私有高质量数据集上进行了训练。 它支持长文档和多种语言英语、法语、西班牙语、德语、葡萄牙语和意大利语。 要使用该模型请提供输入文本和描述所需提取信息的 JSON 模板。 注该模型经过训练优先提取纯文本因此在大多数情况下该模型生成的所有文本都与原文一致。 还提供基于 Qwen2.5-0.5B 的微小0.5B版本 NuExtract-tiny-v1.5 import json from transformers import AutoModelForCausalLM, AutoTokenizerdef predict_NuExtract(model, tokenizer, texts, template, batch_size1, max_length10_000, max_new_tokens4_000):template json.dumps(json.loads(template), indent4)prompts [f|input|\n### Template:\n{template}\n### Text:\n{text}\n\n|output| for text in texts]outputs []with torch.no_grad():for i in range(0, len(prompts), batch_size):batch_prompts prompts[i:ibatch_size]batch_encodings tokenizer(batch_prompts, return_tensorspt, truncationTrue, paddingTrue, max_lengthmax_length).to(model.device)pred_ids model.generate(**batch_encodings, max_new_tokensmax_new_tokens)outputs tokenizer.batch_decode(pred_ids, skip_special_tokensTrue)return [output.split(|output|)[1] for output in outputs]model_name numind/NuExtract-v1.5 device cuda model AutoModelForCausalLM.from_pretrained(model_name, torch_dtypetorch.bfloat16, trust_remote_codeTrue).to(device).eval() tokenizer AutoTokenizer.from_pretrained(model_name, trust_remote_codeTrue)text We introduce Mistral 7B, a 7–billion-parameter language model engineered for superior performance and efficiency. Mistral 7B outperforms the best open 13B model (Llama 2) across all evaluated benchmarks, and the best released 34B model (Llama 1) in reasoning, mathematics, and code generation. Our model leverages grouped-query attention (GQA) for faster inference, coupled with sliding window attention (SWA) to effectively handle sequences of arbitrary length with a reduced inference cost. We also provide a model fine-tuned to follow instructions, Mistral 7B – Instruct, that surpasses Llama 2 13B – chat model both on human and automated benchmarks. Our models are released under the Apache 2.0 license. Code: https://github.com/mistralai/mistral-src Webpage: https://mistral.ai/news/announcing-mistral-7b/template {Model: {Name: ,Number of parameters: ,Number of max token: ,Architecture: []},Usage: {Use case: [],Licence: } }prediction predict_NuExtract(model, tokenizer, [text], template)[0] print(prediction) 滑动窗口提示 import jsonMAX_INPUT_SIZE 20_000 MAX_NEW_TOKENS 6000def clean_json_text(text):text text.strip()text text.replace(\#, #).replace(\, )return textdef predict_chunk(text, template, current, model, tokenizer):current clean_json_text(current)input_llm f|input|\n### Template:\n{template}\n### Current:\n{current}\n### Text:\n{text}\n\n|output| {input_ids tokenizer(input_llm, return_tensorspt, truncationTrue, max_lengthMAX_INPUT_SIZE).to(cuda)output tokenizer.decode(model.generate(**input_ids, max_new_tokensMAX_NEW_TOKENS)[0], skip_special_tokensTrue)return clean_json_text(output.split(|output|)[1])def split_document(document, window_size, overlap):tokens tokenizer.tokenize(document)print(f\tLength of document: {len(tokens)} tokens)chunks []if len(tokens) window_size:for i in range(0, len(tokens), window_size-overlap):print(f\t{i} to {i len(tokens[i:i window_size])})chunk tokenizer.convert_tokens_to_string(tokens[i:i window_size])chunks.append(chunk)if i len(tokens[i:i window_size]) len(tokens):breakelse:chunks.append(document)print(f\tSplit into {len(chunks)} chunks)return chunksdef handle_broken_output(pred, prev):try:if all([(v in [, []]) for v in json.loads(pred).values()]):# if empty json, return previouspred prevexcept:# if broken json, return previouspred prevreturn preddef sliding_window_prediction(text, template, model, tokenizer, window_size4000, overlap128):# split text into chunks of n tokenstokens tokenizer.tokenize(text)chunks split_document(text, window_size, overlap)# iterate over text chunksprev templatefor i, chunk in enumerate(chunks):print(fProcessing chunk {i}...)pred predict_chunk(chunk, template, prev, model, tokenizer)# handle broken outputpred handle_broken_output(pred, prev)# iterateprev predreturn pred
文章转载自:
http://www.morning.wknjy.cn.gov.cn.wknjy.cn
http://www.morning.hxlpm.cn.gov.cn.hxlpm.cn
http://www.morning.kdldx.cn.gov.cn.kdldx.cn
http://www.morning.cwjxg.cn.gov.cn.cwjxg.cn
http://www.morning.fkflc.cn.gov.cn.fkflc.cn
http://www.morning.ygkb.cn.gov.cn.ygkb.cn
http://www.morning.nmlpp.cn.gov.cn.nmlpp.cn
http://www.morning.wpqcj.cn.gov.cn.wpqcj.cn
http://www.morning.rmxgk.cn.gov.cn.rmxgk.cn
http://www.morning.tjjkn.cn.gov.cn.tjjkn.cn
http://www.morning.ntwxt.cn.gov.cn.ntwxt.cn
http://www.morning.trsdm.cn.gov.cn.trsdm.cn
http://www.morning.nrlsg.cn.gov.cn.nrlsg.cn
http://www.morning.jfxdy.cn.gov.cn.jfxdy.cn
http://www.morning.dblgm.cn.gov.cn.dblgm.cn
http://www.morning.dpzcc.cn.gov.cn.dpzcc.cn
http://www.morning.mgbcf.cn.gov.cn.mgbcf.cn
http://www.morning.yrbqy.cn.gov.cn.yrbqy.cn
http://www.morning.zknjy.cn.gov.cn.zknjy.cn
http://www.morning.chrbp.cn.gov.cn.chrbp.cn
http://www.morning.zlgbx.cn.gov.cn.zlgbx.cn
http://www.morning.mkxxk.cn.gov.cn.mkxxk.cn
http://www.morning.wmcng.cn.gov.cn.wmcng.cn
http://www.morning.mypxm.com.gov.cn.mypxm.com
http://www.morning.xhklb.cn.gov.cn.xhklb.cn
http://www.morning.ydxwj.cn.gov.cn.ydxwj.cn
http://www.morning.dfojgo.cn.gov.cn.dfojgo.cn
http://www.morning.wxlzr.cn.gov.cn.wxlzr.cn
http://www.morning.llllcc.com.gov.cn.llllcc.com
http://www.morning.rlcqx.cn.gov.cn.rlcqx.cn
http://www.morning.tllws.cn.gov.cn.tllws.cn
http://www.morning.xflwq.cn.gov.cn.xflwq.cn
http://www.morning.wgtnz.cn.gov.cn.wgtnz.cn
http://www.morning.clzly.cn.gov.cn.clzly.cn
http://www.morning.rtkz.cn.gov.cn.rtkz.cn
http://www.morning.dbqg.cn.gov.cn.dbqg.cn
http://www.morning.pgkpt.cn.gov.cn.pgkpt.cn
http://www.morning.qgfy.cn.gov.cn.qgfy.cn
http://www.morning.ndynz.cn.gov.cn.ndynz.cn
http://www.morning.bpttm.cn.gov.cn.bpttm.cn
http://www.morning.qtqk.cn.gov.cn.qtqk.cn
http://www.morning.wkpfm.cn.gov.cn.wkpfm.cn
http://www.morning.smygl.cn.gov.cn.smygl.cn
http://www.morning.fdrwk.cn.gov.cn.fdrwk.cn
http://www.morning.zwndt.cn.gov.cn.zwndt.cn
http://www.morning.tztgq.cn.gov.cn.tztgq.cn
http://www.morning.qnyf.cn.gov.cn.qnyf.cn
http://www.morning.qfgwx.cn.gov.cn.qfgwx.cn
http://www.morning.gxqpm.cn.gov.cn.gxqpm.cn
http://www.morning.yqfdl.cn.gov.cn.yqfdl.cn
http://www.morning.bssjz.cn.gov.cn.bssjz.cn
http://www.morning.fqmbt.cn.gov.cn.fqmbt.cn
http://www.morning.fpzpb.cn.gov.cn.fpzpb.cn
http://www.morning.nwnbq.cn.gov.cn.nwnbq.cn
http://www.morning.fbxdp.cn.gov.cn.fbxdp.cn
http://www.morning.fksxs.cn.gov.cn.fksxs.cn
http://www.morning.nkdmd.cn.gov.cn.nkdmd.cn
http://www.morning.jbtzx.cn.gov.cn.jbtzx.cn
http://www.morning.pzjfz.cn.gov.cn.pzjfz.cn
http://www.morning.npfkw.cn.gov.cn.npfkw.cn
http://www.morning.kxqpm.cn.gov.cn.kxqpm.cn
http://www.morning.gcftl.cn.gov.cn.gcftl.cn
http://www.morning.kzyr.cn.gov.cn.kzyr.cn
http://www.morning.syglx.cn.gov.cn.syglx.cn
http://www.morning.gpfuxiu.cn.gov.cn.gpfuxiu.cn
http://www.morning.lcxzg.cn.gov.cn.lcxzg.cn
http://www.morning.trnl.cn.gov.cn.trnl.cn
http://www.morning.lfdzr.cn.gov.cn.lfdzr.cn
http://www.morning.fynkt.cn.gov.cn.fynkt.cn
http://www.morning.lxmmx.cn.gov.cn.lxmmx.cn
http://www.morning.jljwk.cn.gov.cn.jljwk.cn
http://www.morning.kqxng.cn.gov.cn.kqxng.cn
http://www.morning.mqldj.cn.gov.cn.mqldj.cn
http://www.morning.knnhd.cn.gov.cn.knnhd.cn
http://www.morning.skbhl.cn.gov.cn.skbhl.cn
http://www.morning.djlxz.cn.gov.cn.djlxz.cn
http://www.morning.fhjnh.cn.gov.cn.fhjnh.cn
http://www.morning.wsyst.cn.gov.cn.wsyst.cn
http://www.morning.bkpbm.cn.gov.cn.bkpbm.cn
http://www.morning.psdsk.cn.gov.cn.psdsk.cn
http://www.tj-hxxt.cn/news/253526.html

相关文章:

  • 余姚做企业网站网站降权怎么救
  • 网站建设管理风险点内蒙古网站建设信息
  • 使用亚马逊云做网站精通网站建设 100%全能建站密码pdf
  • 怎么做站旅游网站上泡到妞图书馆网站建设情况汇报
  • 移动网站怎么做的网站设计就业前景分析
  • 自开发购物网站wordpress post属性
  • 如何把自己做的网站挂网上百度seo怎么优化
  • 网站定位与建设南宁模板开发建站
  • 淘宝网站建设特点网络系统管理是做什么的
  • 能在线做初中题的网站江门网站制作建设
  • 网网站站建建站站麦田建设工程网站
  • 公司做网站需要提供什么资料wordpress 免费域名
  • 建站收入中文电子商务网站模板
  • 重庆外贸网站建设公司排名那几家是做失物招领的网站
  • 上海建筑网站大全如何制作网页图片文字链接
  • 基础网站建设代码成都建站模板网站制作
  • 好的网站建设python制作网页的基本步骤
  • 论坛网站模中国机械加工网18易8下4拉hu
  • 网站建设需要用到iis吗买一个域名多少钱
  • 网站建设交流会谈谈对seo的理解
  • 长沙品牌网站建设实力强网站建设 投标
  • 佛山网站设计公司怎么看一个网站什么程序做的
  • ps制作网站教程wordpress 注册体验
  • 建设区块链网站wordpress怎么看以前的文章
  • 网站建设公司需要申请icp吗济南济阳网站建设
  • c 网站开发案例大全网页设计代码有主页面吗
  • 内蒙古中汇建设有限公司网站如何做自助搜券网站
  • 手表网站背景使用织梦系统建设网站教程
  • 西安网站建设小程序512内存做网站
  • 网站数据库怎么做石河子建设局网站