当前位置: 首页 > news >正文

产品单页营销型网站模板下载电子商城网站制作公司

产品单页营销型网站模板下载,电子商城网站制作公司,黑龙江住建局官方网,移动互联网应用开发工程师文档预处理之文本化 近日#xff0c;我们收到来自专业用户的使用心得#xff0c;浅析结构化信息提取技术、技术选型及一些个人测试。 结构化信息提取的重要性 数据作为大模型时代的核心生产资料#xff0c;其结构化处理能力直接影响AI系统的实用价值。尽管知识图谱、RAG等…文档预处理之文本化 近日我们收到来自专业用户的使用心得浅析结构化信息提取技术、技术选型及一些个人测试。 结构化信息提取的重要性 数据作为大模型时代的核心生产资料其结构化处理能力直接影响AI系统的实用价值。尽管知识图谱、RAG等技术依赖海量文本资源但现实中的历史档案、法律文书等重要数据多以扫描件、图像等非结构化形式存在导致信息抽取、语义解析等环节面临显著技术障碍。 当前结构化信息提取技术虽呈现多样化发展但对于开发者而言结构化信息提取的“落地”与“可用性”才是真正的考验研究论文中的指标和高精度模型在生产环境中可能面临性能瓶颈、成本过高、部署难度大等现实挑战。 本文将梳理主流技术方案立足实际需求结合一系列实测数据与实践经验评估各方法在不同场景下的表现与优劣势。从技术指标到生产可行性我们将为开发者提供一份实用的兼顾算法效能与部署成本的参考指南。 评价标准 作为测评首先确定标准目标输出格式设定为markdown。 Markdown 作为一种增强的文本格式相较纯文本而言为数据保有了其中固有的结构表格、标题、列表等。同时作为大模型原生支持的文本格式使用markdown作为输入格式也能让输出效果更好。 对于测试结果要求首先最重要的标准是结果可用。我们定了3个正确性指标其中文本准确性是所有文本解析的基础有研究[1]指出解析正确性将显著影响RAG的效果表格准确性则是一个难点尤其是有多个单元格合并的情况下很难识别准确标题正确性主要考察标题层级是否正确。其次需要评估识别速度、成本等问题。考虑到有些组织内信息不能上传外网添加了隐私性即能否本地部署这一指标。最后考虑到有些方法路径尚不成熟部署复杂度大因此能否便捷使用也是需要考察的点。最终得到的评价表格如下: 评价表格:* 名称 访问地址 文本正确性 表格正确性 标题正确性 识别速度 成本 本地部署 便捷使用 由于参与后处理的是LLM所以关于文本识别准确有一定容错如果需要关于正确性的量化评价可以采用Markdown Tester。 测评 使用的待测试pdf随机选取的一份上交所上市公司的2023年年报全文193页。 金融年报是电子文档中相对复杂的一类文字密度大表格复杂度高标题层级多对模型能力有较大考验。遂选取之作为测试素材。 基于大模型的识别方案举例 市面上流行的几个开源pdf转markdown方法大体可以分为两种一类走传统版面分析公式表格识别OCR方案另一类则是走视觉大模型路线。 利用大模型执行pdf转markdown算是一种逻辑上比较容易的办法借助大模型本身强大的视觉识别能力进行力大砖飞的转换。 从原理上这种方法可以自如地进行转换同时可以在转换过程中保留尽可能多的视觉信息基础的诸如标题层级进阶的还可以对图片进行一定的语义解释。 视觉大模型的接口也容易获得有条件的情况下可以本地部署。 本次实验采取识别能力靠前[2]且常用的gpt-4o模型配合 gptpdf 来进行实验 测试 gptpdf的封装度较高且依赖较少一次pip即可安装。 如果是使用openai服务的话只需填写上自己的key即可。如果自己有大模型部署的话也可改成自己的代理地址也可使用本地的视觉模型。 测试代码用的是单线程由于速度较慢远低于预期遂只拆出前30页进行测试。效果如下 可以看到问题还是比较多的比如幻觉问题 大模型幻觉出了一些奇怪的标题。 识别结构不稳定 此处本应是一个表格。 我使用的是gptpdf默认的prompt可能有优化空间。但是效果的确不尽如人意。 而且速度也是有够慢仅仅三十页运行了477.34s就算可以多线程单页16s的开销也使其很难用于快速文档解析场景。 小结 名称 访问地址 文本正确性 表格正确性 标题正确性 识别速度 成本 本地部署 便捷使用 gptpdf https://github.com/CosmosShadow/gptpdf 偶有差错 语义正确 格式错误 基本无误 16s/页 本地算力/gpt4o 约0.112/页含读取和输出 可行基于视觉大模型显存要求高 部署便捷 本次测试还有一些可以优化的点例如使用经过调试的提示词或者换用对中文视觉支持更好的大模型。但该方案整体上价格偏高单管道处理速度也较慢除非和一些基于大模型的预处理进行步骤合并否则不推荐使用。 基于本地OCR的识别方案举例 相对视觉大模型方案OCR方案则小巧且复杂其使用较小的模型各司其职并对结果进行拼接。其算力要求相对低的特点也使其适用于本地部署一个广受好评的解决方案是MinerU作为开源的数据提取工具目前在github上已经有24.3k stars. 测试 minerU的安装相对复杂些且如果要安装gpu版本需要额外的步骤。 该方案是完全开源的好消息是有些组件可以根据需求定制化更改。坏消息是可能有一些bug需要查issues自行修复。 解析速度还算过关在i7-27003090上运行平均4.52s每页。在不同阶段使用的算力硬件也不同多线程情况下速度或许会更快。 值得注意的是由于markdown格式表格不易于显示复杂表minerU的默认表格识别将会把表格转换为html格式从纯文本打开的话会像是这样 issues中有人给出了能转换为markdown格式的替代方案但是这同样需要额外的配置在此暂不讨论。 来看看效果 标题只有一层即是标题/不是标题。在表格识别能力上偏弱偶尔会出现例如 无限复读机 换页时文本错误/表格结构错误。 小结 名称 访问地址 文本正确性 表格正确性 标题正确性 识别速度 成本 本地部署 便捷使用 MinerU https://github.com/opendatalab/MinerU 基本正确 较差 只能简单区分是否为标题且识别准确性不高 正相关于硬件算力i7-27003090上4.52s/页 本地部署硬件折旧电力损耗 可本地部署 不甚便捷 大概是开源领域最好的ocr方案了如果有本地算力且文件保密要求高的话还是比较推荐的。默认的html格式个人认为有些鸡肋不能保证准确性同时也不利于大模型读取。先前提到的转换为markdown格式的替代方案我也尝试过能一定程度减少识别错误但会增加使用难度且还是有较多错误。 基于云端OCR的识别方案举例 如果项目没有本地部署需求那么云端OCR是个好方案价格相对大模型方法低廉许多且响应速度快。横评了一众中文OCR方案Textin的数据是最好的。 测试 速度奇快一份193页的pdf文件仅消耗了13s几乎是其余方案的百倍。 几乎没有错误只是偶有标题会被漏标 只有极复杂的表格才能使其产生小错误 原表格 识别后 小结 名称 访问地址 文本正确性 表格正确性 标题正确性 识别速度 成本 本地部署 便捷使用 TextIn https://www.textin.com/document/pdf_to_markdown 基本正确 基本正确 层级支持偶有错误 极快平均0.07s/页 0.05/页 可定制 非常便捷 综合下来是速度且效果最好的OCR方案了适用大多数场景非常推荐。 大结论 总表 名称 访问地址 文本正确性 表格正确性 标题正确性 识别速度 成本 本地部署 便捷使用 gptpdf https://github.com/CosmosShadow/gptpdf 偶有差错 语义正确 格式错误 基本无误 16s/页 可行基于视觉大模型显存要求高 可行 部署便捷 MinerU https://github.com/opendatalab/MinerU 基本正确 较差 只能简单区分是否为标题且识别准确性不高 正相关于硬件算力i7-27003090上4.52s/页 本地部署硬件折旧电力损耗 可本地部署 不甚便捷 TextIn https://www.textin.com/document/pdf_to_markdown 基本正确 基本正确 层级支持偶有错误 极快平均0.07s/页 详见官网 可定制 非常便捷 从效果上几种方法都在可接受的范围内。 视觉大模型方案成本高昂且可靠性较差尽管近来有较多类似功能的开源仓库但效果较差价格高速度慢因此不建议使用此类方案。 从部署成本来说如果有较强的本地算力用量大且成本有限建议使用本地OCR识别方案如果对精确度要求高资金充足则建议使用云端OCR的识别方案如果对精确度和数据安全都有较高的要求可以选择TextIn本地部署。 最后附上测试代码和结果也可以帮助你便捷完成批量转换。 mdfy_testhttps://github.com/RwandanMtGorilla/mdfy_test 参考文献 [1] OCR Hinders RAG: Evaluating the Cascading Impact of OCR on Retrieval-Augmented Generation https://arxiv.org/abs/2412.02592v1 [2] llm的基础OCR识字能力 CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy https://arxiv.org/pdf/2412.02210 [3] Document Parsing Unveiled: Techniques, Challenges,and Prospects for Structured Information Extraction 文档解析综述 https://arxiv.org/pdf/2410.21169 [4] A Comparative Study of PDF Parsing Tools Across Diverse Document Categories https://arxiv.org/pdf/2410.09871
http://www.tj-hxxt.cn/news/233110.html

相关文章:

  • 物流网站建设方案wordpress drupal joomla
  • 网站建设用net后缀如何商品网站怎么做的
  • 整站优化网站网络运营与推广
  • 网站建设 业务培训长春怎么做网站
  • 苏州网站排名电子商务网站推广实训心得
  • 网站变黑白代码权4网站怎么做
  • 东莞建外贸企业网站怎么在网站做谷歌广告
  • 低多边形生成网站网站仿做
  • 建一个网站需要多少钱?wordpress链接的index.php
  • 网站建设方案概念深圳公司查询
  • 网站经常修改好不好北京文化馆设计公司的参数
  • 常州网站建设推广平台杭州哪家做外贸网站好
  • 婚纱摄影网站设计案例海口网吧
  • 做网站 0元代理网络工程可以从事什么工作
  • 四川省住房和城乡建设厅网站首页网站空间哪个好
  • 做管理信息的网站吗天津网站大全
  • 东莞网站设计精英网站关键词优化排名怎么做
  • 做网站的难点一家专门做男人的网站
  • 免费做的英文网站小兽 wordpress主题
  • 网站两边广告代码学生个人静态网页制作过程
  • 上海建设行业的资质网站江苏营销型网站推广
  • 公众号做淘宝客接入手机网站域名查询ip
  • 平面设计相关的网站有哪些内容如何传图片做网站
  • 网站改版合同书品牌网站建设流程
  • 南阳做网站优化价格廊坊中小企业网站制作
  • 温州做网店的网站网页版是什么意思
  • 深圳便宜网站建设勒流网站建设制作
  • 网站动画效果怎么做网站建设制作软件叫啥
  • 简单设计网站做电脑租赁网站
  • 省级住房城乡建设主管部门网站长沙网站seo多少钱