当前位置: 首页 > news >正文 聊城做网站多少钱长沙有哪些app开发公司 news 2025/10/23 18:50:34 聊城做网站多少钱,长沙有哪些app开发公司,绵阳网站建设成都网站设计,网站开发会计处理文档处理中不可避免的遇到表格#xff0c;关于表格的处理问题#xff0c;整理如下#xff0c;供各位参考。 问题描述 RAG中#xff0c;对上传文档完成版式处理后进行切片#xff0c;切片前如果识别文档元素是表格#xff0c;那么则需要对表格进行处理。一般而言#x…文档处理中不可避免的遇到表格关于表格的处理问题整理如下供各位参考。 问题描述 RAG中对上传文档完成版式处理后进行切片切片前如果识别文档元素是表格那么则需要对表格进行处理。一般而言表格处理分成三个部分 TD任务Table Detection表格识别TSR任务Table Structure Recognition表格结构识别TCD任务Table Content Recognition表格内容识别 表格检测任务是识别文档中的表格元素表格结构识别则是理解表格的布局和结构而表格内容识别则是提取表格中的具体数据。这些任务共同构成了表格处理的完整流程。目前主要的思路是通过识别到表格将表格转化为结构化文本信息比如HTML或者Markdown再利用LLM对结构化文本的泛化能力进行分析和处理。 然而在现实世界的一些场景中获取高质量的文本表格表示可能比较困难而表格图像则更容易获取。因此如何直接使用直观的视觉信息来理解表格是一个关键且迫切的挑战。 多模态表格理解的思路 多模态表格理解指的是结合文本、图像等多种模态信息来理解表格内容。在文本表格表示难以获取的情况下如何利用直观的视觉信息来理解表格是一个很好的研究方向。为了解决多模态表格理解问题构建了一个名为MMTab的大规模数据集涵盖了广泛的表格图像、指令和任任务为多模态表格理解提供了丰富的实验场景。MMTab数据集的设计思路和数据构造方式为研究者提供了新的视角和工具以应对多模态表格理解中的各种挑战。 《Multimodal Table Understanding》代码放在https://github.com/SpursGoZmy/Table-LLaVA 1、其数据构造的方式 比较有趣的是做的数据增强方案 其一表格级别增强Table-level augmentations现实世界的表格具有不同的结构和样式。为了使模型能够处理各种样式的表格设计了脚本来渲染具有三种不同样式的表格图像网页风格Web-page占比70.8%、Excel风格占比19.4%和Markdown风格占比9.8%。还考虑细粒度的调整如字体类型和单元格颜色。 其二指令级别增强Instruction-level augmentations用户对于同一任务的指令可能会有所不同。为了提高模型对这种变化的鲁棒性作者使用GPT-4生成新的指令模板和关于JSON输出格式的描述基于几个手动注释的示例进行少量样本few-shot学习。生成的指令模板如果包含语法错误或与原始任务偏离将被过滤掉。 其三任务级别增强Task-level augmentations尽管收集的14个公共数据集突出了9个学术表格任务这些任务需要基于表格的推理能力但现有的多模态大型语言模型MLLMs是否真的理解基本的表格结构仍然是一个问题。 为了进一步加强MLLMs对基本表格结构的理解能力设计了6个表格结构理解任务例如表格大小检测TSD任务。 除了上述策略作者还将同一表格的单轮样本结合起来构成了37K多轮对话样本。 2、数据的具体统计包括用于微调的数据集以及测试 MMTab数据集包括150K样本用于预训练232K样本用于指令微调以及45K和4K样本分别用于内部和外部评估。 数据集中包含了105K张表格图像这些图像覆盖了广泛结构例如具有平坦结构的简单表格以及具有合并单元格和分层标题的复杂表格。数据集中的表格图像不仅结构多样还具有不同的风格网页、Excel、Markdown表格和来自不同领域的数据如维基百科和财务报告。 3、benchmark的计算方式 4、进行对应的微调路线 论文中开发了一个通用的表格MLLM Table-LLaVA使用MMTab-instruct数据集该数据集包含了多种与表格相关的任务例如问题回答TQA、事实验证TFV、文本生成T2T等模型基于之前提出的LLaVA-1.5模型。 总结 多模态表格处理是一种集成了视觉、文本和结构化数据等多种信息源的技术旨在更全面地理解和解析表格内容。随着深度学习、大型语言模型等技术的不断进步多模态表格理解的性能将得到显著提升。 1、多模态表格处理需要强大的视觉识别能力以识别和解析表格的视觉布局包括行列、单元格合并等。涉及到图像处理和模式识别技术如使用深度学习模型来检测表格边界和单元格结构。 2、文本理解是多模态处理的另一关键方面。表格中的文本信息需要通过自然语言处理技术来提取和理解包括实体识别、关系抽取和语义分析等以捕捉表格中的数据和它们之间的联系。 3、结构化数据的整合对于多模态表格处理同样重要。将视觉识别的表格结构与文本内容相结合转化为结构化的数据库格式可以进一步促进数据的分析和应用。 4、多模态表格处理还应考虑到数据的多样性和复杂性。不同的表格可能来自不同的来源具有不同的格式和风格。因此处理系统需要具备高度的灵活性和适应性以应对各种不同的输入。 此外随着数据集的不断丰富和完善模型的泛化能力和适应性也将得到加强。多模态表格处理的未来发展方向可能包括更深层次的语义理解、更智能的数据融合策略以及更广泛的应用场景如自动化报告生成、智能数据分析等。 参考资料 文档表格结构识别技术与数据总结兼看多模态表格理解基准设计及数据构建思路 《A Study on Reproducibility and Replicability of Table Structure Recognition Methods》 《Deep Learning for Table Detection and Structure Recognition: A Survey》 《TableVLM: Multi-modal Pre-training for Table Structure Recognition》 《Improving Table Structure Recognition with Visual-Alignment Sequential Coordinate Modeling》 文章转载自: http://www.morning.zzaxr.cn.gov.cn.zzaxr.cn http://www.morning.nkllb.cn.gov.cn.nkllb.cn http://www.morning.qyglt.cn.gov.cn.qyglt.cn http://www.morning.hyxwh.cn.gov.cn.hyxwh.cn http://www.morning.kjawz.cn.gov.cn.kjawz.cn http://www.morning.fqssx.cn.gov.cn.fqssx.cn http://www.morning.czqqy.cn.gov.cn.czqqy.cn http://www.morning.xbxks.cn.gov.cn.xbxks.cn http://www.morning.jxltk.cn.gov.cn.jxltk.cn http://www.morning.srndk.cn.gov.cn.srndk.cn http://www.morning.qcnk.cn.gov.cn.qcnk.cn http://www.morning.qbxdt.cn.gov.cn.qbxdt.cn http://www.morning.hryhq.cn.gov.cn.hryhq.cn http://www.morning.lhrxq.cn.gov.cn.lhrxq.cn http://www.morning.nyjgm.cn.gov.cn.nyjgm.cn http://www.morning.egmux.cn.gov.cn.egmux.cn http://www.morning.dmthy.cn.gov.cn.dmthy.cn http://www.morning.trqhd.cn.gov.cn.trqhd.cn http://www.morning.msfqt.cn.gov.cn.msfqt.cn http://www.morning.gkjnz.cn.gov.cn.gkjnz.cn http://www.morning.mdgb.cn.gov.cn.mdgb.cn http://www.morning.qxxj.cn.gov.cn.qxxj.cn http://www.morning.jqpyq.cn.gov.cn.jqpyq.cn http://www.morning.bfcxf.cn.gov.cn.bfcxf.cn http://www.morning.skrxp.cn.gov.cn.skrxp.cn http://www.morning.qshxh.cn.gov.cn.qshxh.cn http://www.morning.dbxss.cn.gov.cn.dbxss.cn http://www.morning.lnsnyc.com.gov.cn.lnsnyc.com http://www.morning.yhljc.cn.gov.cn.yhljc.cn http://www.morning.zsrdp.cn.gov.cn.zsrdp.cn http://www.morning.kryr.cn.gov.cn.kryr.cn http://www.morning.wqsjx.cn.gov.cn.wqsjx.cn http://www.morning.gwmjy.cn.gov.cn.gwmjy.cn http://www.morning.sbkb.cn.gov.cn.sbkb.cn http://www.morning.mftzm.cn.gov.cn.mftzm.cn http://www.morning.pjbhk.cn.gov.cn.pjbhk.cn http://www.morning.jwncx.cn.gov.cn.jwncx.cn http://www.morning.lcwhn.cn.gov.cn.lcwhn.cn http://www.morning.mtqqx.cn.gov.cn.mtqqx.cn http://www.morning.ycwym.cn.gov.cn.ycwym.cn http://www.morning.srwny.cn.gov.cn.srwny.cn http://www.morning.qkrgk.cn.gov.cn.qkrgk.cn http://www.morning.hxbps.cn.gov.cn.hxbps.cn http://www.morning.hydkd.cn.gov.cn.hydkd.cn http://www.morning.nkddq.cn.gov.cn.nkddq.cn http://www.morning.rdnjc.cn.gov.cn.rdnjc.cn http://www.morning.ntgjm.cn.gov.cn.ntgjm.cn http://www.morning.wdykx.cn.gov.cn.wdykx.cn http://www.morning.jjtwh.cn.gov.cn.jjtwh.cn http://www.morning.sqqds.cn.gov.cn.sqqds.cn http://www.morning.fmznd.cn.gov.cn.fmznd.cn http://www.morning.gwmjy.cn.gov.cn.gwmjy.cn http://www.morning.gppqf.cn.gov.cn.gppqf.cn http://www.morning.kybyf.cn.gov.cn.kybyf.cn http://www.morning.cypln.cn.gov.cn.cypln.cn http://www.morning.tsdqr.cn.gov.cn.tsdqr.cn http://www.morning.mwqbp.cn.gov.cn.mwqbp.cn http://www.morning.gmztd.cn.gov.cn.gmztd.cn http://www.morning.ttshf.cn.gov.cn.ttshf.cn http://www.morning.dpnhs.cn.gov.cn.dpnhs.cn http://www.morning.bbmx.cn.gov.cn.bbmx.cn http://www.morning.qddtd.cn.gov.cn.qddtd.cn http://www.morning.qyfqx.cn.gov.cn.qyfqx.cn http://www.morning.ypnxq.cn.gov.cn.ypnxq.cn http://www.morning.cgdyx.cn.gov.cn.cgdyx.cn http://www.morning.pzjrm.cn.gov.cn.pzjrm.cn http://www.morning.fyzsq.cn.gov.cn.fyzsq.cn http://www.morning.knsmh.cn.gov.cn.knsmh.cn http://www.morning.cgdyx.cn.gov.cn.cgdyx.cn http://www.morning.lwqst.cn.gov.cn.lwqst.cn http://www.morning.dbylp.cn.gov.cn.dbylp.cn http://www.morning.pdmsj.cn.gov.cn.pdmsj.cn http://www.morning.slnz.cn.gov.cn.slnz.cn http://www.morning.wttzp.cn.gov.cn.wttzp.cn http://www.morning.xdqrz.cn.gov.cn.xdqrz.cn http://www.morning.mxcgf.cn.gov.cn.mxcgf.cn http://www.morning.bqwrn.cn.gov.cn.bqwrn.cn http://www.morning.swwpl.cn.gov.cn.swwpl.cn http://www.morning.xcbnc.cn.gov.cn.xcbnc.cn http://www.morning.wlgpz.cn.gov.cn.wlgpz.cn 查看全文 http://www.tj-hxxt.cn/news/243248.html 相关文章: 南京秦淮区建设局网站网站 导航条 做电商要不要公司网站制作网站付费软件 21天网站建设实录怎么制作动态的网站 在哪个网站找装修公司高端网站建设郑州 如何用ps做网站导航条图书馆网站建设方案 用flash做网站超链接北京服饰电商网站建设 注册公司网站开发建设营业项目wordpress图片二级域名 行业资讯平台网站建设中国电商网站排行榜 城阳网站建设电话台州做微网站 域名网络的解析网站wordpress 响应式 企业网站 购物网站设计方案干部网络培训平台 井研移动网站建设华为品牌vi设计 企业网站策划过程网站制作的知识 兴山县铁路建设协调指挥部网站专业的网络推广 网站添加合适图片asp网站免费模板 网站设计用什么做千万不要签劳务外包合同 html5特效网站源码wordpress 调用侧边栏 国际互联网网站seo综合查询是什么 wordpress后台管理地址更改网站改版优化 网站没做好可以备案吗wordpress代码优化插件 西昌建设工程招聘信息网站亚马逊如何做折扣网站的营销 信用卡在哪些网站上做推广北京移动端网站开发 程序员自己做网站赚钱免费源码html网站 张家口万全区建设网站科技强国向秦始皇直播四大发明 电商网站开发合同企业主页制作方法 泳衣服饰东莞网站建设唐山建设网站公司 怎样做浏览的网站不被发现河源新闻最新消息 计算机科学与技术网站哈尔滨市建设网 小型IT网站开发公司前端微信公众号开发 淘宝客网站是怎么做的做tcf法语听力题的网站