深圳那个网站建设,北京室内设计公司前十名,WordPress中设置域名的数据库在哪,交互ui培训❤️ 如果你也关注大模型与 AI 的发展现状#xff0c;且对大模型应用开发非常感兴趣#xff0c;我会快速跟你分享最新的感兴趣的 AI 应用和热点信息#xff0c;也会不定期分享自己的想法和开源实例#xff0c;欢迎关注我哦#xff01;
#x1f966; 微信公众号#xff…❤️ 如果你也关注大模型与 AI 的发展现状且对大模型应用开发非常感兴趣我会快速跟你分享最新的感兴趣的 AI 应用和热点信息也会不定期分享自己的想法和开源实例欢迎关注我哦 微信公众号搜一搜蚝油菜花 快速阅读
Docling 是一个开源的文档解析工具支持多种格式的文档解析和转换。支持高级 PDF 理解、OCR 功能并且易于与其他 AI 工具集成。提供简洁的命令行界面方便用户快速处理文档。
正文附运行示例
Docling 是什么 Docling 是一个开源的文档解析和转换工具能高效地将多种格式的文档包括 PDF、DOCX、PPTX、图片和 HTML解析导出为 Markdown 或 JSON 格式。Docling 支持高级 PDF 理解、OCR 功能能与 LlamaIndex 和 LangChain 等工具集成增强文档的检索和问答能力。Docling 提供一个简洁的命令行界面方便用户快速处理文档。
Docling 的主要功能
多格式支持Docling 能读取和解析多种流行的文档格式包括 PDF、DOCX、PPTX、图像、HTML、AsciiDoc 和 Markdown支持将文档导出为 Markdown 和 JSON 格式。高级 PDF 理解Docling 具备对 PDF 文档的高级理解能力包括页面布局、阅读顺序和表格结构的识别。统一文档表示基于DoclingDocument格式Docling 提供一个统一且富有表现力的文档表示格式表达文档中的文本、表格、图片等内容及文档的层次结构。OCR 支持Docling 支持光学字符识别OCR能识别扫描 PDF 中的文字让 Docling 能处理扫描或手写的文档。工具集成Docling 易于与 LlamaIndex 和 LangChain 等工具集成为 RAGRetrieval-Augmented Generation/QAQuestion Answering应用提供支持。
Docling 的技术原理
文档解析Docling 用专门的解析器读取和解析不同格式的文档将文档内容转换为内部数据结构。布局和结构识别对于 PDF 等格式Docling 基于布局分析技术识别页面上的元素位置和阅读顺序及表格和文本的结构。内容提取Docling 从文档中提取文本、表格、图片等元素转换为统一的DoclingDocument格式。OCR 技术对于图像或扫描的 PDF 文档Docling 用 OCR 技术将图像中的文字转换为机器可读的文本。数据结构和 JSON 指针DoclingDocument用 JSON 指针引用父项和子项构建文档的层次结构和内容关系。输出格式化将解析后的数据结构格式化为 Markdown 或 JSON便于进一步的处理和分析。
如何运行 Docling
首先安装 Docling
pip install docling接下来使用如下代码示例将文档转换为 Markdown 格式
from docling.document_converter import DocumentConvertersource https://arxiv.org/pdf/2408.09869 # 可以是本地路径或URL
converter DocumentConverter()
result converter.convert(source)
print(result.document.export_to_markdown()) # 输出: ## Docling Technical Report[...]资源
项目官网https://ds4sd.github.io/docling/GitHub 仓库https://github.com/DS4SD/doclingarXiv 技术论文https://arxiv.org/pdf/2408.09869 ❤️ 如果你也关注大模型与 AI 的发展现状且对大模型应用开发非常感兴趣我会快速跟你分享最新的感兴趣的 AI 应用和热点信息也会不定期分享自己的想法和开源实例欢迎关注我哦 微信公众号搜一搜蚝油菜花