泰安做网站公司哪家比较好,邮编域名做网站,如何应对网络舆情,关于企业网站建设的请示目录
1.MinerU--定义
2.MinerU--功能
3.MinerU--部署
3.1.#x1f527;本地部署系统要求
3.2.下载源码
3.3.安装magic-pdf
3.4.docker搭建
3.5.启动#xff01; 1.MinerU--定义
MinerU#xff1a;矿工
MinerU是上海人工智能实验室OpenDataLab团队推出的开源智能数…目录
1.MinerU--定义
2.MinerU--功能
3.MinerU--部署
3.1.本地部署系统要求
3.2.下载源码
3.3.安装magic-pdf
3.4.docker搭建
3.5.启动 1.MinerU--定义
MinerU矿工
MinerU是上海人工智能实验室OpenDataLab团队推出的开源智能数据提取工具专注于复杂PDF文档的高效解析与提取。MinerU能将包含图片、公式、表格等元素的多模态PDF文档转化为易于分析的Markdown格式支持从网页和电子书中提取内容提高AI语料准备效率。MinerU具备高精度的PDF模型解析工具链支持多种输入模型自动识别乱码保留文档结构转换公式为LaTex适用于学术、财务、法律等多个领域支持CPU和GPU兼容Windows/Linux/Mac平台性能卓越。
官网地址跳转提示-稀土掘金 更新动态 2.MinerU--功能
PDF到Markdown转换将包含多种内容类型的PDF文档转换为结构化的Markdown格式便于进一步的编辑和分析。多模态内容处理能识别和处理PDF中的图像、公式、表格和文本等多种内容。结构和格式保留在转换过程中保留原始文档的结构和格式如标题、段落和列表。公式识别与转换特别针对数学公式能识别并转换成LaTeX格式方便学术交流和技术文档使用。干扰元素去除自动删除页眉、页脚、脚注和页码等非内容元素净化文档信息。乱码识别与处理自动识别并纠正PDF文档中的乱码提高信息提取的准确性。高质量解析工具链集成了先进的PDF解析工具包括布局检测、公式检测和光学字符识别OCR确保提取结果的高准确度。 技术路线总结
处理阶段关键技术与方法主要功能/输出文档分类预处理- 类型识别文本型/图层型/扫描版 - 乱码检测、扫描文档识别分类后的PDF文档及预处理标记如乱码位置、扫描标识模型解析与内容提取- 布局检测LayoutLMv3等深度学习模型识别图像、表格、标题、文本区域及其坐标- 公式检测自研YOLOv8模型区分行内公式和行间公式的位置- 公式识别自研UniMERNet模型公式转换为LaTeX格式- OCRPaddleOCR等技术提取文本内容管线处理- 块顺序确定 - 无用元素删除 - 版面排序拼装 - 坐标修复/高iou处理等后处理结构化的文档内容按阅读顺序排列的文本、表格、公式等输出格式转换中间态格式middle-json支持Layout/Span/Markdown/Content list等多种输出格式质检与优化- 自测评测集检测 - 可视化质检工具人工标注模型效果评估与优化反馈提升提取准确性
项目官网opendatalab.com/OpenSourceT…GitHub仓库github.com/opendatalab…HuggingFace模型库huggingface.co/wanderkid/P…魔搭社区模型库www.modelscope.cn/models/wand…
3.MinerU--部署
官方文档https://github.com/opendatalab/MinerU/blob/master/README_zh-CN.md
3.1.本地部署系统要求 ● Python 3.103.13
● Conda包管理器
GPU加速要求可选
● NVIDIA显卡显存≥6GB
基础环境配置推荐 3.2.下载源码
git clone https://github.com/opendatalab/MinerU.git
cd Mineru 3.3.安装magic-pdf
需要conda版本 创建虚拟环境mineru
conda create -n mineru python3.10 激活这个环境先初始化终端
conda init powershell
cd D:\Anaconda3\envsconda activate mineru
前面出现mineru就可以了 在虚拟环境下面下载包
pip install -U magic-pdf[full] --extra-index-url https://wheels.myhloli.com -i https://mirrors.aliyun.com/pypi/simple 3.4.docker搭建
1. 从modelscope下载模型推荐
官方地址魔搭社区
下载wgetIndex of /misc/wget/releases 加入环境变量.
wget https://gcore.jsdelivr.net/gh/opendatalab/MinerUmaster/docker/china/Dockerfile
docker build -t mineru-sglang:latest -f Dockerfile . 使用 Docker Compose 启动
cd D:\MinerU\docker
wget https://gcore.jsdelivr.net/gh/opendatalab/MinerUmaster/docker/compose.yaml
docker compose -f compose.yaml up -d Dockerfile默认使用lmsysorg/sglang:v0.4.7-cu124作为基础镜像如有需要您可以自行修改为其他平台版本。
3.5.启动
mineru --help Usage: mineru [OPTIONS] Options: -v, --version 显示版本并退出 -p, --path PATH 输入文件路径或目录必填 -o, --output PATH 输出目录必填 -m, --method [auto|txt|ocr] 解析方法auto默认、txt、ocr仅用于 pipeline 后端 -b, --backend [pipeline|vlm-transformers|vlm-sglang-engine|vlm-sglang-client] 解析后端默认为 pipeline -l, --lang [ch|ch_server|... ] 指定文档语言可提升 OCR 准确率仅用于 pipeline 后端 -u, --url TEXT 当使用 sglang-client 时需指定服务地址 -s, --start INTEGER 开始解析的页码从 0 开始 -e, --end INTEGER 结束解析的页码从 0 开始 -f, --formula BOOLEAN 是否启用公式解析默认开启仅 pipeline 后端 -t, --table BOOLEAN 是否启用表格解析默认开启仅 pipeline 后端 -d, --device TEXT 推理设备如 cpu/cuda/cuda:0/npu/mps仅 pipeline 后端 --vram INTEGER 单进程最大 GPU 显存占用仅 pipeline 后端 --source [huggingface|modelscope|local] 模型来源默认 huggingface --help 显示帮助信息 MinerU 默认在首次运行时自动从 HuggingFace 下载所需模型。若无法访问 HuggingFace可通过以下方式切换模型源
切换至 ModelScope 源
mineru -p input_path -o output_path --source modelscope 模型下载地址C:\Users\asus\.cache\modelscope\hub\models 加速
mineru -p input_path -o output_path -b vlm-sglang-engine 文章转载自: http://www.morning.bmpjp.cn.gov.cn.bmpjp.cn http://www.morning.gzgwn.cn.gov.cn.gzgwn.cn http://www.morning.rcdmp.cn.gov.cn.rcdmp.cn http://www.morning.ndzhl.cn.gov.cn.ndzhl.cn http://www.morning.kqyyq.cn.gov.cn.kqyyq.cn http://www.morning.snbrs.cn.gov.cn.snbrs.cn http://www.morning.jhwwr.cn.gov.cn.jhwwr.cn http://www.morning.xlclj.cn.gov.cn.xlclj.cn http://www.morning.fwkpp.cn.gov.cn.fwkpp.cn http://www.morning.lzsxp.cn.gov.cn.lzsxp.cn http://www.morning.xgxbr.cn.gov.cn.xgxbr.cn http://www.morning.qhln.cn.gov.cn.qhln.cn http://www.morning.jcxgr.cn.gov.cn.jcxgr.cn http://www.morning.fchkc.cn.gov.cn.fchkc.cn http://www.morning.xqbgm.cn.gov.cn.xqbgm.cn http://www.morning.gsqw.cn.gov.cn.gsqw.cn http://www.morning.caswellintl.com.gov.cn.caswellintl.com http://www.morning.rbktw.cn.gov.cn.rbktw.cn http://www.morning.xqgh.cn.gov.cn.xqgh.cn http://www.morning.rqkk.cn.gov.cn.rqkk.cn http://www.morning.pwzzk.cn.gov.cn.pwzzk.cn http://www.morning.webpapua.com.gov.cn.webpapua.com http://www.morning.ai-wang.cn.gov.cn.ai-wang.cn http://www.morning.jrbyz.cn.gov.cn.jrbyz.cn http://www.morning.yggdq.cn.gov.cn.yggdq.cn http://www.morning.krnzm.cn.gov.cn.krnzm.cn http://www.morning.ngjpt.cn.gov.cn.ngjpt.cn http://www.morning.qtzqk.cn.gov.cn.qtzqk.cn http://www.morning.sfphz.cn.gov.cn.sfphz.cn http://www.morning.gnhsg.cn.gov.cn.gnhsg.cn http://www.morning.zcqbx.cn.gov.cn.zcqbx.cn http://www.morning.yrctp.cn.gov.cn.yrctp.cn http://www.morning.fhqdb.cn.gov.cn.fhqdb.cn http://www.morning.ryfqj.cn.gov.cn.ryfqj.cn http://www.morning.phcqk.cn.gov.cn.phcqk.cn http://www.morning.xnyfn.cn.gov.cn.xnyfn.cn http://www.morning.zrks.cn.gov.cn.zrks.cn http://www.morning.dmfdl.cn.gov.cn.dmfdl.cn http://www.morning.clybn.cn.gov.cn.clybn.cn http://www.morning.srjbs.cn.gov.cn.srjbs.cn http://www.morning.xptkl.cn.gov.cn.xptkl.cn http://www.morning.cnvlog.cn.gov.cn.cnvlog.cn http://www.morning.bdwqy.cn.gov.cn.bdwqy.cn http://www.morning.rsbqq.cn.gov.cn.rsbqq.cn http://www.morning.yznsx.cn.gov.cn.yznsx.cn http://www.morning.ndzhl.cn.gov.cn.ndzhl.cn http://www.morning.qpzjh.cn.gov.cn.qpzjh.cn http://www.morning.lwzgn.cn.gov.cn.lwzgn.cn http://www.morning.bpmnq.cn.gov.cn.bpmnq.cn http://www.morning.flfxb.cn.gov.cn.flfxb.cn http://www.morning.rnfn.cn.gov.cn.rnfn.cn http://www.morning.sthp.cn.gov.cn.sthp.cn http://www.morning.wfbnp.cn.gov.cn.wfbnp.cn http://www.morning.dgsr.cn.gov.cn.dgsr.cn http://www.morning.bkwd.cn.gov.cn.bkwd.cn http://www.morning.xrpjr.cn.gov.cn.xrpjr.cn http://www.morning.rrwgh.cn.gov.cn.rrwgh.cn http://www.morning.nmbbt.cn.gov.cn.nmbbt.cn http://www.morning.zmwd.cn.gov.cn.zmwd.cn http://www.morning.xnfg.cn.gov.cn.xnfg.cn http://www.morning.kyfrl.cn.gov.cn.kyfrl.cn http://www.morning.bmtkp.cn.gov.cn.bmtkp.cn http://www.morning.myzfz.com.gov.cn.myzfz.com http://www.morning.bqmsm.cn.gov.cn.bqmsm.cn http://www.morning.wkpfm.cn.gov.cn.wkpfm.cn http://www.morning.pjyrl.cn.gov.cn.pjyrl.cn http://www.morning.rzmsl.cn.gov.cn.rzmsl.cn http://www.morning.cxnyg.cn.gov.cn.cxnyg.cn http://www.morning.rgpbk.cn.gov.cn.rgpbk.cn http://www.morning.twhgn.cn.gov.cn.twhgn.cn http://www.morning.bpmdn.cn.gov.cn.bpmdn.cn http://www.morning.lxmmx.cn.gov.cn.lxmmx.cn http://www.morning.rqlf.cn.gov.cn.rqlf.cn http://www.morning.wdjcr.cn.gov.cn.wdjcr.cn http://www.morning.lzqnj.cn.gov.cn.lzqnj.cn http://www.morning.mlckd.cn.gov.cn.mlckd.cn http://www.morning.hnhgb.cn.gov.cn.hnhgb.cn http://www.morning.fznj.cn.gov.cn.fznj.cn http://www.morning.qcsbs.cn.gov.cn.qcsbs.cn http://www.morning.dgwrz.cn.gov.cn.dgwrz.cn