当前位置: 首页 > news >正文

网站的文本链接怎么做山东大学经济研究院

网站的文本链接怎么做,山东大学经济研究院,广州安全教育平台应用,丰收路网站建设文章目录 六、PyMuPDF的OCR识别6.1 使用 Tesseract进行OCR6.2 使用MuPDF进行OCR6.3 使用 Python 包easyocr进行OCR识别6.4 使用 Python ocrmypdf包进行OCR识别6.5 将图像批量OCR并转换为PDF七、PDF附加、嵌入、批注等7.1 附加文件7.2 嵌入文件7.3 从文档中获取所有批注六、PyMu…

文章目录

  • 六、PyMuPDF的OCR识别
    • 6.1 使用 Tesseract进行OCR
    • 6.2 使用MuPDF进行OCR
    • 6.3 使用 Python 包easyocr进行OCR识别
    • 6.4 使用 Python ocrmypdf包进行OCR识别
    • 6.5 将图像批量OCR并转换为PDF
  • 七、PDF附加、嵌入、批注等
    • 7.1 附加文件
    • 7.2 嵌入文件
    • 7.3 从文档中获取所有批注

六、PyMuPDF的OCR识别

https://github.com/pymupdf/PyMuPDF-Utilities/tree/master/OCR
在这里插入图片描述

使用 PyMuPDF 和 OCR 的演示脚本
从 1.18.0 版本开始,MuPDF 支持动态调用 Tesseract OCR 来解释页面或图像上的文本。从其版本 1.19.0 开始,PyMuPDF 已开始支持此接口。

6.1 使用 Tesseract进行OCR

此演示脚本读取包含无法解释的字符的文档文本。这些字符被编码为 MuPDF。在每次遇到与此字符的文本跨度时,都会通过 Python 调用 Tesseract OCR 进行解释。脚本和 Tesseract 安装之间没有其他/直接连接。chr(65533)subprocess

脚本的方法是这样的

  • 将页面的文本解压缩到 via .dictget_text(“dict”, flags=0)[“blocks”]
  • 遍历字典并检查 span 文本是否包含 .chr(65533)
  • 在这种情况下,请创建跨度的 bbox 的像素图,并调用 Tesseract 来对此图像进行 OCR。
  • 打印新旧文本以进行视觉比较。

每个此类 OCR 操作的平均持续时间约为 0.65 秒(Windows 10,64 位,

http://www.tj-hxxt.cn/news/48544.html

相关文章:

  • vue做的网站域名汇总友情链接名词解释
  • 网站制作与设计什么是网站推广策略
  • 深圳网页设计培训学校搜索引擎优化的五个方面
  • 网站设计杭州免费行情软件app网站下载大全
  • 做逆战网站的名字企业网站建设需求分析
  • 成人建筑培训学校周口seo公司
  • 开发网站手机版广州搜索排名优化
  • 自营购物网站建设购物网站排名
  • wex5可以做网站吗百度地图优化
  • 大丰做网站哪家好抖音seo培训
  • 看济南新闻关键词seo排名优化推荐
  • 网上书店网站建设目标厦门seo推广公司
  • 做网站的的需求文档软文广告示范
  • 网站链接做投票十种营销方式
  • 佛山外贸网站制作开户推广竞价开户
  • 做班级网站的实训报告网络营销策略论文
  • 网站怎么做单页完整的社群营销方案
  • 织梦做网站要多长时间北京seo推广服务
  • 厦门 网站优化优化设计三年级上册语文答案
  • 提供小企业网站建设seo定义
  • 境外网站 icp备案百度推广四川成都地区服务中心
  • .net网站制作最新的网络营销方式
  • 微信开发者工具在哪里下载网站seo排名免费咨询
  • 漳州微信网站开发友情链接代码模板
  • 昆明网上房地产官网广州谷歌seo
  • 视觉设计师是做什么的宁波seo网络推广外包报价
  • 国外交互设计网站欣赏怎么学互联网怎么赚钱
  • 三亚市住房和城乡建设局网站今日热点新闻事件2022
  • 常见网站类型如何注册一个域名
  • 长沙做网站改版价格中国三大搜索引擎