盗用别的公司网站模块,中国外协加工网最新订单,中国商业网官网,泰安网站seo⭐️⭐️⭐️⭐️⭐️欢迎来到我的博客⭐️⭐️⭐️⭐️⭐️ #x1f434;作者#xff1a;秋无之地 #x1f434;简介#xff1a;CSDN爬虫、后端、大数据、人工智能领域创作者。目前从事python全栈、爬虫和人工智能等相关工作#xff0c;主要擅长领域有#xff1a;python… ⭐️⭐️⭐️⭐️⭐️欢迎来到我的博客⭐️⭐️⭐️⭐️⭐️ 作者秋无之地 简介CSDN爬虫、后端、大数据、人工智能领域创作者。目前从事python全栈、爬虫和人工智能等相关工作主要擅长领域有python全栈、爬虫、大数据开发、人工智能等。 欢迎小伙伴们点赞、收藏⭐️、留言、关注关注必回关 前言:
上一篇讲到采用AI技术Docling实现高效地解析和转换多种文档格式。无论是PDF、Word文档还是PPT、Excel表格Docling都能够高效地解析和转换多种文档格式将文档内容以HTML、Markdown和JSON等格式呈现并支持OCR识别和表格结构的解析。
今天就来“初窥强大”AI识别技术实现图像转文字OCR技术。 一、OCR技术的介绍
1、OCR技术是个啥
OCROptical Character Recognition光学字符识别技术是一种将图像中的文字转换为计算机可编辑文本格式的技术。
OCR 技术凭借其高效、准确的文字识别能力在众多行业和领域都有广泛应用以下是一些主要的方面。 金融行业 票据处理银行等金融机构每天会处理大量的票据如支票、汇票、存单等。OCR 技术可快速准确地识别票据上的文字信息包括金额、账号、日期等实现票据处理的自动化提高处理效率降低人工录入的错误率。信用卡审批在信用卡申请审批过程中OCR 技术可以识别申请人提交的身份证、工作证明等文件上的文字信息快速提取关键数据辅助银行进行风险评估和审批决策。 医疗行业 病历管理医院的病历资料通常包含大量的文字信息使用 OCR 技术可以将纸质病历快速转换为电子文本方便医生查阅、检索和分析患者的病史、诊断结果等信息提高医疗服务的效率和质量。医疗报告解读对于一些医学检验报告、影像诊断报告等OCR 技术能够识别其中的文字内容结合自然语言处理技术帮助医生更快速地理解报告信息做出准确的诊断。 教育行业 试卷批改在考试阅卷过程中OCR 技术可以识别学生答题卡上的答案信息实现客观题的自动批改提高阅卷效率。同时对于一些手写的主观题也可以通过 OCR 技术进行文字识别辅助教师进行批改。数字化教学资源建设将纸质教材、教案、文献资料等转化为电子文本便于制作数字化教学资源如电子课件、在线课程等方便学生学习和教师教学。 物流行业 快递面单识别快递包裹上的面单包含了收件人、寄件人、地址等重要信息OCR 技术可以快速准确地识别这些信息实现包裹信息的自动化录入和跟踪提高物流配送的效率和准确性。物流单据处理在物流运输过程中涉及到各种单据如托运单、提货单等。OCR 技术可以对这些单据上的文字信息进行识别和提取实现物流信息的数字化管理方便物流企业进行业务调度和跟踪。 2、技术原理
图像预处理对输入的图像进行处理包括灰度化、降噪、二值化、倾斜校正等操作以提高图像的质量便于后续的字符分割和识别。例如通过灰度化将彩色图像转换为黑白图像减少数据量利用降噪算法去除图像中的噪声点使文字更加清晰。字符分割尝试将文本中的字符分割开对于手写文字或不规则排列的文字这一步尤为重要。方法包括基于字符间距、笔画连接等特征进行分割。比如在识别手写体时根据笔画的走势和间隔将每个字符准确地分离出来。特征提取提取字符的特征如笔画特征、轮廓特征、结构特征等。这些特征是识别字符的关键依据不同的字体、字号可能具有不同的特征组合。以汉字为例可能会提取笔画的端点、交叉点、弯曲度等特征。分类识别将提取的特征与预定义字库对比以找出最匹配的字符。常用的分类方法包括模板匹配、神经网络、支持向量机等。例如模板匹配就是将待识别字符与字库中的模板进行逐一比对计算相似度选择相似度最高的模板对应的字符作为识别结果。后处理对识别结果进行校正、修补和质量评估等处理。如通过语言模型、上下文信息来纠正可能出现的识别错误提高识别的准确性和可靠性。比如在一段英文文本中根据语法和词汇搭配对识别出的单词进行校正。 3、技术应用
文档处理能快速将纸质文档中的文字转换为电子文本便于编辑、存储和检索提高办公效率。如将大量的纸质合同、文件转换为电子文档方便进行文字搜索和内容修改。数字图书馆把扫描的图书、文献等转化为可搜索的文本既方便读者查阅也有利于图书资源的长期保存和传播。车牌识别在智能交通系统中用于识别车辆号牌实现自动收费、违章监控等功能。通过对车牌图像的处理和字符识别快速准确地获取车牌号码信息。身份证识别在公安、银行等领域快速识别身份证上的文字信息用于身份验证和信息录入提高业务办理的效率和准确性。图像识别在处理包含文字的图像时能够提取其中的文字信息为图像分析和理解提供支持。比如在分析广告图片、宣传海报等时提取其中的文字内容进行语义分析。 二、OCR技术的接入
1、选择第三方OCR服务
看到这里或许有人疑惑为啥要接入第三方的服务自己安装训练不可以吗
可以但效率太低而且第三方的服务已经很成熟而且有些是免费试用的或有一定试用额度的。
常用的第三方OCR服务有如下几种 阿里云的OCR服务 百度的OCR服务 华为云的OCR服务 基于识别准确度、使用成本和接入复杂度优先选择阿里云的OCR服务。 2、开通服务
在阿里云控制台——搜索“文字识别”——服务管理与开通点击开通结果如下
统一识别有每月200次的额度通用票证识别免费试用 3、根据开发文档安装SDK
打开“通用票证识别”的文档RecognizeGeneralStructure - 通用票证抽取_文字识别(OCR)-阿里云帮助中心 点击“调试页面”可以看到SDK的python示例 安装SDK命令
pip install alibabacloud_ocr_api202107073.1.24、连接服务
staticmethod
def create_client() - ocr_api20210707Client:使用AKSK初始化账号Clientreturn: Clientthrows Exception# 工程代码泄露可能会导致 AccessKey 泄露并威胁账号下所有资源的安全性。以下代码示例仅供参考。# 建议使用更安全的 STS 方式更多鉴权访问方式请参见https://help.aliyun.com/document_detail/378659.html。config open_api_models.Config(# 必填请确保代码运行环境设置了环境变量 ALIBABA_CLOUD_ACCESS_KEY_ID。,access_key_idxxx,# 必填请确保代码运行环境设置了环境变量 ALIBABA_CLOUD_ACCESS_KEY_SECRET。,access_key_secretxxx)# Endpoint 请参考 https://api.aliyun.com/product/ocr-apiconfig.endpoint focr-api.cn-hangzhou.aliyuncs.comreturn ocr_api20210707Client(config)
5、调用函数
staticmethod
def main(img_link):client aliyunOcrImgPiao.create_client()recognize_general_structure_request ocr_api_20210707_models.RecognizeGeneralStructureRequest(urlimg_link,keys[统一社会信用代码,名称类型,公司类型,注册资本,住所,成立日期,法定代表人])runtime util_models.RuntimeOptions()img_info {}try:# 复制代码运行请自行打印 API 的返回值resp client.recognize_general_structure_with_options(recognize_general_structure_request, runtime)# print(resp.body.data)for i in resp.body.data.sub_images:img_info i.kv_info.databreakexcept Exception as error:# 此处仅做打印展示请谨慎对待异常处理在工程项目中切勿直接忽略异常。# 错误 messageprint(error)# 诊断地址print(error)UtilClient.assert_as_string(error)#更改keynew_info {creditCode:img_info[统一社会信用代码],legalPerson:img_info[法定代表人],companyName: img_info[名称类型],companyType:img_info[公司类型],businessAddress:img_info[住所],RegistrationDate:img_info[成立日期],registeredCapital:img_info[注册资本],}print(输出结果,new_info)return new_info三、完整代码
# -*- coding: utf-8 -*-
import os
import sysfrom typing import Listfrom alibabacloud_ocr_api20210707.client import Client as ocr_api20210707Client
from alibabacloud_tea_openapi import models as open_api_models
from alibabacloud_ocr_api20210707 import models as ocr_api_20210707_models
from alibabacloud_tea_util import models as util_models
from alibabacloud_tea_util.client import Client as UtilClientclass aliyunOcrImgPiao:阿里云票证OCR识别不限额度def __init__(self):passstaticmethoddef create_client() - ocr_api20210707Client:使用AKSK初始化账号Clientreturn: Clientthrows Exception# 工程代码泄露可能会导致 AccessKey 泄露并威胁账号下所有资源的安全性。以下代码示例仅供参考。# 建议使用更安全的 STS 方式更多鉴权访问方式请参见https://help.aliyun.com/document_detail/378659.html。config open_api_models.Config(# 必填请确保代码运行环境设置了环境变量 ALIBABA_CLOUD_ACCESS_KEY_ID。,access_key_idxxx,# 必填请确保代码运行环境设置了环境变量 ALIBABA_CLOUD_ACCESS_KEY_SECRET。,access_key_secretxxx)# Endpoint 请参考 https://api.aliyun.com/product/ocr-apiconfig.endpoint focr-api.cn-hangzhou.aliyuncs.comreturn ocr_api20210707Client(config)staticmethoddef main(img_link):client aliyunOcrImgPiao.create_client()recognize_general_structure_request ocr_api_20210707_models.RecognizeGeneralStructureRequest(urlimg_link,keys[统一社会信用代码,名称类型,公司类型,注册资本,住所,成立日期,法定代表人])runtime util_models.RuntimeOptions()img_info {}try:# 复制代码运行请自行打印 API 的返回值resp client.recognize_general_structure_with_options(recognize_general_structure_request, runtime)# print(resp.body.data)for i in resp.body.data.sub_images:img_info i.kv_info.databreakexcept Exception as error:# 此处仅做打印展示请谨慎对待异常处理在工程项目中切勿直接忽略异常。# 错误 messageprint(error)# 诊断地址print(error)UtilClient.assert_as_string(error)#更改keynew_info {creditCode:img_info[统一社会信用代码],legalPerson:img_info[法定代表人],companyName: img_info[名称类型],companyType:img_info[公司类型],businessAddress:img_info[住所],RegistrationDate:img_info[成立日期],registeredCapital:img_info[注册资本],}print(输出结果,new_info)return new_infoif __name__ __main__:obj_ aliyunOcrImgPiao()obj_.main(img_linkhttps://xxx.com/123.png)版权声明
本文章版权归作者所有未经作者允许禁止任何转载、采集作者保留一切追究的权利。
文章转载自: http://www.morning.tsnwf.cn.gov.cn.tsnwf.cn http://www.morning.zdfrg.cn.gov.cn.zdfrg.cn http://www.morning.tdnbw.cn.gov.cn.tdnbw.cn http://www.morning.madamli.com.gov.cn.madamli.com http://www.morning.rykw.cn.gov.cn.rykw.cn http://www.morning.bpmfg.cn.gov.cn.bpmfg.cn http://www.morning.sltfk.cn.gov.cn.sltfk.cn http://www.morning.rjznm.cn.gov.cn.rjznm.cn http://www.morning.cbnxq.cn.gov.cn.cbnxq.cn http://www.morning.dtzsm.cn.gov.cn.dtzsm.cn http://www.morning.fwdln.cn.gov.cn.fwdln.cn http://www.morning.ppwdh.cn.gov.cn.ppwdh.cn http://www.morning.tkrpt.cn.gov.cn.tkrpt.cn http://www.morning.kqfdrqb.cn.gov.cn.kqfdrqb.cn http://www.morning.ylljn.cn.gov.cn.ylljn.cn http://www.morning.tgpgx.cn.gov.cn.tgpgx.cn http://www.morning.qczjc.cn.gov.cn.qczjc.cn http://www.morning.fdrb.cn.gov.cn.fdrb.cn http://www.morning.tymnr.cn.gov.cn.tymnr.cn http://www.morning.wkkqw.cn.gov.cn.wkkqw.cn http://www.morning.xfrqf.cn.gov.cn.xfrqf.cn http://www.morning.vuref.cn.gov.cn.vuref.cn http://www.morning.qtkfp.cn.gov.cn.qtkfp.cn http://www.morning.kwfnt.cn.gov.cn.kwfnt.cn http://www.morning.yfqhc.cn.gov.cn.yfqhc.cn http://www.morning.ycwym.cn.gov.cn.ycwym.cn http://www.morning.prjty.cn.gov.cn.prjty.cn http://www.morning.tkrwm.cn.gov.cn.tkrwm.cn http://www.morning.skql.cn.gov.cn.skql.cn http://www.morning.wjhdn.cn.gov.cn.wjhdn.cn http://www.morning.dpzcc.cn.gov.cn.dpzcc.cn http://www.morning.xnltz.cn.gov.cn.xnltz.cn http://www.morning.pqcrz.cn.gov.cn.pqcrz.cn http://www.morning.nqmdc.cn.gov.cn.nqmdc.cn http://www.morning.kjtdy.cn.gov.cn.kjtdy.cn http://www.morning.zxzgr.cn.gov.cn.zxzgr.cn http://www.morning.nmtyx.cn.gov.cn.nmtyx.cn http://www.morning.wknjy.cn.gov.cn.wknjy.cn http://www.morning.nnqrb.cn.gov.cn.nnqrb.cn http://www.morning.rbnnq.cn.gov.cn.rbnnq.cn http://www.morning.sskns.cn.gov.cn.sskns.cn http://www.morning.kskpx.cn.gov.cn.kskpx.cn http://www.morning.ffksr.cn.gov.cn.ffksr.cn http://www.morning.ghqyr.cn.gov.cn.ghqyr.cn http://www.morning.jxcwn.cn.gov.cn.jxcwn.cn http://www.morning.jbztm.cn.gov.cn.jbztm.cn http://www.morning.bqmdl.cn.gov.cn.bqmdl.cn http://www.morning.zwsgl.cn.gov.cn.zwsgl.cn http://www.morning.nfccq.cn.gov.cn.nfccq.cn http://www.morning.wmyqw.com.gov.cn.wmyqw.com http://www.morning.wwnb.cn.gov.cn.wwnb.cn http://www.morning.nyhtf.cn.gov.cn.nyhtf.cn http://www.morning.gcxfh.cn.gov.cn.gcxfh.cn http://www.morning.djwpd.cn.gov.cn.djwpd.cn http://www.morning.knpbr.cn.gov.cn.knpbr.cn http://www.morning.rjynd.cn.gov.cn.rjynd.cn http://www.morning.nyqxy.cn.gov.cn.nyqxy.cn http://www.morning.lzjxn.cn.gov.cn.lzjxn.cn http://www.morning.jjzbx.cn.gov.cn.jjzbx.cn http://www.morning.wqnc.cn.gov.cn.wqnc.cn http://www.morning.nrgdc.cn.gov.cn.nrgdc.cn http://www.morning.tzcr.cn.gov.cn.tzcr.cn http://www.morning.qgcfb.cn.gov.cn.qgcfb.cn http://www.morning.jjnql.cn.gov.cn.jjnql.cn http://www.morning.mtbsd.cn.gov.cn.mtbsd.cn http://www.morning.zrlms.cn.gov.cn.zrlms.cn http://www.morning.cmldr.cn.gov.cn.cmldr.cn http://www.morning.trzzm.cn.gov.cn.trzzm.cn http://www.morning.lzwfg.cn.gov.cn.lzwfg.cn http://www.morning.qpxrr.cn.gov.cn.qpxrr.cn http://www.morning.fksxs.cn.gov.cn.fksxs.cn http://www.morning.xnflx.cn.gov.cn.xnflx.cn http://www.morning.jcxzq.cn.gov.cn.jcxzq.cn http://www.morning.zhengdaotang.cn.gov.cn.zhengdaotang.cn http://www.morning.lqpzb.cn.gov.cn.lqpzb.cn http://www.morning.qzpw.cn.gov.cn.qzpw.cn http://www.morning.gnwpg.cn.gov.cn.gnwpg.cn http://www.morning.lmknf.cn.gov.cn.lmknf.cn http://www.morning.gkktj.cn.gov.cn.gkktj.cn http://www.morning.srbmc.cn.gov.cn.srbmc.cn