当前位置: 首页 > news >正文

如何建免费的企业网站湖南省建设厅最新领导分工

如何建免费的企业网站,湖南省建设厅最新领导分工,php wordpress配置,整合营销传播方案案例文章目录 **探索PDFMiner#xff1a;Python中的PDF解析利器**1. 背景介绍#xff1a;为何选择PDFMiner#xff1f;2. PDFMiner是什么#xff1f;3. 如何安装PDFMiner#xff1f;4. 简单库函数使用方法4.1 提取文本4.2 获取页面布局信息4.3 提取表格数据4.4 提取图像 5. 应… 文章目录 **探索PDFMinerPython中的PDF解析利器**1. 背景介绍为何选择PDFMiner2. PDFMiner是什么3. 如何安装PDFMiner4. 简单库函数使用方法4.1 提取文本4.2 获取页面布局信息4.3 提取表格数据4.4 提取图像 5. 应用场景示例5.1 文本数据提取5.2 数据转换5.3 元数据提取 6. 常见Bug及解决方案6.1 环境配置问题6.2 文本提取位置不准确6.3 编码问题导致的乱码 7. 总结 探索PDFMinerPython中的PDF解析利器 1. 背景介绍为何选择PDFMiner 在数字化时代PDF文件因其便携性和广泛兼容性成为文档交换的标准格式。然而从PDF中提取有用信息一直是个挑战。PDFMiner库应运而生专门解决这一问题。它不仅能提取文本还能获取字体信息、页面布局、表格、图片以及文档元数据。 2. PDFMiner是什么 PDFMiner是一个强大的Python库用于解析PDF文档并提取其中的文本内容和数据。它支持文本提取、字体信息获取、页面布局分析、表格解析、图像提取以及文档元数据获取等功能。 3. 如何安装PDFMiner 安装PDFMiner非常简单只需在命令行中输入以下命令 pip install pdfminer.six这条命令会安装PDFMiner的Python 3版本兼容Python 2和Python 3。 4. 简单库函数使用方法 4.1 提取文本 from pdfminer.high_level import extract_text text extract_text(example.pdf) print(text)这段代码使用extract_text函数从PDF文件中提取全部文本。 4.2 获取页面布局信息 from pdfminer.layout import LAParams, LTTextBox, LTTextLine from pdfminer.pdfpage import PDFPage from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import PDFPageAggregatorresource_manager PDFResourceManager() fake_file_handle io.StringIO() converter PDFPageAggregator(resource_manager, fake_file_handle, laparamsLAParams()) page_interpreter PDFPageInterpreter(resource_manager, converter)with open(example.pdf, rb) as pdf_file:for page in PDFPage.get_pages(pdf_file):page_interpreter.process_page(page)layout converter.get_result()for lt_obj in layout:if isinstance(lt_obj, (LTTextBox, LTTextLine)):text lt_obj.get_text()x, y, width, height lt_obj.bboxfont lt_obj._objs[0].fontnamefont_size lt_obj._objs[0].sizeprint(fText: {text.strip()}, Position: ({x:.2f}, {y:.2f}), Font: {font}, Size: {font_size:.2f})这段代码获取文本块的位置、字体和字号等信息并将其打印出来。 4.3 提取表格数据 from pdfminer.high_level import extract_text import tabulatable_text extract_text(table_example.pdf) print(table_text)tables tabula.read_pdf(table_example.pdf, pagesall) for df in tables:print(df)这段代码使用PDFMiner提取PDF文档中的表格并使用tabula提取表格数据。 4.4 提取图像 from pdfminer.pdfparser import PDFParser from pdfminer.pdfdocument import PDFDocument from pdfminer.pdftypes import PDFStream import io from PIL import Imagewith open(example.pdf, rb) as file:parser PDFParser(file)document PDFDocument(parser)if document.is_extractable:for xref in document.xrefs:if xref.get_subtype() /Image:stream_obj xref.get_object()if isinstance(stream_obj, PDFStream):data stream_obj.get_rawdata()image Image.open(io.BytesIO(data))image.show()这段代码提取PDF文档中的图像。 5. 应用场景示例 5.1 文本数据提取 从大量PDF文档中提取文本内容以进行文本挖掘、自然语言处理或搜索。 5.2 数据转换 将PDF文档中的表格数据转换为结构化数据以进一步分析或导入到数据库中。 5.3 元数据提取 获取PDF文档的元数据信息如作者、标题、创建日期以进行文档管理或分类。 6. 常见Bug及解决方案 6.1 环境配置问题 错误信息ModuleNotFoundError: No module named pdfminer 解决方案确保使用正确的命令安装PDFMinerpip install pdfminer.six。 6.2 文本提取位置不准确 错误信息文本提取后位置信息不准确或丢失。 解决方案调整LAParams参数优化布局分析的精度。 6.3 编码问题导致的乱码 错误信息非ASCII字符显示为乱码。 解决方案指定正确的编码例如使用codecutf-8参数。 7. 总结 PDFMiner是一个强大的工具用于解析和提取PDF文档的文本内容和数据。无论是进行文本分析、数据提取还是自动化处理PDFMiner都能够满足需求。希望本文能够帮助大家更好地理解PDFMiner的基本概念和使用方法以便在实际工作中充分利用这个库。 如果你觉得文章还不错请大家 点赞、分享、留言 下因为这将是我持续输出更多优质文章的最强动力
文章转载自:
http://www.morning.mwqbp.cn.gov.cn.mwqbp.cn
http://www.morning.ksjmt.cn.gov.cn.ksjmt.cn
http://www.morning.rkzk.cn.gov.cn.rkzk.cn
http://www.morning.tgdys.cn.gov.cn.tgdys.cn
http://www.morning.hslgq.cn.gov.cn.hslgq.cn
http://www.morning.cdlewan.com.gov.cn.cdlewan.com
http://www.morning.qfgxk.cn.gov.cn.qfgxk.cn
http://www.morning.rcmwl.cn.gov.cn.rcmwl.cn
http://www.morning.wmgjq.cn.gov.cn.wmgjq.cn
http://www.morning.yhglt.cn.gov.cn.yhglt.cn
http://www.morning.ckwrn.cn.gov.cn.ckwrn.cn
http://www.morning.rnrwq.cn.gov.cn.rnrwq.cn
http://www.morning.mgtrc.cn.gov.cn.mgtrc.cn
http://www.morning.rngyq.cn.gov.cn.rngyq.cn
http://www.morning.dwztj.cn.gov.cn.dwztj.cn
http://www.morning.zbqsg.cn.gov.cn.zbqsg.cn
http://www.morning.gnkbf.cn.gov.cn.gnkbf.cn
http://www.morning.sbqrm.cn.gov.cn.sbqrm.cn
http://www.morning.rdnjc.cn.gov.cn.rdnjc.cn
http://www.morning.jlktz.cn.gov.cn.jlktz.cn
http://www.morning.fthcn.cn.gov.cn.fthcn.cn
http://www.morning.hbqfh.cn.gov.cn.hbqfh.cn
http://www.morning.cnfxr.cn.gov.cn.cnfxr.cn
http://www.morning.wbxbj.cn.gov.cn.wbxbj.cn
http://www.morning.zwpzy.cn.gov.cn.zwpzy.cn
http://www.morning.pfkrw.cn.gov.cn.pfkrw.cn
http://www.morning.kjxgc.cn.gov.cn.kjxgc.cn
http://www.morning.hwtb.cn.gov.cn.hwtb.cn
http://www.morning.fwnqq.cn.gov.cn.fwnqq.cn
http://www.morning.txtgy.cn.gov.cn.txtgy.cn
http://www.morning.rfrx.cn.gov.cn.rfrx.cn
http://www.morning.qnzld.cn.gov.cn.qnzld.cn
http://www.morning.smxrx.cn.gov.cn.smxrx.cn
http://www.morning.bgnkl.cn.gov.cn.bgnkl.cn
http://www.morning.pbpcj.cn.gov.cn.pbpcj.cn
http://www.morning.fglxh.cn.gov.cn.fglxh.cn
http://www.morning.pjrql.cn.gov.cn.pjrql.cn
http://www.morning.wbnsf.cn.gov.cn.wbnsf.cn
http://www.morning.bytgy.com.gov.cn.bytgy.com
http://www.morning.tsqpd.cn.gov.cn.tsqpd.cn
http://www.morning.nlffl.cn.gov.cn.nlffl.cn
http://www.morning.xnbd.cn.gov.cn.xnbd.cn
http://www.morning.yppln.cn.gov.cn.yppln.cn
http://www.morning.wzwpz.cn.gov.cn.wzwpz.cn
http://www.morning.ckzjl.cn.gov.cn.ckzjl.cn
http://www.morning.zpdjh.cn.gov.cn.zpdjh.cn
http://www.morning.pypbz.cn.gov.cn.pypbz.cn
http://www.morning.rhnn.cn.gov.cn.rhnn.cn
http://www.morning.zkdbx.cn.gov.cn.zkdbx.cn
http://www.morning.rtspr.cn.gov.cn.rtspr.cn
http://www.morning.kyjpg.cn.gov.cn.kyjpg.cn
http://www.morning.gfprf.cn.gov.cn.gfprf.cn
http://www.morning.mllmm.cn.gov.cn.mllmm.cn
http://www.morning.zyffq.cn.gov.cn.zyffq.cn
http://www.morning.nqyzg.cn.gov.cn.nqyzg.cn
http://www.morning.kqbzy.cn.gov.cn.kqbzy.cn
http://www.morning.kllzy.com.gov.cn.kllzy.com
http://www.morning.ybgcn.cn.gov.cn.ybgcn.cn
http://www.morning.bhbxd.cn.gov.cn.bhbxd.cn
http://www.morning.pfbx.cn.gov.cn.pfbx.cn
http://www.morning.errnull.com.gov.cn.errnull.com
http://www.morning.mtsgx.cn.gov.cn.mtsgx.cn
http://www.morning.ywqw.cn.gov.cn.ywqw.cn
http://www.morning.rkxdp.cn.gov.cn.rkxdp.cn
http://www.morning.pndw.cn.gov.cn.pndw.cn
http://www.morning.lydtr.cn.gov.cn.lydtr.cn
http://www.morning.ljtwp.cn.gov.cn.ljtwp.cn
http://www.morning.kqgqy.cn.gov.cn.kqgqy.cn
http://www.morning.lxthr.cn.gov.cn.lxthr.cn
http://www.morning.lfdzr.cn.gov.cn.lfdzr.cn
http://www.morning.gstmn.cn.gov.cn.gstmn.cn
http://www.morning.tnkwj.cn.gov.cn.tnkwj.cn
http://www.morning.lpmjr.cn.gov.cn.lpmjr.cn
http://www.morning.c7622.cn.gov.cn.c7622.cn
http://www.morning.tbhf.cn.gov.cn.tbhf.cn
http://www.morning.mphfn.cn.gov.cn.mphfn.cn
http://www.morning.mlnbd.cn.gov.cn.mlnbd.cn
http://www.morning.dmldp.cn.gov.cn.dmldp.cn
http://www.morning.zpjhh.cn.gov.cn.zpjhh.cn
http://www.morning.fbxdp.cn.gov.cn.fbxdp.cn
http://www.tj-hxxt.cn/news/266921.html

相关文章:

  • 企业做网站系统网站如何制作浙江
  • 长沙做电商网站设计网站建设0基础学起
  • 济南做网站建设的公司电话基于phpmysql的网站开发
  • 游戏开发和网站开发网络营销的主要特点有哪些
  • 德国建设部网站asp网站怎么做三语
  • 岳阳市网站建设怎么注册域名备案
  • 广州网站制作(信科网络)重庆是哪个省属于哪个省
  • 快速建站教程四川万景建设工程有限公司网站
  • 做网站过程ui界面图标
  • 免费建设电影网站西安网站建设现状
  • 嘉兴建设规划网站静态网站数据库
  • 国内网站域名吗wordpress 标题图片
  • 光谷软件园企业网站建设公司微信公众号对接网站做
  • 3000元建设个人网站全网是哪些平台
  • 软件开发app开发定制外包99岳阳seo优化
  • 新绛做网站微信小程序源码免费
  • 杭州建网站三合一网站有必要吗
  • 建设网站教学平面设计素材库
  • 新华书店网站建设免费企业信息发布平台
  • 企业营销型网站建设价格电商网站设计公司皆选亿企邦
  • 普洱市交通建设集团官方网站哈尔滨百度搜索排名优化
  • 绿色在线网站网站设计包括
  • 在哪个网站注册域名好站长工具seo综合查询隐私查询导航
  • 惠州市建设规划局网站网站备案填写
  • 银川网站建设哪家优建设摩托车型号大全
  • 威海网站建设价格无锡专业网站建设
  • 公司网站建设报告建筑公司企业愿景
  • 网站建设是要考虑什么东西wordpress域名更改
  • 珠海市住房城乡建设局网站河北网站建设案例
  • 一键搭建网站j2ee网站开发