百度怎么做开锁网站,哪个网站的财经做的好知乎,企业邮箱免费登录入口,京东网站建设流程前言
从PDF中提取内容能帮助我们获取文件中的信息#xff0c;以便进行进一步的分析和处理。此外#xff0c;在遇到类似项目时#xff0c;提取出来的文本或图片也能再次利用。要在Python中通过代码提取PDF文件中的文本和图片#xff0c;可以使用 Spire.PDF for Python 这个…前言
从PDF中提取内容能帮助我们获取文件中的信息以便进行进一步的分析和处理。此外在遇到类似项目时提取出来的文本或图片也能再次利用。要在Python中通过代码提取PDF文件中的文本和图片可以使用 Spire.PDF for Python 这个第三方库。具体操作方法查阅下文。
Python 提取PDF文本Python 提取PDF页面中指定矩形区域的文本Python 提取PDF图片
安装 Spire.PDF for Python
本文中用到的Python PDF库支持在各种 Python 程序中创建、读取、编辑、转换和保存 PDF 文档。要安装此产品可使用以下 pip 命令。
pip install Spire.PDF要了解详细安装教程参考 如何在 VS Code 中安装 Spire.PDF for Python
使用 Python 提取PDF文本
Spire.PDF for Python 提供的 PdfPageBase.ExtractText() 方法能提取一个 PDF 页面中文本。根据你的具体需求你可以选择仅提取某页中的文本或者遍历所有页面以提取整个PDF文件中的文本。完整Python代码如下
from spire.pdf import \*
from spire.pdf.common import \*# 创建PdfDocument类的实例
pdf PdfDocument()# 加载PDF文档
pdf.LoadFromFile(大数据.pdf)# 创建一个TXT文件来保存提取的文本
extractedText open(Output/提取文本.txt, w, encodingutf-8)# 遍历文档的每一页
for i in range(pdf.Pages.Count):# 获取页面page pdf.Pages.get\_Item(i)# 从页面提取文本text page.ExtractText()# 将文本写入TXT文件extractedText.write(text \\n)extractedText.close()
pdf.Close()使用 Python 提取PDF页面中指定矩形区域的文本
如果你只需要提取某个PDF页面中指定区域的文本你可以指定一个矩形范围然后使用 PdfPageBase.ExtractText(RectangleF rectangleF) 方法提取其中的文本内容。完整Python代码如下
from spire.pdf import \*
from spire.pdf.common import \*# 创建PdfDocument类的对象
pdf PdfDocument()# 加载PDF文档
pdf.LoadFromFile(大数据.pdf)# 获取第一页
page pdf.Pages.get\_Item(0)# 从页面的指定矩形区域提取文本
text page.ExtractText(RectangleF(0.0, 400.0, 770.0, 180.0))# 将提取的文本保存到TXT文件中
extractedText open(Output/PDF文本.txt, w, encodingutf-8)
extractedText.write(text)
extractedText.close()
pdf.Close()使用 Python 提取PDF图片
除了提取文本外Spire.PDF for Python 还提供了 PdfPageBase.ExtractImages() 方法来提取PDF文件中的图片。要提取一个PDF文件中的所有图片并保存到指定路径参考以下Python代码。
from spire.pdf import \*
from spire.pdf.common import \*# 创建PdfDocument类的实例
pdf PdfDocument()# 加载PDF文档
pdf.LoadFromFile(大数据.pdf)# 创建一个列表来存储图篇
images \[\]# 遍历文档的每一页
for i in range(pdf.Pages.Count):# 获取页面page pdf.Pages.get\_Item(i)# 从页面提取图片并存储在创建的列表中for img in page.ExtractImages():images.append(img)# 保存图像
i 0
for image in images:i 1image.Save(Output/图片/图片-{0:d}.png.format(i), ImageFormat.get\_Png())pdf.Close()后话
如果你也喜欢编程想通过学习Python获取更高薪资这里给大家分享一份Python学习资料。
Python所有方向的学习路线 Python所有方向路线就是把Python常用的技术点做整理形成各个领域的知识点汇总它的用处就在于你可以按照上面的知识点去找对应的学习资源保证自己学得较为全面。全套教程文末领取 Python学习视频600合集 温馨提示篇幅有限已打包文件夹获取方式在文末
Python70个实战练手案例源码 Python副业兼职路线方法 这份完整版的Python全套学习资料已经上传朋友们如果需要可以直接下方领取 【保证100%免费】