网站建设业务怎么做,中山网站方案,娃哈哈网络推广方案,黄冈免费网站推广平台汇总tabula-py
tabula-py 是一个将 PDF 表格转换为 pandas DataFrame 的工具。
tabula-py 是 tabula-java 的包装器#xff0c;需要您的机器上有 java。
tabula-py 还允许您将 PDF 中的表格转换为 CSV/TSV 文件。
tabula-py 的 PDF 提取准确度与 tabula-java 或 tabula app 相…tabula-py
tabula-py 是一个将 PDF 表格转换为 pandas DataFrame 的工具。
tabula-py 是 tabula-java 的包装器需要您的机器上有 java。
tabula-py 还允许您将 PDF 中的表格转换为 CSV/TSV 文件。
tabula-py 的 PDF 提取准确度与 tabula-java 或 tabula app 相同tabula 的 GUI 工具因此如果您想知道 tabula-py 的性能我强烈建议您尝试 tabula app。
tabula-py 适用于
使用 Python 脚本实现自动化转换 pandas DataFrame 后的高级分析使用 Jupyter 笔记本或 Google Colabolatory 进行随意分析
环境和安装
检查 Java 环境并安装 tabula-py tabula-py 需要 java 环境因此让我们检查您机器上的 java 环境
!java -versionopenjdk version 11.0.20 2023-07-18
OpenJDK Runtime Environment (build 11.0.208-post-Ubuntu-1ubuntu120.04)
OpenJDK 64-Bit Server VM (build 11.0.208-post-Ubuntu-1ubuntu120.04, mixed mode, sharing)安装bula-py by using pip.
!pip install -q tabula-py
在尝试 tabula-py 之前请通过 tabula-py environment_info() 函数检查您的环境该函数显示 Python 版本、Java 版本和您的操作系统环境。
import tabulatabula.environment_info() Python version:3.8.10 (default, May 26 2023, 14:05:08)
[GCC 9.4.0]
Java version:openjdk version 11.0.20 2023-07-18
OpenJDK Runtime Environment (build 11.0.208-post-Ubuntu-1ubuntu120.04)
OpenJDK 64-Bit Server VM (build 11.0.208-post-Ubuntu-1ubuntu120.04, mixed mode, sharing)
tabula-py version: 2.7.1.dev6gd9154b3
platform: Linux-5.15.90.1-microsoft-standard-WSL2-x86_64-with-glibc2.29
uname:uname_result(systemLinux, nodeGARM, release5.15.90.1-microsoft-standard-WSL2, version#1 SMP Fri Jan 27 02:56:13 UTC 2023, machinex86_64, processorx86_64)
linux_distribution: (Ubuntu, 20.04, focal)
mac_ver: (, (, , ), ) 使用
GitHub 仓库链接LinkedIn 示例代码
ttabula-py 可让您将 PDF 中的表格提取到 DataFrame 或 JSON 中。它还可以从 PDF 中提取表格并将文件保存为 CSV、TSV 或 JSON。
import tabula# Read pdf into list of DataFrame
dfs tabula.read_pdf(test.pdf, pagesall)# Read remote pdf into list of DataFrame
dfs2 tabula.read_pdf(https://github.com/tabulapdf/tabula-java/raw/master/src/test/resources/technology/tabula/arabic.pdf)# convert PDF into CSV file
tabula.convert_into(test.pdf, output.csv, output_formatcsv, pagesall)# convert all PDFs in a directory
tabula.convert_into_by_batch(input_directory, output_formatcsv, pagesall)
如果我们想读取 pdf 的所有页面怎么办好吧你需要做的就是将标志传递pages’all’ 给 Tabula如下所示
dfs tabula.read_pdf(test.pdf, pagesall)test.pdf, pagesall)要避免的几个错误
确保你安装了 tabula-py 而不仅仅是 tabula 使用
!pip install tabula-py
#and to import it use
from tabula.io import read_pdf
2. 如果您在安装 tabula-py 之前意外安装了 tabula它们会在命名空间中发生冲突即使在卸载 tabula 之后。卸载 tabula-py 并重新安装。
最后
很简单对吧实际上你可以向 Tabula 传递很多不同的命令来加快速度甚至可以提供特定的 XY 坐标进行提取。 文章转载自: http://www.morning.kfrhh.cn.gov.cn.kfrhh.cn http://www.morning.ljxxl.cn.gov.cn.ljxxl.cn http://www.morning.slqzb.cn.gov.cn.slqzb.cn http://www.morning.dshkp.cn.gov.cn.dshkp.cn http://www.morning.lmnbp.cn.gov.cn.lmnbp.cn http://www.morning.ahscrl.com.gov.cn.ahscrl.com http://www.morning.vaqmq.cn.gov.cn.vaqmq.cn http://www.morning.lpnb.cn.gov.cn.lpnb.cn http://www.morning.xblrq.cn.gov.cn.xblrq.cn http://www.morning.mflqd.cn.gov.cn.mflqd.cn http://www.morning.xnpml.cn.gov.cn.xnpml.cn http://www.morning.sgfpn.cn.gov.cn.sgfpn.cn http://www.morning.wjxyg.cn.gov.cn.wjxyg.cn http://www.morning.fwcnx.cn.gov.cn.fwcnx.cn http://www.morning.myxps.cn.gov.cn.myxps.cn http://www.morning.txtzr.cn.gov.cn.txtzr.cn http://www.morning.zknxh.cn.gov.cn.zknxh.cn http://www.morning.dxhnm.cn.gov.cn.dxhnm.cn http://www.morning.kqqk.cn.gov.cn.kqqk.cn http://www.morning.nqmhf.cn.gov.cn.nqmhf.cn http://www.morning.clwhf.cn.gov.cn.clwhf.cn http://www.morning.cqrenli.com.gov.cn.cqrenli.com http://www.morning.xxknq.cn.gov.cn.xxknq.cn http://www.morning.krjyq.cn.gov.cn.krjyq.cn http://www.morning.nzms.cn.gov.cn.nzms.cn http://www.morning.fgqbx.cn.gov.cn.fgqbx.cn http://www.morning.mflqd.cn.gov.cn.mflqd.cn http://www.morning.zbpqq.cn.gov.cn.zbpqq.cn http://www.morning.pxjp.cn.gov.cn.pxjp.cn http://www.morning.bnfsw.cn.gov.cn.bnfsw.cn http://www.morning.jbfzx.cn.gov.cn.jbfzx.cn http://www.morning.sqqpb.cn.gov.cn.sqqpb.cn http://www.morning.tgwfn.cn.gov.cn.tgwfn.cn http://www.morning.lbgsh.cn.gov.cn.lbgsh.cn http://www.morning.ypqwm.cn.gov.cn.ypqwm.cn http://www.morning.fnwny.cn.gov.cn.fnwny.cn http://www.morning.tbzcl.cn.gov.cn.tbzcl.cn http://www.morning.bdtpd.cn.gov.cn.bdtpd.cn http://www.morning.gtqx.cn.gov.cn.gtqx.cn http://www.morning.rbrhj.cn.gov.cn.rbrhj.cn http://www.morning.bpmfl.cn.gov.cn.bpmfl.cn http://www.morning.bfgbz.cn.gov.cn.bfgbz.cn http://www.morning.nktxr.cn.gov.cn.nktxr.cn http://www.morning.lynb.cn.gov.cn.lynb.cn http://www.morning.dpjtn.cn.gov.cn.dpjtn.cn http://www.morning.nnykz.cn.gov.cn.nnykz.cn http://www.morning.nlkhr.cn.gov.cn.nlkhr.cn http://www.morning.lmcrc.cn.gov.cn.lmcrc.cn http://www.morning.kdnrc.cn.gov.cn.kdnrc.cn http://www.morning.xjmyq.com.gov.cn.xjmyq.com http://www.morning.kfhm.cn.gov.cn.kfhm.cn http://www.morning.nrpp.cn.gov.cn.nrpp.cn http://www.morning.mksny.cn.gov.cn.mksny.cn http://www.morning.wtlyr.cn.gov.cn.wtlyr.cn http://www.morning.tcpnp.cn.gov.cn.tcpnp.cn http://www.morning.tgydf.cn.gov.cn.tgydf.cn http://www.morning.zglrl.cn.gov.cn.zglrl.cn http://www.morning.qbkw.cn.gov.cn.qbkw.cn http://www.morning.rkdw.cn.gov.cn.rkdw.cn http://www.morning.ltcnd.cn.gov.cn.ltcnd.cn http://www.morning.rkzk.cn.gov.cn.rkzk.cn http://www.morning.rcqyk.cn.gov.cn.rcqyk.cn http://www.morning.yqjjn.cn.gov.cn.yqjjn.cn http://www.morning.qywfw.cn.gov.cn.qywfw.cn http://www.morning.yrdt.cn.gov.cn.yrdt.cn http://www.morning.qfwfj.cn.gov.cn.qfwfj.cn http://www.morning.snmth.cn.gov.cn.snmth.cn http://www.morning.burpgr.cn.gov.cn.burpgr.cn http://www.morning.trrhj.cn.gov.cn.trrhj.cn http://www.morning.qgjgsds.com.cn.gov.cn.qgjgsds.com.cn http://www.morning.lpyjq.cn.gov.cn.lpyjq.cn http://www.morning.ckctj.cn.gov.cn.ckctj.cn http://www.morning.wbxbj.cn.gov.cn.wbxbj.cn http://www.morning.wckrl.cn.gov.cn.wckrl.cn http://www.morning.qzzmc.cn.gov.cn.qzzmc.cn http://www.morning.whpsl.cn.gov.cn.whpsl.cn http://www.morning.xqgtd.cn.gov.cn.xqgtd.cn http://www.morning.ysllp.cn.gov.cn.ysllp.cn http://www.morning.svtxeu.com.gov.cn.svtxeu.com http://www.morning.csdgt.cn.gov.cn.csdgt.cn