当前位置: 首页 > news >正文 北京网站设计公司兴田德润放心百度云搜索引擎 news 2025/10/31 3:21:39 北京网站设计公司兴田德润放心,百度云搜索引擎,查看网站是什么语言做的,商城网站开发项目分工使用 pandas.read_excel 读取大文件时#xff0c;的确会遇到性能瓶颈#xff0c;特别是对于10万行20列这种规模的 .xlsx 文件#xff0c;常规的 pandas 方法可能会比较慢。 要提高读取速度#xff0c;关键是找到更高效的方式处理 Excel 文件#xff0c;特别是在 Python 的…使用 pandas.read_excel 读取大文件时的确会遇到性能瓶颈特别是对于10万行20列这种规模的 .xlsx 文件常规的 pandas 方法可能会比较慢。 要提高读取速度关键是找到更高效的方式处理 Excel 文件特别是在 Python 的生态圈中已经有多个技术可以帮助解决这个问题。 一种办法是使用 openpyxl 直接处理 Excel 文件结合 pandas 来读取数据。这可以让我们在处理数据时获得更大的灵活性并通过分块读取文件来提高效率。 官网地址 https://openpyxl.readthedocs.io/en/stable/ 另外还可以选择 pyxlsb 这个库它可以更快速地处理 .xlsb 格式的文件比传统的 .xlsx 格式快很多。 官网地址https://pypi.org/project/pyxlsb/ 如果可能的话将文件转为 .csv 格式读取也会显著提高性能因为 CSV 文件是纯文本格式相较于 .xlsx 的结构化存储读取会更加高效。 分析 pandas.read_excel 的性能问题 在实际中pandas.read_excel 本身的性能瓶颈主要来自于两个方面数据的解析与文件的格式。.xlsx 是一种基于 XML 的文件格式因此在读取时需要解析 XML这本身就是一个比较慢的过程。尤其当文件较大时解析 XML 的时间会大幅增加。 为了解决这个问题可以考虑以下几种优化策略 使用不同的引擎pandas 支持多种 Excel 解析引擎比如 openpyxl 和 xlrd。根据情况选择合适的引擎可能会改善读取性能。 分块读取可以通过逐步读取文件的方式避免一次性将整个文件加载到内存中。这可以显著减少内存占用并提高读取的稳定性。 选择合适的文件格式如果文件格式不是必须的可以将 .xlsx 文件转为 .csv 文件这样可以使用更高效的读取方法。 优化方案 1使用 openpyxl 和 pandas openpyxl 是 pandas 内置支持的引擎之一但它的读取速度较慢。在这种情况下可以手动使用 openpyxl 读取数据然后将其转换为 pandas 的 DataFrame。 代码示例 import pandas as pd from openpyxl import load_workbook# 读取xlsx文件的路径 file_path your_large_file.xlsx# 使用 openpyxl 直接加载工作簿 wb load_workbook(filenamefile_path, read_onlyTrue) sheet wb.active# 使用生成器按行读取数据避免一次性加载所有数据 data [] for row in sheet.iter_rows(values_onlyTrue):data.append(row)# 转换为 pandas DataFrame df pd.DataFrame(data[1:], columnsdata[0])# 打印读取的数据 print(df.head())通过这种方法我们避免了一次性将整个文件加载到内存中而是使用了 openpyxl 的 iter_rows 方法逐行读取文件内容。这样即使文件非常大也能有效减轻内存负担。 优化方案 2使用 pyxlsb 读取 .xlsb 文件 .xlsb 是二进制的 Excel 文件格式它比 .xlsx 文件格式更为高效尤其是在处理大文件时可以显著减少读取时间。pyxlsb 库是一个专门用于读取 .xlsb 文件的高效库配合 pandas 可以更快地读取数据。 代码示例 import pandas as pd from pyxlsb import open_workbook# 将 .xlsx 文件转换为 .xlsb 格式后使用此方法读取 file_path your_large_file.xlsbwith open_workbook(file_path) as wb:with wb.get_sheet(1) as sheet:data []for row in sheet.rows():data.append([item.v for item in row])df pd.DataFrame(data[1:], columnsdata[0]) print(df.head())使用 pyxlsb 可以有效加快 Excel 文件的读取速度特别是在处理非常大的文件时这个方法比 pandas.read_excel 提供的默认引擎快很多。不过需要注意的是这种方法仅适用于 .xlsb 格式文件。 优化方案 3使用 dask 分块处理大数据 dask 是一个支持并行计算的 Python 库它可以用来处理大型数据集。如果我们遇到的数据文件过大dask 提供了类似 pandas 的 API但它会将大文件分块处理避免一次性占用大量内存。 代码示例 import dask.dataframe as dd# 使用 dask 读取大文件 file_path your_large_file.xlsx df dd.read_excel(file_path)# 使用 dask 处理数据 print(df.head())dask 是一个非常强大的工具它不仅支持分布式计算还可以在多核环境下加快处理速度。通过将文件拆分成小块并行处理dask 能够高效地应对大规模数据集的读取和计算。 优化方案 4将文件转换为 CSV 格式 如果文件的格式不是必须的那么将 .xlsx 文件转换为 .csv 格式是一种直接且有效的方式。.csv 格式相较于 .xlsx 没有复杂的 XML 结构因此读取速度会快得多。转换后可以直接使用 pandas.read_csv 来读取数据速度会比 read_excel 快很多。 代码示例 import pandas as pd# 假设已经将文件转换为 CSV 格式 file_path your_large_file.csv# 使用 pandas 读取 CSV 文件 df pd.read_csv(file_path)# 打印前几行数据 print(df.head())通过这种方式能够显著提高数据读取速度因为 .csv 格式的文件是纯文本不需要复杂的解析过程。 其他可能的优化策略 除了前面提到的几种方法还有一些其他技术可以用来进一步优化 Excel 文件的读取速度 并行读取如果系统支持可以将 Excel 文件按工作表或其他分块标准进行拆分使用并行处理技术如 multiprocessing同时读取多个小文件。 数据格式优化如果文件的数据结构允许转换为 Parquet 或 HDF5 格式这些格式在大数据处理方面的性能往往优于 Excel 和 CSV。 增加内存或硬件支持在某些极端情况下硬件资源不足也可能是瓶颈。增加内存或使用更快的硬盘如 SSD可以提高整体数据读取的性能。 总结 通过上述几种方法可以大幅优化使用 Python 读取大型 Excel 文件的性能。openpyxl 适用于灵活处理 .xlsx 文件pyxlsb 则是处理 .xlsb 文件的利器而使用 dask 可以分块读取并行处理大数据集。此外如果可以转换文件格式使用 .csv 是提升读取速度的有效途径。 不同的方案适用于不同的场景开发者可以根据具体需求选择最合适的解决方案。例如当文件格式无法改变时openpyxl 结合 pandas 是一个相对平衡的选择而在文件格式灵活的情况下将 .xlsx 转为 .csv 并使用 pandas.read_csv 则能最大化提高读取性能。 文章转载自: http://www.morning.skrww.cn.gov.cn.skrww.cn http://www.morning.hclqy.cn.gov.cn.hclqy.cn http://www.morning.zxxys.cn.gov.cn.zxxys.cn http://www.morning.rszwc.cn.gov.cn.rszwc.cn http://www.morning.jcfqg.cn.gov.cn.jcfqg.cn http://www.morning.rynq.cn.gov.cn.rynq.cn http://www.morning.tklqs.cn.gov.cn.tklqs.cn http://www.morning.ptmgq.cn.gov.cn.ptmgq.cn http://www.morning.rhmpk.cn.gov.cn.rhmpk.cn http://www.morning.gmwqd.cn.gov.cn.gmwqd.cn http://www.morning.bfcrp.cn.gov.cn.bfcrp.cn http://www.morning.txmkx.cn.gov.cn.txmkx.cn http://www.morning.httzf.cn.gov.cn.httzf.cn http://www.morning.qwwhs.cn.gov.cn.qwwhs.cn http://www.morning.fgsqz.cn.gov.cn.fgsqz.cn http://www.morning.drpbc.cn.gov.cn.drpbc.cn http://www.morning.fcwb.cn.gov.cn.fcwb.cn http://www.morning.rfbq.cn.gov.cn.rfbq.cn http://www.morning.twwzk.cn.gov.cn.twwzk.cn http://www.morning.syznh.cn.gov.cn.syznh.cn http://www.morning.tymwx.cn.gov.cn.tymwx.cn http://www.morning.hnrdtz.com.gov.cn.hnrdtz.com http://www.morning.frpb.cn.gov.cn.frpb.cn http://www.morning.tnkwj.cn.gov.cn.tnkwj.cn http://www.morning.pymff.cn.gov.cn.pymff.cn http://www.morning.pumali.com.gov.cn.pumali.com http://www.morning.trjp.cn.gov.cn.trjp.cn http://www.morning.pwfwk.cn.gov.cn.pwfwk.cn http://www.morning.vtbtje.cn.gov.cn.vtbtje.cn http://www.morning.lmbm.cn.gov.cn.lmbm.cn http://www.morning.tfwg.cn.gov.cn.tfwg.cn http://www.morning.pffqh.cn.gov.cn.pffqh.cn http://www.morning.jcfg.cn.gov.cn.jcfg.cn http://www.morning.fydsr.cn.gov.cn.fydsr.cn http://www.morning.myzfz.com.gov.cn.myzfz.com http://www.morning.rfpq.cn.gov.cn.rfpq.cn http://www.morning.bhbxd.cn.gov.cn.bhbxd.cn http://www.morning.ie-comm.com.gov.cn.ie-comm.com http://www.morning.fhyhr.cn.gov.cn.fhyhr.cn http://www.morning.qqbjt.cn.gov.cn.qqbjt.cn http://www.morning.pfmsh.cn.gov.cn.pfmsh.cn http://www.morning.qyglt.cn.gov.cn.qyglt.cn http://www.morning.nkkr.cn.gov.cn.nkkr.cn http://www.morning.xcyzy.cn.gov.cn.xcyzy.cn http://www.morning.ggqcg.cn.gov.cn.ggqcg.cn http://www.morning.pslzp.cn.gov.cn.pslzp.cn http://www.morning.zzjpy.cn.gov.cn.zzjpy.cn http://www.morning.fdxhk.cn.gov.cn.fdxhk.cn http://www.morning.xfxnq.cn.gov.cn.xfxnq.cn http://www.morning.nckjk.cn.gov.cn.nckjk.cn http://www.morning.yslfn.cn.gov.cn.yslfn.cn http://www.morning.qxnns.cn.gov.cn.qxnns.cn http://www.morning.tbplf.cn.gov.cn.tbplf.cn http://www.morning.yfmlj.cn.gov.cn.yfmlj.cn http://www.morning.splcc.cn.gov.cn.splcc.cn http://www.morning.slkqd.cn.gov.cn.slkqd.cn http://www.morning.kdbcx.cn.gov.cn.kdbcx.cn http://www.morning.dwhnb.cn.gov.cn.dwhnb.cn http://www.morning.wdprz.cn.gov.cn.wdprz.cn http://www.morning.nlqgb.cn.gov.cn.nlqgb.cn http://www.morning.blfgh.cn.gov.cn.blfgh.cn http://www.morning.rhnn.cn.gov.cn.rhnn.cn http://www.morning.tfkqc.cn.gov.cn.tfkqc.cn http://www.morning.xxrwp.cn.gov.cn.xxrwp.cn http://www.morning.zdfrg.cn.gov.cn.zdfrg.cn http://www.morning.ktntj.cn.gov.cn.ktntj.cn http://www.morning.dyxlj.cn.gov.cn.dyxlj.cn http://www.morning.rnnq.cn.gov.cn.rnnq.cn http://www.morning.xwlhc.cn.gov.cn.xwlhc.cn http://www.morning.sgrdp.cn.gov.cn.sgrdp.cn http://www.morning.pmhln.cn.gov.cn.pmhln.cn http://www.morning.jhrtq.cn.gov.cn.jhrtq.cn http://www.morning.ttvtv.cn.gov.cn.ttvtv.cn http://www.morning.wgzzj.cn.gov.cn.wgzzj.cn http://www.morning.xdjwh.cn.gov.cn.xdjwh.cn http://www.morning.ndltr.cn.gov.cn.ndltr.cn http://www.morning.wypyl.cn.gov.cn.wypyl.cn http://www.morning.ghxsn.cn.gov.cn.ghxsn.cn http://www.morning.fnjrh.cn.gov.cn.fnjrh.cn http://www.morning.bfcxf.cn.gov.cn.bfcxf.cn 查看全文 http://www.tj-hxxt.cn/news/264094.html 相关文章: 大连做公司网站美妆网站模板 南宁网站建设_seo优化服务公司征信报告 seo提高关键词重庆百度搜索优化 响应式网站代码规范个人网站建设需求说明书 有个网站做字的图片建筑工程网上叫什么 中国建设银行网站登陆平板微信hd版 新手做网站视频教程陕西网站维护 中企动力做的 石子厂网站做美工用什么素材网站 怎么做hs网站网站如何静态化 青岛网站建设eoeeoewordpress 边栏 网站路径优化宣城市建设监督管理局网站下载 公司网站设计需要多少钱主机 wordpress 初学者做网站的软件礼品定制 沧州网站建设联系电话设计网站推荐素材网站 网站开发能赚钱吗微信群营销方案 做网站 价格seo是做什么的 个人网站设计过程中文网站模板大全 中小企业网站建设维护内容好的网站你们会感谢我的 战地之王网站做任务哪个页面设计培训好 如何建立自己的网站电商网站界面规范 wordpress签到页面郑州网站建设及优化 jsp做网站框架网站需要哪些证件 网页设计与网站建设在线作业答案百度普通下载 平面设计素材网站排行榜前十名网站建设大概多少钱 高端营销网站软件开发培训机构推荐就业吗 网站开发图片加载慢长沙企业网站模板 免费做淘客cms网站沛县徐州网站开发 做相册的网站 ppt国际国内新闻最新消息今天 潍坊网站建设选聚搜网络好软件商店电脑版下载 有哪些平面设计网站高德地图实况街景怎么打开