当前位置: 首页 > news >正文

开发公司行政部提升广州优化seo

开发公司行政部提升,广州优化seo,怎么做网站数据库,网站泛解析要求,查询一个文件中的pdf文件中的关键字,输出关键字所在PDF文件的文件名及对应的页数。 import os import PyPDF2def search_pdf_files(folder_path, keywords):# 初始化结果字典,以关键字为键,值为包含关键字的页面和文件名列表…

要求,查询一个文件中的pdf文件中的关键字,输出关键字所在PDF文件的文件名及对应的页数。

import os
import PyPDF2def search_pdf_files(folder_path, keywords):# 初始化结果字典,以关键字为键,值为包含关键字的页面和文件名列表results = {keyword: [] for keyword in keywords}# 遍历指定文件夹下的所有文件for root, dirs, files in os.walk(folder_path):for filename in files:if filename.endswith(".pdf"):# 构建PDF文件的完整路径pdf_path = os.path.join(root, filename)# 打开PDF文件with open(pdf_path, "rb") as pdf_file:pdf_reader = PyPDF2.PdfReader(pdf_file)# 获取PDF的总页数total_pages = len(pdf_reader.pages)# 遍历PDF的每一页for page_num in range(total_pages):# 读取页面内容page = pdf_reader.pages[page_num]page_text = page.extract_text()# 检查所有关键字for keyword in keywords:if keyword in page_text:results[keyword].append({"file_name": filename,"page_number": page_num + 1  # PDF页码从1开始})return results# 示例用法
folder_to_search = r"C:\Users\Administrator\Desktop\2"
search_keywords = ["SVD", "线性回归", "XGBoost", "不存在的关键字"]  # 添加多个关键字,包括不存在的关键字
results = search_pdf_files(folder_to_search, search_keywords)# 打印结果
for keyword, keyword_results in results.items():if keyword_results:print(f"关键字 '{keyword}' 所在的文件及页数:")for result in keyword_results:print(f"文件 '{result['file_name']}' 的第 {result['page_number']} 页")else:print(f"没有找到关键字 '{keyword}'。")print()  # 输出换行以区分不同关键字的结果

 为了方便且高效看论文。

用了上面那个之后发现不太对劲,找到文件后,就可以ctrl+F了,所以去掉了页数。代码如下:

import os
import PyPDF2def search_pdf_files(folder_path, keywords):# Initialize a results dictionary with keywords as keys and lists of files as valuesresults = {keyword: [] for keyword in keywords}# Initialize a set to keep track of processed files for each keywordprocessed_files = {keyword: set() for keyword in keywords}# Traverse all files in the specified folderfor root, dirs, files in os.walk(folder_path):for filename in files:if filename.endswith(".pdf"):# Build the full path of the PDF filepdf_path = os.path.join(root, filename)# Open the PDF filewith open(pdf_path, "rb") as pdf_file:pdf_reader = PyPDF2.PdfReader(pdf_file)# Get the total number of pages in the PDFtotal_pages = len(pdf_reader.pages)# Iterate through each page of the PDFfor page_num in range(total_pages):# Read the page contentpage = pdf_reader.pages[page_num]page_text = page.extract_text()# Check all keywordsfor keyword in keywords:if keyword in page_text:# Check if this file has not been processed for this keywordif filename not in processed_files[keyword]:results[keyword].append({"file_name": filename,"page_number": page_num + 1  # PDF page numbers start from 1})processed_files[keyword].add(filename)return results# 示例用法
folder_to_search = r"C:\Users\Administrator\Desktop\优秀论文"
search_keywords = ["ARIMA", "XGBoost", "SVM", "支持向量机","线性回归","决策树","随机森林","模拟退火","粒子群","遗传算法","LSTM","BP神经网络","t-SNE","LightGBM","GMM","距离相关系数","灰色关联分析","互信息","信息熵","递归特征消除","综合评价","熵权法"]  # 添加多个关键字,包括不存在的关键字
results = search_pdf_files(folder_to_search, search_keywords)# 打印结果
for keyword, keyword_results in results.items():if keyword_results:print(f"关键字 '{keyword}' 所在的文件及页数:")for result in keyword_results:print(f"文件 '{result['file_name']}'")else:print(f"没有找到关键字 '{keyword}'。")print()  # 输出换行以区分不同关键字的结果

http://www.tj-hxxt.cn/news/120810.html

相关文章:

  • b2b网站需要解决哪些问题人工智能的关键词
  • 武汉网站建设智能 乐云践新软文营销网站
  • 做图素材的网站有哪些搜索词热度查询
  • 凡科的网站做seo比较难什么是营销型网站?
  • 杭州哪家网站建设公司好点深圳外贸网站建设
  • 自己做的网站某个网页打开很慢昆明新闻头条最新消息
  • 做直发网站常州网站建设优化
  • 做网站找谁好seo实战密码电子书
  • 自己做图片的网站北京网络营销招聘
  • wordpress 客户端url安卓系统优化app
  • html网站开发相关书籍网站怎么收录
  • 免费商城版网站制作域名查询ip地址
  • 做淘宝客网站会犯法吗有没有免费的crm系统软件
  • wordpress会员网站如何创建网站的快捷方式
  • 建设网站的企业百度收录查询网址
  • 政务中心建设网站怎么制作百度网页
  • 营销型网站制作服务商国际网络销售平台有哪些
  • 网站维护 公司简介长尾关键词挖掘精灵
  • 网站怎么做的qq邮件订阅免费的网络推广渠道有哪些
  • POS机网站怎么做郑州seo管理
  • 怎么做模板网站的报价表武汉seo外包平台
  • 做网站需要用什么技术百度搜索引擎的特点
  • 自动化优化系统网站建设百度百科入口
  • 小程序一般需要多少钱百度seo服务方案
  • 销售和营销的区别windows优化大师怎么彻底删除
  • 建设门户网站申请网站运营管理
  • 网站ui设计用什么软件做全国各城市疫情搜索高峰进度
  • 做网站的公司济南赛博科技市场网络推广竞价是什么
  • 网站开发的试用期条款宁德市是哪个省
  • 沈阳企业定制网站建设长沙seo公司排名