当前位置: 首页 > news >正文

从0到建网站网站排名是怎么做

从0到建网站,网站排名是怎么做,网站后台维护月薪多少,湖北最新消息使用 Selenium 和 Python 爬取腾讯新闻#xff1a;从基础到实践 在这篇博客中#xff0c;我们将介绍如何利用 Selenium 和 Python 爬取腾讯新闻的内容#xff0c;并将结果保存到 CSV 文件中。本教程包含以下内容#xff1a; 项目简介依赖安装实现功能的代码实现中的关键技…使用 Selenium 和 Python 爬取腾讯新闻从基础到实践 在这篇博客中我们将介绍如何利用 Selenium 和 Python 爬取腾讯新闻的内容并将结果保存到 CSV 文件中。本教程包含以下内容 项目简介依赖安装实现功能的代码实现中的关键技术完整代码运行结果与注意事项 1. 项目简介 腾讯新闻网站包含丰富的新闻资源。我们的目标是 爬取文章的标题和部分内容200个字符。点击“下一页”按钮后跳转到新页面并继续爬取。处理爬取内容中的特殊字符。将爬取到的内容保存到 CSV 文件中。 本项目适合初学者学习 Selenium 的基础操作例如页面切换和元素交互。 2. 依赖安装 在开始前需要安装以下依赖 Python 环境确保安装了 Python 3.7 或以上版本。Selenium用于网页自动化。WebDriver Manager自动管理浏览器驱动。 运行以下命令安装必要的库 pip install selenium webdriver-manager pandas3. 实现功能的代码 以下是主要功能实现 1. Selenium 驱动设置 通过 WebDriver Manager 自动管理 ChromeDriver避免手动下载和配置。 from selenium import webdriver from selenium.webdriver.chrome.service import Service from selenium.webdriver.chrome.options import Options from webdriver_manager.chrome import ChromeDriverManagerdef setup_driver():options Options()options.add_argument(--headless) # 无头模式运行options.add_argument(--disable-gpu)driver webdriver.Chrome(serviceService(ChromeDriverManager().install()), optionsoptions)return driver2. 点击下一页并切换窗口 实现点击下一页按钮切换到新打开的窗口并关闭旧窗口。 from selenium.webdriver.common.by import By import timedef click_next_and_switch_window(driver):current_window driver.current_window_handlenext_button driver.find_element(By.XPATH, /html/body/div[3]/div[1]/div[3]/div/div/ul/li[6]/div[2]/h3/a)next_button.click()time.sleep(3)all_windows driver.window_handlesdriver.close()driver.switch_to.window(all_windows[-1])time.sleep(2)3. 爬取文章内容 爬取标题和正文的前200个字符并使用正则表达式清理标题。 import redef crawl_tencent_news(start_url, max_articles50):driver setup_driver()articles []driver.get(start_url)time.sleep(2)for _ in range(max_articles):try:title driver.find_element(By.XPATH, //*[iddc-normal-body]/div[3]/div[1]/div[1]/div[2]/h1).texttitle re.sub(r[^a-zA-Z0-9\u4e00-\u9fa5\s。], , title)content driver.find_element(By.XPATH, //*[idArticleContent]/div[2]/div).textshort_content content[:200]articles.append({Title: title, Content: short_content})click_next_and_switch_window(driver)except:breakdriver.quit()return articles4. 保存为 CSV 将爬取到的内容保存到 CSV 文件中。 import pandas as pddef save_to_csv(articles, filename):df pd.DataFrame(articles)df.to_csv(filename, indexFalse, encodingutf-8)print(f已将 {len(articles)} 篇文章保存到 {filename}.)4. 完整代码 以下是完整代码整合 import re from selenium import webdriver from selenium.webdriver.chrome.service import Service from selenium.webdriver.chrome.options import Options from webdriver_manager.chrome import ChromeDriverManager from selenium.webdriver.common.by import By import time import pandas as pddef setup_driver():options Options()options.add_argument(--headless)options.add_argument(--disable-gpu)driver webdriver.Chrome(serviceService(ChromeDriverManager().install()), optionsoptions)return driverdef click_next_and_switch_window(driver):current_window driver.current_window_handlenext_button driver.find_element(By.XPATH, /html/body/div[3]/div[1]/div[3]/div/div/ul/li[6]/div[2]/h3/a)next_button.click()time.sleep(3)all_windows driver.window_handlesdriver.close()driver.switch_to.window(all_windows[-1])time.sleep(2)def crawl_tencent_news(start_url, max_articles50):driver setup_driver()articles []driver.get(start_url)time.sleep(2)for _ in range(max_articles):try:title driver.find_element(By.XPATH, //*[iddc-normal-body]/div[3]/div[1]/div[1]/div[2]/h1).texttitle re.sub(r[^a-zA-Z0-9\u4e00-\u9fa5\s。], , title)content driver.find_element(By.XPATH, //*[idArticleContent]/div[2]/div).textshort_content content[:200]articles.append({Title: title, Content: short_content})click_next_and_switch_window(driver)except:breakdriver.quit()return articlesdef save_to_csv(articles, filename):df pd.DataFrame(articles)df.to_csv(filename, indexFalse, encodingutf-8)print(f已将 {len(articles)} 篇文章保存到 {filename}.)def main():start_url https://news.qq.com/rain/a/20241201A03DNQ00articles crawl_tencent_news(start_url, max_articles50)if articles:save_to_csv(articles, tencent_articles.csv)if __name__ __main__:main()5. 运行结果与注意事项 结果 运行代码后将爬取到的文章标题和内容保存到 tencent_articles.csv 文件中数据示例如下 TitleContent腾讯新闻标题示例这是文章内容的前200个字符… 注意事项 网络延迟需要确保网络连接畅通避免加载超时。页面变化目标网站的结构可能会变化需定期更新 XPath。反爬机制添加 time.sleep() 避免触发反爬机制。 希望这篇博客能帮助你理解和实践 Selenium 爬虫的开发过程如有疑问请随时留言讨论
http://www.tj-hxxt.cn/news/217342.html

相关文章:

  • 可以做pos机的网站平台维护工作内容
  • 专业网站建设多少钱百度竞价推广收费标准
  • 山东省建设资格注册中心网站拼多多网站建设合同
  • 网络服务遇到问题请稍后再试吧网络营销中的seo是指
  • 海市科技网站建设上海找工作网站
  • 网站信息化建设网站制作湖州
  • 网页设计与网站建设课程设计报告新公司注册在哪个网站
  • 网站设计制作的服务和质量嵌入式培训学校
  • 威海专业做网站设计的公司查看网站的目录文件夹权限设置
  • 响应式商场网站长春火车站电话人工服务
  • 寻找客户资源的网站电商网站建设与运营专业
  • 如何将网站开发成微信小程序如何做网站更新
  • 网站开发成功案例免费制作
  • 重庆百科网站推广高端房产网站建设
  • 手机网站开发按返回弹出提示窗口潍坊logo设计公司
  • 企业网站建设可以分为( )交互层次农产品网站开发技术方案与设施
  • 网站维护经费ps里新建网站尺寸怎么做
  • 西安建设网站公司许昌网站建设费用
  • php网站开发工程师笔试服务专业的网络建站公司
  • 鞍山市城乡建设局网站新媒体营销包括什么
  • 中国数据统计网站建立公司网站
  • html网站标题怎么做的wordpress标签怎么做静态化
  • 原创文章的网站被降权或无排名的原因有哪些在线制图
  • 天津建设项目招投标网站手机网站设计公司有哪些
  • 建站工具 phpwind有什么做美食的视频网站
  • 太仓做企业网站wordpress积分提现
  • 用五百丁做名字的简历网站上海做网站的故事哪家好
  • 网站做竞价对seo有影响吗网站正能量
  • 做企业网站排名优化要多少钱青岛做网站建设哪家好
  • 游戏怎么做充值网站纪检监察门户网站建设论证报告