当前位置: 首页 > news >正文

高大上的企业网站欣赏郑州网站建设价格

高大上的企业网站欣赏,郑州网站建设价格,做网站推广优化,游戏开发与网站开发就业情况Python 第二阶段 - 爬虫入门 🎯 今日目标 掌握 XPath 的基本语法使用 lxml.etree 解析 HTML,提取数据与 BeautifulSoup 比较:谁更强? 📘 学习内容详解 ✅ 安装依赖 pip install lxml🧩 XPath 简介 XPa…

Python 第二阶段 - 爬虫入门

🎯 今日目标

  • 掌握 XPath 的基本语法
  • 使用 lxml.etree 解析 HTML,提取数据
  • 与 BeautifulSoup 比较:谁更强?

📘 学习内容详解

✅ 安装依赖
pip install lxml
🧩 XPath 简介

XPath 是一种用于在 XML/HTML 中查找信息的语言,功能强大,支持复杂结构提取。

常见语法:

XPath 表达式含义
//tag所有指定标签
//div[@class="quote"]class 为 quote 的所有 div 标签
.//span[@class="text"]/text()当前元素内的 span.text 的内容
//a/@href提取 a 标签的 href 属性值

📌 示例代码
from lxml import etree
import requestsurl = "https://quotes.toscrape.com/"
res = requests.get(url)
tree = etree.HTML(res.text)quotes = tree.xpath('//div[@class="quote"]')for q in quotes:text = q.xpath('.//span[@class="text"]/text()')[0]author = q.xpath('.//small[@class="author"]/text()')[0]tags = q.xpath('.//div[@class="tags"]/a[@class="tag"]/text()')print(f"{text} —— {author} [Tags: {', '.join(tags)}]")

📊 XPath vs BeautifulSoup

对比项BeautifulSoupXPath (lxml)
学习曲线简单稍复杂
功能强度
性能一般较快
选择方式标签/类名/选择器路径表达式
适合人群初学者熟悉 HTML 的开发者

🧪 今日练习任务

  1. 使用 XPath 提取名言、作者、标签

  2. 获取所有页数据(分页跳转)

  3. 统计作者数量 & 不重复的标签数

  4. 保存数据为 JSON 文件

    示例代码:

    import requests
    from lxml import etree
    import json
    import timeBASE_URL = "https://quotes.toscrape.com"
    HEADERS = {"User-Agent": "Mozilla/5.0"
    }def fetch_html(url):response = requests.get(url, headers=HEADERS)return response.text if response.status_code == 200 else Nonedef parse_quotes(html):tree = etree.HTML(html)quotes = tree.xpath('//div[@class="quote"]')data = []for q in quotes:text = q.xpath('.//span[@class="text"]/text()')[0]author = q.xpath('.//small[@class="author"]/text()')[0]tags = q.xpath('.//div[@class="tags"]/a[@class="tag"]/text()')data.append({"text": text,"author": author,"tags": tags})return datadef get_next_page(html):tree = etree.HTML(html)next_page = tree.xpath('//li[@class="next"]/a/@href')return BASE_URL + next_page[0] if next_page else Nonedef main():all_quotes = []url = BASE_URLwhile url:print(f"正在抓取:{url}")html = fetch_html(url)if not html:print("页面加载失败")breakquotes = parse_quotes(html)all_quotes.extend(quotes)url = get_next_page(html)time.sleep(0.5)  # 模拟人类行为,防止被封# 输出抓取结果print(f"\n共抓取名言:{len(all_quotes)} 条")# 保存为 JSONwith open("quotes_xpath.json", "w", encoding="utf-8") as f:json.dump(all_quotes, f, ensure_ascii=False, indent=2)print("已保存为 quotes_xpath.json")if __name__ == "__main__":main()
    

✍️ 今日总结

  • 学会使用 XPath 精确定位 HTML 元素
  • 掌握了 lxml.etree.HTML 的解析方法
  • 对比了两种主流网页解析方式,为后续复杂数据提取打好基础
http://www.tj-hxxt.cn/news/28133.html

相关文章:

  • 长春网站建设电话咨询seo优化师培训
  • 沈阳网站建设报价百度的人工客服电话
  • 沈阳网站设计价格成品网站源码的优化技巧
  • 甘肃省住房与城乡建设厅网站首页网游百度搜索风云榜
  • 专业做家居的网站有哪些百度网址大全官网
  • 宁波网站建设水果网络营销策划书
  • 网站怎样做优化调整无锡seo排名收费
  • 做单位网站的公司网站seo服务商
  • wordpress 图片站主题短视频seo推广隐迅推专业
  • 网上做论文的网站怎么让百度收录网址
  • 什么网站能赚钱市场调研报告万能模板
  • 深圳房地产网站开发超级软文
  • 网站怎么续费网络营销方式都有哪些
  • 福州鼓楼区网站建设李守洪
  • 做网站能力介绍河南网站建设哪个公司做得好
  • 律师网站建设合肥网站制作公司
  • 旅游类网站建设教案seo快速整站上排名教程
  • 沈阳网站推广优化公司哪家好外贸网站免费推广b2b
  • 学做美食的视频网站微信小程序平台官网
  • 接入服务商网站备案管理系统技术规范要求美食软文300范例
  • 淄博市建设局网站seo数据是什么
  • 网站建设精美模板网站seo搜索引擎优化怎么做
  • 做网站比较好的公司有哪些信息互联网推广
  • 最优秀的无锡网站建设百度安装免费下载
  • 宁波市网站建设公司seo好seo
  • 亳州是网站建设seo关键词推广
  • 温州网站建设方案外包怎么免费建公司网站
  • 中华人民住房和城乡建设厅网站广告营销案例分析
  • 天津 公司做网站武汉seo网站优化运营
  • 企业网站建设都能做哪些工作线上推广引流渠道