石油大学 网页设计与网站建设,诸暨市建设局网站,搜索引擎优化的作用,联通公司做网站吗目录
编辑
Python——JSON基础
第1关#xff1a;JSON篇#xff1a;JSON基础知识
任务描述
第2关#xff1a;JSON篇#xff1a;使用json库
任务描述
Python——XPath基础
第1关#xff1a;XPath 路径表达式
任务描述
第2关#xff1a;XPath 轴定位
任务描述…
目录
编辑
Python——JSON基础
第1关JSON篇JSON基础知识
任务描述
第2关JSON篇使用json库
任务描述
Python——XPath基础
第1关XPath 路径表达式
任务描述
第2关XPath 轴定位
任务描述
第3关XPath 解析
任务描述
Python什么是爬虫
第1关什么是爬虫
任务描述
第2关python 怎么做爬虫
任务描述 Python——JSON基础
第1关JSON篇JSON基础知识
任务描述
本关任务手动编写一个 JSON 格式的数据文件。
{count:3 , students:[{name:赵昊 , age:15 , ismale :true },{name:龙傲天 , age:16 , ismale :true},{name:玛丽苏 , age:15 , ismale : false}]
} 第2关JSON篇使用json库
任务描述
本关任务编写一个能读取并修改 JSON 数据的程序。
import jsondef Func():data open(step2/2017.txt,r,encoding utf-8)obj json.load(data)data.close()#********** Begin *********#obj[count]4
#修改键值对把学生数从3改为4obj[infos][0][age]16obj[infos][1][age]17obj[infos][2][age]16obj[infos].append({name:叶良辰,age:17,height:1.87,sex:男性})#********** End **********#output open(step2/2018.txt,w,encoding utf-8)json.dump(obj,output) #输出到文件output.close() Python——XPath基础
第1关XPath 路径表达式
任务描述
本关任务根据给定的 xml 文档使用 XPath 表达式选取指定内容。
1.选取bookstore元素的所有子节点
********** Begin *********
bookstore
*********** End **********2.选取所有拥有名为 lang 的属性的 title 元素
********** Begin *********
//title[lang]
*********** End **********3.选取所有 title 元素且这些元素拥有值为 eng 的 lang 属性和值为good的class属性
********** Begin *********
//title[langeng and classgood]
*********** End **********4.选取属于 bookstore 子元素的book元素下的所有文本内容
********** Begin *********
/bookstore/book/text()
*********** End **********5.选取属于 bookstore 子元素的第一个 book 元素
********** Begin *********
/bookstore/book[1]*********** End ********** 第2关XPath 轴定位
任务描述
本关任务根据给定的 xml 文档使用 XPath 表达式选取指定内容。
1.选取所有属于当前节点的子元素的 book 节点
********** Begin *********
child::book
*********** End **********2.选取当前节点的 lang 属性
********** Begin *********
attribute::lang
*********** End **********3.选取当前节点的所有 price 孙节点
********** Begin *********
child::*/child::price
*********** End ********** 第3关XPath 解析
任务描述
本关任务编写解析 HTML 文件的 Python 程序
# 导入lxml库
from lxml import etree
# 读取lll.html文件并转化为元素树对象
parse etree.HTMLParser(encodingutf-8)
tree etree.parse(src/step3/lll.html, parse)
# 补充xpath表达式,获取所有书的名称
# ********** Begin ********* #
print(tree.xpath(//bookstore/book/title/text()))
# *********** End ********** #
# 补充xpath表达式,获取所有书的价格
# ********** Begin ********* #
print(tree.xpath(//bookstore/book/price/text()))
# *********** End ********** #
# 填写代码, 获取价格低于30的书名
# ********** Begin ********* #
print(tree.xpath(//bookstore/book[price 30.00]/title/text())[0])
# *********** End ********** # Python什么是爬虫
第1关什么是爬虫
任务描述
本关任务学习本关知识完成选择题。 1、下面哪句符合爬虫的描述 自动化从网络上收集需要的信息 2、下面哪些语言是网页的构成部分 HTML CSS 3、下面谁定义了网页的基本结构 HTML 4、下列哪个文件与爬虫有关? robots.txt 5、爬虫用到的网络协议是 HTTP 6、防范爬虫的策略有 验证码限制 设置User-Agent 7、下列关于统一资源定位符哪项是错误的 一个域名必须对应一个IP地址 一个IP地址也必须对应一个域名 8、客户端HTTP请求格式包括 请求数据 请求行 请求头部 9、服务端HTTP响应格式包括 响应正文 响应报头 状态行 10、下列响应状态码描述正确的有 500表示请求未完成 第2关python 怎么做爬虫
任务描述
本关任务学习本关知识完成选择题。 1、只有 Python 才可以做爬虫 其他语言也可 2、哪一步不属于python爬虫步骤 连接数据库 训练机器学习模型 3、下列哪些库可以用来做爬虫 urllib3 requests 4、下列哪些事情是urllib3不能做的 构建一个HTTP服务器 连接SQL数据库 解析HTML文档 5、下列哪些事情是 bs4 可以做到的 解析HTML文档 支持CSS选择器 6、下列关于 bs4 中的对象描述正确的是 bs4.element.Tag类:表示HTML中的标签 bs4.BeautifulSoup类:表示HTML DOM中的全部内容,支持遍历文档树和搜索文档树的大部分方法 7、下面关于 BeautifulSoup 的使用错误的有 import BeautifulSoup from bs4 soup new BeautifulSoup(data) 8、下面哪一项不属于 json 值 None {name: xiaoming} 9、下列 python json 库介绍错误的有 使用 json 库可以不用导入 json.dump(): 读取文件中JSON形式的字符串元素,转换成Python类型 10、python 爬虫不需要的库有 numpy flask