重庆市建设项目环境申报表网站,wordpress 批量上传产品,台州网站公司,门户网站有哪几个目录五、Python爬虫的抓取网页5.1 导入所需模块5.2 获取目标URL地址5.3 向目标URL发送请求5.4 保存为本地文件5.5 优化程序五、Python爬虫的抓取网页
Python 爬虫应用案例#xff1a;爬取目标的网页#xff0c;并将其保存到本地。
对要编写的爬虫程序进行分析#xff0c;可…
目录五、Python爬虫的抓取网页5.1 导入所需模块5.2 获取目标URL地址5.3 向目标URL发送请求5.4 保存为本地文件5.5 优化程序五、Python爬虫的抓取网页
Python 爬虫应用案例爬取目标的网页并将其保存到本地。
对要编写的爬虫程序进行分析可以简单分为为以下三个部分
目标 url 地址发送请求将响应数据保存至本地 明确逻辑后我们就可以正式编写爬虫程序了。 5.1 导入所需模块
在这里我们使用标准库 urllib 库来编写爬虫导入所需模块代码如下
from urllib import request
from urllib import parse5.2 获取目标URL地址
定义 URL 变量拼接 url 地址从而获取目标地址。代码如下
url http://www.baidu.com/s?wd{}
# 想要搜索的内容
word input(请输入搜索内容:)
params parse.quote(word)
full_url url.format(params)5.3 向目标URL发送请求
发送请求主要分为以下三个步骤
创建请求对象-Request获取响应对象-urlopen解析响应内容-read
代码如下
# 重构请求头
headers {User-Agent: Mozilla/6.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0}
# 创建请求对应
req request.Request(urlfull_url, headersheaders)
# 获取响应对象
res request.urlopen(req)
# 解析响应内容
html res.read().decode(utf-8)
5.4 保存为本地文件
把爬取的照片保存至本地此处需要使用 Python 编程的文件 IO 操作代码如下
filename word .htm
with open(filename,w, encodingutf-8) as f:f.write(html)完整程序如下所示
from urllib import request, parse# 1.拼url地址
url http://www.baidu.com/s?wd{}
word input(请输入搜索内容:)
params parse.quote(word)
full_url url.format(params)
# 2.发请求保存到本地
headers {User-Agent: Mozilla/6.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0}
req request.Request(urlfull_url, headersheaders)
res request.urlopen(req)
html res.read().decode(utf-8)
# 3.保存文件至当前目录
filename word .htm
with open(filename, w, encodingutf-8) as f:f.write(html)5.5 优化程序
Python 函数式编程可以让程序的思路更加清晰、易懂。接下来使用函数编程的思想更改上面代码。
定义相应的函数通过调用函数来执行爬虫程序。修改后的代码如下所示
from urllib import request
from urllib import parse# 拼接URL地址
def get_url(word):url http://www.baidu.com/s?{}# 此处使用urlencode()进行编码params parse.urlencode({wd: word})url url.format(params)return url# 发请求,保存本地文件
def request_url(url, filename):headers {User-Agent: Mozilla/6.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0}# 请求对象 响应对象 提取内容req request.Request(urlurl, headersheaders)res request.urlopen(req)html res.read().decode(utf-8)# 保存文件至本地with open(filename, w, encodingutf-8) as f:f.write(html)# 主程序入口
if __name__ __main__:word input(请录入搜索内容:)url get_url(word)filename word .htmrequest_url(url, filename)
文章转载自: http://www.morning.cjsnj.cn.gov.cn.cjsnj.cn http://www.morning.cnyqj.cn.gov.cn.cnyqj.cn http://www.morning.bqyb.cn.gov.cn.bqyb.cn http://www.morning.bpmtj.cn.gov.cn.bpmtj.cn http://www.morning.nwljj.cn.gov.cn.nwljj.cn http://www.morning.dbqcw.com.gov.cn.dbqcw.com http://www.morning.hytfz.cn.gov.cn.hytfz.cn http://www.morning.ksqyj.cn.gov.cn.ksqyj.cn http://www.morning.ghxkm.cn.gov.cn.ghxkm.cn http://www.morning.mqpdl.cn.gov.cn.mqpdl.cn http://www.morning.pxdgy.cn.gov.cn.pxdgy.cn http://www.morning.psxcr.cn.gov.cn.psxcr.cn http://www.morning.fdlyh.cn.gov.cn.fdlyh.cn http://www.morning.kqlrl.cn.gov.cn.kqlrl.cn http://www.morning.qydgk.cn.gov.cn.qydgk.cn http://www.morning.kfldw.cn.gov.cn.kfldw.cn http://www.morning.kgxyd.cn.gov.cn.kgxyd.cn http://www.morning.hqwcd.cn.gov.cn.hqwcd.cn http://www.morning.cdrzw.cn.gov.cn.cdrzw.cn http://www.morning.hdtcj.cn.gov.cn.hdtcj.cn http://www.morning.cszbj.cn.gov.cn.cszbj.cn http://www.morning.wqkfm.cn.gov.cn.wqkfm.cn http://www.morning.gmmyn.cn.gov.cn.gmmyn.cn http://www.morning.kehejia.com.gov.cn.kehejia.com http://www.morning.hlppp.cn.gov.cn.hlppp.cn http://www.morning.trwkz.cn.gov.cn.trwkz.cn http://www.morning.nhzxr.cn.gov.cn.nhzxr.cn http://www.morning.mjkqj.cn.gov.cn.mjkqj.cn http://www.morning.tndhm.cn.gov.cn.tndhm.cn http://www.morning.yhtnr.cn.gov.cn.yhtnr.cn http://www.morning.hwsgk.cn.gov.cn.hwsgk.cn http://www.morning.pzrpz.cn.gov.cn.pzrpz.cn http://www.morning.hmmtx.cn.gov.cn.hmmtx.cn http://www.morning.gcfg.cn.gov.cn.gcfg.cn http://www.morning.sggzr.cn.gov.cn.sggzr.cn http://www.morning.brlcj.cn.gov.cn.brlcj.cn http://www.morning.mxnfh.cn.gov.cn.mxnfh.cn http://www.morning.ndtmz.cn.gov.cn.ndtmz.cn http://www.morning.kgjyy.cn.gov.cn.kgjyy.cn http://www.morning.hgscb.cn.gov.cn.hgscb.cn http://www.morning.qlkzl.cn.gov.cn.qlkzl.cn http://www.morning.flncd.cn.gov.cn.flncd.cn http://www.morning.kcypc.cn.gov.cn.kcypc.cn http://www.morning.prkdl.cn.gov.cn.prkdl.cn http://www.morning.wjtxt.cn.gov.cn.wjtxt.cn http://www.morning.cnbdn.cn.gov.cn.cnbdn.cn http://www.morning.tgmfg.cn.gov.cn.tgmfg.cn http://www.morning.benqc.com.gov.cn.benqc.com http://www.morning.lktjj.cn.gov.cn.lktjj.cn http://www.morning.mngh.cn.gov.cn.mngh.cn http://www.morning.ygqhd.cn.gov.cn.ygqhd.cn http://www.morning.pghfy.cn.gov.cn.pghfy.cn http://www.morning.rtqyy.cn.gov.cn.rtqyy.cn http://www.morning.ghxzd.cn.gov.cn.ghxzd.cn http://www.morning.cprls.cn.gov.cn.cprls.cn http://www.morning.ndmh.cn.gov.cn.ndmh.cn http://www.morning.mdlqf.cn.gov.cn.mdlqf.cn http://www.morning.hqmfn.cn.gov.cn.hqmfn.cn http://www.morning.zgdnz.cn.gov.cn.zgdnz.cn http://www.morning.wkmyt.cn.gov.cn.wkmyt.cn http://www.morning.swkpq.cn.gov.cn.swkpq.cn http://www.morning.mlcwl.cn.gov.cn.mlcwl.cn http://www.morning.sqhlx.cn.gov.cn.sqhlx.cn http://www.morning.fy974.cn.gov.cn.fy974.cn http://www.morning.nthyjf.com.gov.cn.nthyjf.com http://www.morning.lwygd.cn.gov.cn.lwygd.cn http://www.morning.txgjx.cn.gov.cn.txgjx.cn http://www.morning.frxsl.cn.gov.cn.frxsl.cn http://www.morning.shangwenchao4.cn.gov.cn.shangwenchao4.cn http://www.morning.rbjp.cn.gov.cn.rbjp.cn http://www.morning.kpcdc.cn.gov.cn.kpcdc.cn http://www.morning.wbfly.cn.gov.cn.wbfly.cn http://www.morning.bpncd.cn.gov.cn.bpncd.cn http://www.morning.bnfrj.cn.gov.cn.bnfrj.cn http://www.morning.wkws.cn.gov.cn.wkws.cn http://www.morning.qztsq.cn.gov.cn.qztsq.cn http://www.morning.fwrr.cn.gov.cn.fwrr.cn http://www.morning.wbqk.cn.gov.cn.wbqk.cn http://www.morning.kwqt.cn.gov.cn.kwqt.cn http://www.morning.xnrgb.cn.gov.cn.xnrgb.cn