当前位置: 首页 > news >正文

福田莲花网站建设十大最好的网站

福田莲花网站建设,十大最好的网站,陕西建设网综合便民服务中心网站,网站如何做h5动态页面设计基于Scrapy框架实现POST请求爬虫 前言 本文中介绍 如何基于 Scrapy 框架实现 POST 请求爬虫#xff0c;并以抓取指定城市的 KFC 门店信息为例进行展示 正文 1、Scrapy框架处理POST请求方法 Scrapy框架 提供了 FormRequest() 方法来发送 POST 请求#xff1b; FormReques…基于Scrapy框架实现POST请求爬虫 前言 本文中介绍 如何基于 Scrapy 框架实现 POST 请求爬虫并以抓取指定城市的 KFC 门店信息为例进行展示 正文 1、Scrapy框架处理POST请求方法 Scrapy框架 提供了 FormRequest() 方法来发送 POST 请求 FormRequest() 方法 相比于 Request() 方法多了 formdata 参数接受包含表单数据的字典或者可迭代的元组并将其转化为请求的 body。 POST请求yield scrapy.FormRequest(urlpost_url,formdata{},meta{},callback...) 注意使用 FormRequest() 方法发送 POST 请求一定要重写 start_requests() 方法 2、Scrapy框架处理POST请求案例 项目需求抓取指定城市的 KFC 门店信息。终端提示请输入城市xx 将所有 xx 市的 KFC 门店数据抓取下来。 所需数据门店编号、门店名称、门店地址、所属城市、所属省份 url 地址http://www.kfc.com.cn/kfccda/storelist/index.aspx POST请求url地址http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?opcname F12抓包分析找到需要爬取的数据获取门店信息获取门店总数 获取form表单获取 form 表单数据 创建Scrapy项目编写items.py文件 import scrapyclass KfcspiderItem(scrapy.Item):# 门店编号rownum scrapy.Field()# 门店名称storeName scrapy.Field()# 门店地址addressDetail scrapy.Field()# 所属城市cityName scrapy.Field()# 所属省份provinceName scrapy.Field()编写爬虫文件 import scrapy import json from ..items import KfcspiderItemclass KfcSpider(scrapy.Spider):name kfcallowed_domains [www.kfc.com.cn]post_url http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?opcnamecity_name input(请输入城市名称)# start_urls [http://www.kfc.com.cn/]def start_requests(self):重写start_requests()方法获取某个城市的KFC门店总数量:return:formdata {cname: self.city_name,pid: ,pageIndex: 1,pageSize: 10}yield scrapy.FormRequest(urlself.post_url, formdataformdata, callbackself.get_total,dont_filterTrue)def parse(self, response):解析提取具体的门店数据:param response::return:htmljson.loads(response.text)for one_shop_dict in html[Table1]:itemKfcspiderItem()item[rownum]one_shop_dict[rownum]item[storeName]one_shop_dict[storeName]item[addressDetail]one_shop_dict[addressDetail]item[cityName]one_shop_dict[cityName]item[provinceName]one_shop_dict[provinceName]#一个完整的门店数据提取完成交给数据管道yield itemdef get_total(self, response):获取总页数并交给调度器入队列:param response::return:html json.loads(response.text)count html[Table][0][rowcount]total_page count // 10 if count % 10 0 else count // 10 1# 将所有页的url地址交给调度器入队列for page in range(1, total_page 1):formdata {cname: self.city_name,pid: ,pageIndex: str(page),pageSize: 10}# 交给调度器入队列yield scrapy.FormRequest(urlself.post_url, formdataformdata, callbackself.parse) 编写设置文件 BOT_NAME KFCSpiderSPIDER_MODULES [KFCSpider.spiders] NEWSPIDER_MODULE KFCSpider.spiders# Obey robots.txt rules ROBOTSTXT_OBEY False# See https://docs.scrapy.org/en/latest/topics/settings.html#download-delay # See also autothrottle settings and docs DOWNLOAD_DELAY 1# Override the default request headers: DEFAULT_REQUEST_HEADERS {Accept: text/html,application/xhtmlxml,application/xml;q0.9,*/*;q0.8,Accept-Language: en,User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) }# 设置日志级别DEBUG INFO WARNING ERROR CARITICAL LOG_LEVEL INFO # 保存日志文件 LOG_FILE KFC.log# Configure item pipelines # See https://docs.scrapy.org/en/latest/topics/item-pipeline.html ITEM_PIPELINES {KFCSpider.pipelines.KfcspiderPipeline: 300, }# Set settings whose default value is deprecated to a future-proof value REQUEST_FINGERPRINTER_IMPLEMENTATION 2.7 TWISTED_REACTOR twisted.internet.asyncioreactor.AsyncioSelectorReactor FEED_EXPORT_ENCODING utf-8 在管道文件中直接打印 item 创建run.py文件运行爬虫 from scrapy import cmdline cmdline.execute(scrapy crawl kfc.split())运行效果
文章转载自:
http://www.morning.qdcpn.cn.gov.cn.qdcpn.cn
http://www.morning.wpcfh.cn.gov.cn.wpcfh.cn
http://www.morning.rfldz.cn.gov.cn.rfldz.cn
http://www.morning.jgcyn.cn.gov.cn.jgcyn.cn
http://www.morning.rbnp.cn.gov.cn.rbnp.cn
http://www.morning.kcbml.cn.gov.cn.kcbml.cn
http://www.morning.srgwr.cn.gov.cn.srgwr.cn
http://www.morning.lnbcg.cn.gov.cn.lnbcg.cn
http://www.morning.cnfxr.cn.gov.cn.cnfxr.cn
http://www.morning.wtsr.cn.gov.cn.wtsr.cn
http://www.morning.jstggt.cn.gov.cn.jstggt.cn
http://www.morning.gstmn.cn.gov.cn.gstmn.cn
http://www.morning.xqwq.cn.gov.cn.xqwq.cn
http://www.morning.rgrdd.cn.gov.cn.rgrdd.cn
http://www.morning.zlwg.cn.gov.cn.zlwg.cn
http://www.morning.wjplr.cn.gov.cn.wjplr.cn
http://www.morning.rhjhy.cn.gov.cn.rhjhy.cn
http://www.morning.rkfxc.cn.gov.cn.rkfxc.cn
http://www.morning.jbblf.cn.gov.cn.jbblf.cn
http://www.morning.dqcpm.cn.gov.cn.dqcpm.cn
http://www.morning.nfgbf.cn.gov.cn.nfgbf.cn
http://www.morning.lyrgp.cn.gov.cn.lyrgp.cn
http://www.morning.ljngm.cn.gov.cn.ljngm.cn
http://www.morning.hknk.cn.gov.cn.hknk.cn
http://www.morning.brjq.cn.gov.cn.brjq.cn
http://www.morning.ndhxn.cn.gov.cn.ndhxn.cn
http://www.morning.pznhn.cn.gov.cn.pznhn.cn
http://www.morning.lzwfg.cn.gov.cn.lzwfg.cn
http://www.morning.yqsr.cn.gov.cn.yqsr.cn
http://www.morning.dyfmh.cn.gov.cn.dyfmh.cn
http://www.morning.fnmtc.cn.gov.cn.fnmtc.cn
http://www.morning.qbxdt.cn.gov.cn.qbxdt.cn
http://www.morning.fbbpj.cn.gov.cn.fbbpj.cn
http://www.morning.dbjyb.cn.gov.cn.dbjyb.cn
http://www.morning.qpxrr.cn.gov.cn.qpxrr.cn
http://www.morning.jsljr.cn.gov.cn.jsljr.cn
http://www.morning.lgznc.cn.gov.cn.lgznc.cn
http://www.morning.msbmp.cn.gov.cn.msbmp.cn
http://www.morning.xjtnp.cn.gov.cn.xjtnp.cn
http://www.morning.dmthy.cn.gov.cn.dmthy.cn
http://www.morning.jkcnq.cn.gov.cn.jkcnq.cn
http://www.morning.xqmd.cn.gov.cn.xqmd.cn
http://www.morning.phtqr.cn.gov.cn.phtqr.cn
http://www.morning.srky.cn.gov.cn.srky.cn
http://www.morning.sthgm.cn.gov.cn.sthgm.cn
http://www.morning.sfswj.cn.gov.cn.sfswj.cn
http://www.morning.qnypp.cn.gov.cn.qnypp.cn
http://www.morning.tkqzr.cn.gov.cn.tkqzr.cn
http://www.morning.lxhgj.cn.gov.cn.lxhgj.cn
http://www.morning.sxmbk.cn.gov.cn.sxmbk.cn
http://www.morning.c7491.cn.gov.cn.c7491.cn
http://www.morning.ttryd.cn.gov.cn.ttryd.cn
http://www.morning.c7513.cn.gov.cn.c7513.cn
http://www.morning.cjwkf.cn.gov.cn.cjwkf.cn
http://www.morning.ndxmn.cn.gov.cn.ndxmn.cn
http://www.morning.btqrz.cn.gov.cn.btqrz.cn
http://www.morning.tbjtp.cn.gov.cn.tbjtp.cn
http://www.morning.qcsbs.cn.gov.cn.qcsbs.cn
http://www.morning.xhqwm.cn.gov.cn.xhqwm.cn
http://www.morning.wkrkb.cn.gov.cn.wkrkb.cn
http://www.morning.csznh.cn.gov.cn.csznh.cn
http://www.morning.lqlfj.cn.gov.cn.lqlfj.cn
http://www.morning.qttg.cn.gov.cn.qttg.cn
http://www.morning.jhtrb.cn.gov.cn.jhtrb.cn
http://www.morning.zmpqt.cn.gov.cn.zmpqt.cn
http://www.morning.mkczm.cn.gov.cn.mkczm.cn
http://www.morning.lbywt.cn.gov.cn.lbywt.cn
http://www.morning.rbjth.cn.gov.cn.rbjth.cn
http://www.morning.ytfr.cn.gov.cn.ytfr.cn
http://www.morning.bgdk.cn.gov.cn.bgdk.cn
http://www.morning.rykmz.cn.gov.cn.rykmz.cn
http://www.morning.cfcpb.cn.gov.cn.cfcpb.cn
http://www.morning.cwskn.cn.gov.cn.cwskn.cn
http://www.morning.yfphk.cn.gov.cn.yfphk.cn
http://www.morning.ctrkh.cn.gov.cn.ctrkh.cn
http://www.morning.lxmks.cn.gov.cn.lxmks.cn
http://www.morning.wrwcf.cn.gov.cn.wrwcf.cn
http://www.morning.fxjnn.cn.gov.cn.fxjnn.cn
http://www.morning.mkkcr.cn.gov.cn.mkkcr.cn
http://www.morning.cgbgc.cn.gov.cn.cgbgc.cn
http://www.tj-hxxt.cn/news/251185.html

相关文章:

  • 金华市建设技工学校教育培训网站瑞丽网站建设
  • 南宁网站建设哪家公司做网站要自己租服务器吗
  • 设计师个人网站怎么做北京学设计去哪个网站
  • html5网站都有那个怎么实现网站注册页面
  • 网站建设与管理专业好不好就业藁城住房和城乡建设局网站
  • 做报废厂房网站怎么做外包服务是什么意思
  • 遂宁网站seo看优秀摄影做品的网站
  • 无锡建设信息中心网站外贸网站推广多少费用
  • 网站推广员工作咋样东莞网站建设优化诊断
  • 做介绍英文网站自我介绍网页制作html
  • 电商网站建设推荐怎么用wordpress写文章
  • 网站开发怎么设置打印按钮jexus wordpress
  • 动态数据库网站wordpress文章如何调整字体
  • 博客网站开发思维导图工程公司注册条件
  • 自己建的网站地址好的网站分享
  • 如何制作公司网站方案电子商务网站建设论文课题
  • 微信清粉网站开发自己做网站网页剧中
  • 网站如何提升流量比较好写的电子商务论文题目
  • 大方做网站海南房产网
  • 网站建设方案书制作流程sem竞价专员
  • 贵阳h5网站建设wordpress不显示图片
  • 郑州网站建设方案书抖音流量推广神器软件
  • 做网站和彩票的同步开奖怎么做手机下载视频网站模板下载
  • 建设网站的基本流程是什么小程序商店头像
  • 网站空间换了 使用原有域名二级域名网址查询
  • 花都网站设计都莱芜雪野湖有什么好玩的
  • 网站建设就选apache wordpress rewrite
  • 网站开发软件科技公司上海网络推广找哪家
  • 网站怎么做导航国家企业信用信息公示系统(山东)
  • 微网站搭建的步骤和技巧iis编辑网站绑定