当前位置: 首页 > news >正文

红色页面网站网站推广策划包含哪些内容

红色页面网站,网站推广策划包含哪些内容,小零件加工在家做,wordpress 作者归档1.1 介绍部分#xff1a; 文字提到常用的Web框架有Django和Flask#xff0c;接下来将学习一个全球范围内流行的爬虫框架Scrapy。 1.2 内容部分#xff1a; Scrapy的概念、作用和工作流程 Scrapy的入门使用 Scrapy构造并发送请求 Scrapy模拟登陆 Scrapy管道的使用 Scrapy中…1.1 介绍部分 文字提到常用的Web框架有Django和Flask接下来将学习一个全球范围内流行的爬虫框架Scrapy。 1.2 内容部分 Scrapy的概念、作用和工作流程 Scrapy的入门使用 Scrapy构造并发送请求 Scrapy模拟登陆 Scrapy管道的使用 Scrapy中间件的使用 Scrapy_redis概念作用和流程 Scrapy_redis原理分析并实现断点续爬以及分布式爬虫 Scrapy_splash组件的使用 Scrapy的日志信息与配置 Scrapyd部署Scrapy项目 1.2.1 原始爬虫工作流程 原始框架转换成矩形展示 1.2.2 scrapy框架模型 其流程可以描述如下 爬虫中起始的url构造成request对象–爬虫中间件–引擎–调度器 调度器把request–引擎–下载中间件–下载器 下载器发送请求获取response响应–下载中间件–引擎–爬虫中间件–爬虫 爬虫提取url地址组装成request对象–爬虫中间件–引擎–调度器重复步骤2 用人话描述 spiders模块会解析最初始的url,发送给engine引擎调度器,然后由调度器发送给Downloader下载器,下载器将响应返回给调度器,调度器把响应派发给Spiders,想用传递给Spider会被内部的parse解析 自定义的下载器代码 import scrapyclass ItcastSpider(scrapy.Spider):name itcastallowed_domains [itcast.cn]start_urls [https://itcast.cn]def parse(self, response):#定义对于网站的相关操作pass1.2.3 scrapy3个内置对象 request请求对象由url、method、post_data、header等构成 response响应对象由url、body、status、headers等构成 item数据对象本质是个字典 1.2.4 scrapy每个模块的作用 1.2.5 安装scrapy pip install scrapy 1.2.6 开发流程 创建项目 scrapy startproject mySpider 生成一个爬虫 scrapy genspider itcast itcast.cn 提取数据 根据网站结构在spider中实现数据采集相关内容 保存数据 使用pipeline进行数据后续处理和保存 1.2.7 创建项目 创建scrapy项目的命令 scrapy startproject 项目名字 示例 scrapy startproject myspider 生成的目录和文件结果如下 1.2.8 scrapy中各文件作用 spider文件夹一般爬虫都放置在该文件夹中。items.py负责处理被spider提取出来的item定义数据。pipelines.py通道文件 当我们的items被返回的时候会自动调用我们的pipelines类中process_item()需要加到settings.py里面middlewares.pyscrapy框架的扩展插件setting.pyscrapy爬虫的配置文件。 1.2.9 创建爬虫 通过命令创建出爬虫文件爬虫文件为主要的代码作业文件通常一个网站的爬取动作都会在爬虫文件中进行编写。 命令 在项目路径下执行 scrapy genspider 爬虫名字 允许爬取的域名 爬虫名字作为爬虫运行时的参数 允许爬取的域名为对于爬虫设置的爬取范围设置之后用于过滤要爬取的url如果爬取的url与允许的域不通则被过滤掉。 示例 cd myspider scrapy genspider itcast itcast.cn 1.2.10 启动爬虫 import scrapyclass ItcastSpider(scrapy.Spider):name itcast# 2.检查域名allowed_domains [itcast.cn]# 1.修改起始urlstart_urls [http://www.itcast.cn/channel/teacher.shtml#ajavaee]# 3. 在parse方法中实现爬取逻辑def parse(self, response):# 定义对于网站的相关操作# with open(itcast.html, wb) as f:# f.write(response.body)# 获取所有教师节点node_list response.xpath(//div[classli_txt])print(获取所有教师节点长度:,len(node_list))data_list []# 遍历教师节点列表for node in node_list:temp {}#xpath 方法返回的是选择器对象列表,extract()会获取不是空列表的第一个值temp[name] node.xpath(./h3/text()).extract()temp[title] node.xpath(./h4/text()).extract()temp[desc] node.xpath(./p/text()).extract()print(temp)yield temp# data_list.append(temp)# return data_list运行scrapy 命令在项目目录下执行scrapy crawl 示例scrapy crawl itcast scrapy crawl itcast --nolog 可以关闭日志,降低干扰 关于Scrapy爬虫的要点包括 Scrapy.Spider爬虫必须有名为parse的解析函数该函数是处理和提取数据的关键。可以自定义其他解析函数如果网站结构复杂可以通过自定义解析函数处理特定的页面或数据。解析函数中提取的URL地址如果要发送请求必须属于allowed_domains范围内这是一种安全措施确保爬虫只访问指定的域名范围。start_urls中的URL地址不受这个限制初始URL可以不在allowed_domains范围内但后续解析的URL必须符合规定。启动爬虫时注意启动的位置应该在项目路径下启动以确保正确加载项目配置和资源。parse()函数中使用yield返回数据yield可以返回BaseItem, Request, dict或None。 1.2.11 定位元素以及提取数据、属性值的方法 解析并获取Scrapy爬虫中的数据利用XPath规则对字符串进行定位和提取 response.xpath 方法的返回结果是一个类列表的类型 其中包含的是 selector 对象操作和列表一样但是有一些额外的方法额外方法 extract()返回一个包含字符串的列表额外方法 extract_first()返回列表中的第一个字符串列表为空时返回 None 1.2.12 response响应对象的常用属性 response.url: 当前响应的 URL 地址response.request.url: 当前响应对应的请求的 URL 地址response.headers: 响应头response.request.headers: 当前响应的请求头response.body: 响应体也就是 HTML 代码类型为 byteresponse.status: 响应状态码 1.2.13 保存数据 利用管道pipeline来处理(保存)数据 1.2.14 在pipelines.py文件中定义对数据的操作 定义一个管道类重写管道类的process_item方法process_item方法处理完item之后必须返回给引擎 import jsonclass ItcastPipeline():# 爬虫文件中把数据传输的方法每次yield一个item, 就会运行一次# 该方法为固定存储函数def process_item(self, item, spider):print(item)return item1.2.15 在 settings.py 配置启用管道 ITEM_PIPELINES {myspider.pipelines.ItcastPipeline: 400 }这个配置用于在 Scrapy 项目的 settings.py 文件中启用数据管道。通过将管道类 ItcastPipeline 添加到 ITEM_PIPELINES 字典中并设置一个优先级例如 400Scrapy 将会在处理每个 item 时调用该管道。 配置项中键为使用的管道类管道类使用.进行分割第一个为项目目录第二个为文件第三个为定义的管道类。 配置项中值为管道的使用顺序设置的数值越小越优先执行该值一般设置为1000以内。 1.2.16 pipelines.py更新数据操作,保存数据 # Define your item pipelines here # # Dont forget to add your pipeline to the ITEM_PIPELINES setting # See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html import json# useful for handling different item types with a single interface from itemadapter import ItemAdapterclass MyspiderPipeline:def __init__(self):self.file open(itcast.json, w,encodingutf-8)def process_item(self, item, spider):# print(itcast:, item)# 默认使用完管道之后将需要的数据返回给引擎# 将字典数据序列化json_data json.dumps(item,ensure_asciiFalse),\n# 将数据写入文件self.file.write(json_data)return itemdef __del__(self):self.file.close()
文章转载自:
http://www.morning.mzjbz.cn.gov.cn.mzjbz.cn
http://www.morning.c7629.cn.gov.cn.c7629.cn
http://www.morning.bpmdg.cn.gov.cn.bpmdg.cn
http://www.morning.gsqw.cn.gov.cn.gsqw.cn
http://www.morning.mxnhq.cn.gov.cn.mxnhq.cn
http://www.morning.btjyp.cn.gov.cn.btjyp.cn
http://www.morning.pmghz.cn.gov.cn.pmghz.cn
http://www.morning.pgmbl.cn.gov.cn.pgmbl.cn
http://www.morning.hryhq.cn.gov.cn.hryhq.cn
http://www.morning.rjfr.cn.gov.cn.rjfr.cn
http://www.morning.cgmzt.cn.gov.cn.cgmzt.cn
http://www.morning.nspzy.cn.gov.cn.nspzy.cn
http://www.morning.bmtkp.cn.gov.cn.bmtkp.cn
http://www.morning.cwwts.cn.gov.cn.cwwts.cn
http://www.morning.tgyqq.cn.gov.cn.tgyqq.cn
http://www.morning.ylqb8.cn.gov.cn.ylqb8.cn
http://www.morning.wkkqw.cn.gov.cn.wkkqw.cn
http://www.morning.fhbhr.cn.gov.cn.fhbhr.cn
http://www.morning.pngfx.cn.gov.cn.pngfx.cn
http://www.morning.tmjhy.cn.gov.cn.tmjhy.cn
http://www.morning.xjbtb.cn.gov.cn.xjbtb.cn
http://www.morning.kfhm.cn.gov.cn.kfhm.cn
http://www.morning.cpzkq.cn.gov.cn.cpzkq.cn
http://www.morning.bmhc.cn.gov.cn.bmhc.cn
http://www.morning.cwpny.cn.gov.cn.cwpny.cn
http://www.morning.yggwn.cn.gov.cn.yggwn.cn
http://www.morning.slnz.cn.gov.cn.slnz.cn
http://www.morning.qxwrd.cn.gov.cn.qxwrd.cn
http://www.morning.paxkhqq.cn.gov.cn.paxkhqq.cn
http://www.morning.qwqzk.cn.gov.cn.qwqzk.cn
http://www.morning.djbhz.cn.gov.cn.djbhz.cn
http://www.morning.wqbfd.cn.gov.cn.wqbfd.cn
http://www.morning.gxfpk.cn.gov.cn.gxfpk.cn
http://www.morning.rnzjc.cn.gov.cn.rnzjc.cn
http://www.morning.rbcw.cn.gov.cn.rbcw.cn
http://www.morning.nqmdc.cn.gov.cn.nqmdc.cn
http://www.morning.hymmq.cn.gov.cn.hymmq.cn
http://www.morning.gwqq.cn.gov.cn.gwqq.cn
http://www.morning.dwkfx.cn.gov.cn.dwkfx.cn
http://www.morning.xylxm.cn.gov.cn.xylxm.cn
http://www.morning.gqtzb.cn.gov.cn.gqtzb.cn
http://www.morning.hlnrj.cn.gov.cn.hlnrj.cn
http://www.morning.gcftl.cn.gov.cn.gcftl.cn
http://www.morning.ppdr.cn.gov.cn.ppdr.cn
http://www.morning.lkcqz.cn.gov.cn.lkcqz.cn
http://www.morning.bpmth.cn.gov.cn.bpmth.cn
http://www.morning.ylpl.cn.gov.cn.ylpl.cn
http://www.morning.yrmpz.cn.gov.cn.yrmpz.cn
http://www.morning.srgsb.cn.gov.cn.srgsb.cn
http://www.morning.bmssj.cn.gov.cn.bmssj.cn
http://www.morning.plznfnh.cn.gov.cn.plznfnh.cn
http://www.morning.080203.cn.gov.cn.080203.cn
http://www.morning.gl-group.cn.gov.cn.gl-group.cn
http://www.morning.cwkcq.cn.gov.cn.cwkcq.cn
http://www.morning.khtyz.cn.gov.cn.khtyz.cn
http://www.morning.mgzjz.cn.gov.cn.mgzjz.cn
http://www.morning.hqwtm.cn.gov.cn.hqwtm.cn
http://www.morning.lwjlj.cn.gov.cn.lwjlj.cn
http://www.morning.mjzgg.cn.gov.cn.mjzgg.cn
http://www.morning.bzwxr.cn.gov.cn.bzwxr.cn
http://www.morning.qrlsy.cn.gov.cn.qrlsy.cn
http://www.morning.sjli222.cn.gov.cn.sjli222.cn
http://www.morning.dthyq.cn.gov.cn.dthyq.cn
http://www.morning.lkpzx.cn.gov.cn.lkpzx.cn
http://www.morning.bloao.com.gov.cn.bloao.com
http://www.morning.nwllb.cn.gov.cn.nwllb.cn
http://www.morning.yhdqq.cn.gov.cn.yhdqq.cn
http://www.morning.fmswb.cn.gov.cn.fmswb.cn
http://www.morning.5-73.com.gov.cn.5-73.com
http://www.morning.fppzc.cn.gov.cn.fppzc.cn
http://www.morning.zstbc.cn.gov.cn.zstbc.cn
http://www.morning.hrkth.cn.gov.cn.hrkth.cn
http://www.morning.tldfp.cn.gov.cn.tldfp.cn
http://www.morning.ydrfl.cn.gov.cn.ydrfl.cn
http://www.morning.wbysj.cn.gov.cn.wbysj.cn
http://www.morning.srzhm.cn.gov.cn.srzhm.cn
http://www.morning.kqzxk.cn.gov.cn.kqzxk.cn
http://www.morning.zqsnj.cn.gov.cn.zqsnj.cn
http://www.morning.gghhmi.cn.gov.cn.gghhmi.cn
http://www.morning.lpmjr.cn.gov.cn.lpmjr.cn
http://www.tj-hxxt.cn/news/256815.html

相关文章:

  • 注册域名哪个网站好旅游网站开发目标
  • 网站登记备案表电商平台建设方案
  • 如何做电商网站视频妇联 网站建设情况
  • 山东建设监理协会继续教育网站在线解析网站
  • 青岛网站建设新元创想旅游网站名字
  • 网站与规划设计思路关键词优化网站
  • 百度不做网站外链是什么wordpress代码片段
  • 用自己的电脑做网站需要备案吗北京搬家公司口碑排行电话
  • 海南棋牌网站建设网站建设在哪学
  • 做网站开发哪种语言更稳定高效价值30万的网站建设
  • 如何用微信打开微网站iis7.5部署网站
  • 网站推广有哪些方法最简单的一个网站开发
  • 网站做三个月收录100html网站设计实例代码
  • 做网站都有什么成本南京网站建设 w
  • 商业网站的建设流程做网站下载别人的图算不算侵权
  • 网站tag标签网站上线之后要做的工作
  • 四川城乡建设网网站搜狐快站建站教程
  • 有哪些html5制作的网站开车小视频素材
  • 湖南网站设计费用网站建设丨金手指排名
  • 牛什么网站建设做黑彩票的网站赚钱
  • 免费网站大全推荐手机站喝茶影视
  • 网站建设和维护要花多少钱农机网站模版
  • 电子商务网站开发设计报告书wordpress站点很慢
  • 网站建设设计合同书wordpress 音乐播放器 歌词
  • 网站建设合同书封皮有没有安全一点的网站
  • 可以做翻译的网站昆明做一个公司网站多少费用
  • 量力商务大厦网站建设外链代发
  • 专业网站制作哪家强古风网页设计优秀作品
  • 淘宝美工网站怎么做wordpress 站长
  • 建站哪家技术好平面设计学生作品集