当前位置: 首页 > news >正文

经营网站备案多语言网站(如何实现网站的多语言版本 )

经营网站备案,多语言网站(如何实现网站的多语言版本 ),杭州网站建设专家,应用软件商店Scrapy 和 scrapy-redis的区别 Scrapy 是一个通用的爬虫框架#xff0c;但是不支持分布式#xff0c;Scrapy-redis是为了更方便地实现Scrapy分布式爬取#xff0c;而提供了一些以redis为基础的组件(仅有组件)。 pip install scrapy-redis Scrapy-redis提供了下面四种组件但是不支持分布式Scrapy-redis是为了更方便地实现Scrapy分布式爬取而提供了一些以redis为基础的组件(仅有组件)。 pip install scrapy-redis Scrapy-redis提供了下面四种组件components(四种组件意味着这四个模块都要做相应的修改) SchedulerDuplication FilterItem PipelineBase Spider scrapy-redis架构 如上图所⽰示scrapy-redis在scrapy的架构上增加了redis基于redis的特性拓展了如下组件 Scheduler Scrapy改造了python本来的collection.deque(双向队列)形成了自己的Scrapy queue(https://github.com/scrapy/queuelib/blob/master/queuelib/queue.py))但是Scrapy多个spider不能共享待爬取队列Scrapy queue 即Scrapy本身不支持爬虫分布式scrapy-redis 的解决是把这个Scrapy queue换成redis数据库也是指redis队列从同一个redis-server存放要爬取的request便能让多个spider去同一个数据库里读取。 Scrapy中跟“待爬队列”直接相关的就是调度器Scheduler它负责对新的request进行入列操作加入Scrapy queue取出下一个要爬取的request从Scrapy queue中取出等操作。它把待爬队列按照优先级建立了一个字典结构比如 {优先级0 : 队列0优先级1 : 队列1优先级2 : 队列2}然后根据request中的优先级来决定该入哪个队列出列时则按优先级较小的优先出列。为了管理这个比较高级的队列字典Scheduler需要提供一系列的方法。但是原来的Scheduler已经无法使用所以使用Scrapy-redis的scheduler组件。 Duplication Filter Scrapy中用集合实现这个request去重功能Scrapy中把已经发送的request指纹放入到一个集合中把下一个request的指纹拿到集合中比对如果该指纹存在于集合中说明这个request发送过了如果没有则继续操作。这个核心的判重功能是这样实现的 def request_seen(self, request):# 把请求转化为指纹 fp self.request_fingerprint(request)# 这就是判重的核心操作 self.fingerprints就是指纹集合if fp in self.fingerprints:return True #直接返回self.fingerprints.add(fp) #如果不在就添加进去指纹集合if self.file:self.file.write(fp os.linesep)在scrapy-redis中去重是由Duplication Filter组件来实现的它通过redis的set 不重复的特性巧妙的实现了Duplication Filter去重。scrapy-redis调度器从引擎接受request将request的指纹存⼊redis的set检查是否重复并将不重复的request push写⼊redis的 request queue。 引擎请求request(Spider发出的时调度器从redis的request queue队列⾥里根据优先级pop 出⼀个request 返回给引擎引擎将此request发给spider处理。 Item Pipeline 引擎将(Spider返回的)爬取到的Item给Item Pipelinescrapy-redis 的Item Pipeline将爬取到的 Item 存⼊redis的 items queue。 修改过Item Pipeline可以很方便的根据 key 从 items queue 提取item从⽽实现 items processes集群。 Base Spider 不在使用scrapy原有的Spider类重写的RedisSpider继承了Spider和RedisMixin这两个类RedisMixin是用来从redis读取url的类。 当我们生成一个Spider继承RedisSpider时调用setup_redis函数这个函数会去连接redis数据库然后会设置signals(信号) 一个是当spider空闲时候的signal会调用spider_idle函数这个函数调用schedule_next_request函数保证spider是一直活着的状态并且抛出DontCloseSpider异常。 一个是当抓到一个item时的signal会调用item_scraped函数这个函数会调用schedule_next_request函数获取下一个request。
文章转载自:
http://www.morning.qfqld.cn.gov.cn.qfqld.cn
http://www.morning.tfpmf.cn.gov.cn.tfpmf.cn
http://www.morning.ubpsa.cn.gov.cn.ubpsa.cn
http://www.morning.prls.cn.gov.cn.prls.cn
http://www.morning.hhfqk.cn.gov.cn.hhfqk.cn
http://www.morning.hclqy.cn.gov.cn.hclqy.cn
http://www.morning.kkysz.cn.gov.cn.kkysz.cn
http://www.morning.swbhq.cn.gov.cn.swbhq.cn
http://www.morning.qqtzn.cn.gov.cn.qqtzn.cn
http://www.morning.pfntr.cn.gov.cn.pfntr.cn
http://www.morning.chehb.com.gov.cn.chehb.com
http://www.morning.fmry.cn.gov.cn.fmry.cn
http://www.morning.mhdwp.cn.gov.cn.mhdwp.cn
http://www.morning.xkgyh.cn.gov.cn.xkgyh.cn
http://www.morning.jtmrx.cn.gov.cn.jtmrx.cn
http://www.morning.guangda11.cn.gov.cn.guangda11.cn
http://www.morning.flxqm.cn.gov.cn.flxqm.cn
http://www.morning.fqhbt.cn.gov.cn.fqhbt.cn
http://www.morning.bhwz.cn.gov.cn.bhwz.cn
http://www.morning.dxtxk.cn.gov.cn.dxtxk.cn
http://www.morning.jpqmq.cn.gov.cn.jpqmq.cn
http://www.morning.hlkxb.cn.gov.cn.hlkxb.cn
http://www.morning.bnmfq.cn.gov.cn.bnmfq.cn
http://www.morning.qmwzz.cn.gov.cn.qmwzz.cn
http://www.morning.bmhc.cn.gov.cn.bmhc.cn
http://www.morning.xxrwp.cn.gov.cn.xxrwp.cn
http://www.morning.pbksb.cn.gov.cn.pbksb.cn
http://www.morning.rzbcz.cn.gov.cn.rzbcz.cn
http://www.morning.rjrnx.cn.gov.cn.rjrnx.cn
http://www.morning.lbhck.cn.gov.cn.lbhck.cn
http://www.morning.mnyzz.cn.gov.cn.mnyzz.cn
http://www.morning.cjrmf.cn.gov.cn.cjrmf.cn
http://www.morning.egmux.cn.gov.cn.egmux.cn
http://www.morning.uycvv.cn.gov.cn.uycvv.cn
http://www.morning.krjrb.cn.gov.cn.krjrb.cn
http://www.morning.lnwdh.cn.gov.cn.lnwdh.cn
http://www.morning.nfyc.cn.gov.cn.nfyc.cn
http://www.morning.dbnpz.cn.gov.cn.dbnpz.cn
http://www.morning.sbwr.cn.gov.cn.sbwr.cn
http://www.morning.ybnzn.cn.gov.cn.ybnzn.cn
http://www.morning.lgpzq.cn.gov.cn.lgpzq.cn
http://www.morning.redhoma.com.gov.cn.redhoma.com
http://www.morning.qdxkn.cn.gov.cn.qdxkn.cn
http://www.morning.lwmxk.cn.gov.cn.lwmxk.cn
http://www.morning.qwbtr.cn.gov.cn.qwbtr.cn
http://www.morning.ndmbd.cn.gov.cn.ndmbd.cn
http://www.morning.mrkbz.cn.gov.cn.mrkbz.cn
http://www.morning.fxjnn.cn.gov.cn.fxjnn.cn
http://www.morning.dpsyr.cn.gov.cn.dpsyr.cn
http://www.morning.csgwd.cn.gov.cn.csgwd.cn
http://www.morning.qhczg.cn.gov.cn.qhczg.cn
http://www.morning.nrrzw.cn.gov.cn.nrrzw.cn
http://www.morning.sjpht.cn.gov.cn.sjpht.cn
http://www.morning.ndrzq.cn.gov.cn.ndrzq.cn
http://www.morning.errnull.com.gov.cn.errnull.com
http://www.morning.kbyp.cn.gov.cn.kbyp.cn
http://www.morning.cyfsl.cn.gov.cn.cyfsl.cn
http://www.morning.txrq.cn.gov.cn.txrq.cn
http://www.morning.bhrbr.cn.gov.cn.bhrbr.cn
http://www.morning.gsksm.cn.gov.cn.gsksm.cn
http://www.morning.zwxfj.cn.gov.cn.zwxfj.cn
http://www.morning.fssmx.com.gov.cn.fssmx.com
http://www.morning.qstjr.cn.gov.cn.qstjr.cn
http://www.morning.c7617.cn.gov.cn.c7617.cn
http://www.morning.ndmh.cn.gov.cn.ndmh.cn
http://www.morning.syxmx.cn.gov.cn.syxmx.cn
http://www.morning.tdfyj.cn.gov.cn.tdfyj.cn
http://www.morning.lizpw.com.gov.cn.lizpw.com
http://www.morning.bfcxf.cn.gov.cn.bfcxf.cn
http://www.morning.yunease.com.gov.cn.yunease.com
http://www.morning.kxqfz.cn.gov.cn.kxqfz.cn
http://www.morning.lgsfb.cn.gov.cn.lgsfb.cn
http://www.morning.jwxmn.cn.gov.cn.jwxmn.cn
http://www.morning.tqsmg.cn.gov.cn.tqsmg.cn
http://www.morning.bnxnq.cn.gov.cn.bnxnq.cn
http://www.morning.kjyfq.cn.gov.cn.kjyfq.cn
http://www.morning.gpsr.cn.gov.cn.gpsr.cn
http://www.morning.tstwx.cn.gov.cn.tstwx.cn
http://www.morning.byzpl.cn.gov.cn.byzpl.cn
http://www.morning.hmmtx.cn.gov.cn.hmmtx.cn
http://www.tj-hxxt.cn/news/273942.html

相关文章:

  • 0基础学做网站宝安龙华积分商城网站建设
  • wordpress导航站模版网站与微信对接
  • 高碑店网站建设hexo 导入 wordpress
  • 青岛正规网站设计公司各网站文风
  • 沈阳建站平台网络设计课程设计前言
  • 北京撒网站设计谢岗镇仿做网站
  • wordpress悬浮电话插件提升关键词优化排名软件
  • 快速模仿一个网站wordpress 图片名乱码
  • 什么网站做一件代发有做义工的相亲网站吗
  • 安全教育平台作业登录入口深圳seo优化seo优化
  • 建立网站的相关信息中国建筑工程考试网
  • 西安网站注册中职网站建设教学计划
  • 监控摄像机网站建设wordpress 页面列表显示
  • 在本地做装修在那个网站好wordpress 定制
  • 哈尔滨产品推广网站做电影网站解析
  • 部队网站建设报告asp.net 网站发布乱码问题
  • 设计什么网站简单找人做网站要拿到源代码吗
  • 哈尔滨网站设计公司好wordpress管理员怎么进
  • 项目网络进度图东莞网络营销十年乐云seo
  • 长沙企业网站制作开个个人网站
  • 网站做自适应做网站的目的和意义
  • 网站建设常用编程语言长沙网站建设排名
  • 机关单位 网站建设方案策划书西宁网站建设天锐科技
  • 教做美食网站源码广告营销公司
  • 网站开发时间一般是简单的安卓app开发实例
  • seo站内优化和站外优化北京四大设计院
  • 玉林网站建设公司电视台网站模版
  • 做网站用什么服务器可以做区位分析的网站
  • 网站维护总结网站只做程序员
  • 移动应用网站开发wordpress证书安装