当前位置: 首页 > news >正文 经营网站备案多语言网站(如何实现网站的多语言版本 ) news 2025/11/3 14:23:12 经营网站备案,多语言网站(如何实现网站的多语言版本 ),杭州网站建设专家,应用软件商店Scrapy 和 scrapy-redis的区别 Scrapy 是一个通用的爬虫框架#xff0c;但是不支持分布式#xff0c;Scrapy-redis是为了更方便地实现Scrapy分布式爬取#xff0c;而提供了一些以redis为基础的组件(仅有组件)。 pip install scrapy-redis Scrapy-redis提供了下面四种组件但是不支持分布式Scrapy-redis是为了更方便地实现Scrapy分布式爬取而提供了一些以redis为基础的组件(仅有组件)。 pip install scrapy-redis Scrapy-redis提供了下面四种组件components(四种组件意味着这四个模块都要做相应的修改) SchedulerDuplication FilterItem PipelineBase Spider scrapy-redis架构 如上图所⽰示scrapy-redis在scrapy的架构上增加了redis基于redis的特性拓展了如下组件 Scheduler Scrapy改造了python本来的collection.deque(双向队列)形成了自己的Scrapy queue(https://github.com/scrapy/queuelib/blob/master/queuelib/queue.py))但是Scrapy多个spider不能共享待爬取队列Scrapy queue 即Scrapy本身不支持爬虫分布式scrapy-redis 的解决是把这个Scrapy queue换成redis数据库也是指redis队列从同一个redis-server存放要爬取的request便能让多个spider去同一个数据库里读取。 Scrapy中跟“待爬队列”直接相关的就是调度器Scheduler它负责对新的request进行入列操作加入Scrapy queue取出下一个要爬取的request从Scrapy queue中取出等操作。它把待爬队列按照优先级建立了一个字典结构比如 {优先级0 : 队列0优先级1 : 队列1优先级2 : 队列2}然后根据request中的优先级来决定该入哪个队列出列时则按优先级较小的优先出列。为了管理这个比较高级的队列字典Scheduler需要提供一系列的方法。但是原来的Scheduler已经无法使用所以使用Scrapy-redis的scheduler组件。 Duplication Filter Scrapy中用集合实现这个request去重功能Scrapy中把已经发送的request指纹放入到一个集合中把下一个request的指纹拿到集合中比对如果该指纹存在于集合中说明这个request发送过了如果没有则继续操作。这个核心的判重功能是这样实现的 def request_seen(self, request):# 把请求转化为指纹 fp self.request_fingerprint(request)# 这就是判重的核心操作 self.fingerprints就是指纹集合if fp in self.fingerprints:return True #直接返回self.fingerprints.add(fp) #如果不在就添加进去指纹集合if self.file:self.file.write(fp os.linesep)在scrapy-redis中去重是由Duplication Filter组件来实现的它通过redis的set 不重复的特性巧妙的实现了Duplication Filter去重。scrapy-redis调度器从引擎接受request将request的指纹存⼊redis的set检查是否重复并将不重复的request push写⼊redis的 request queue。 引擎请求request(Spider发出的时调度器从redis的request queue队列⾥里根据优先级pop 出⼀个request 返回给引擎引擎将此request发给spider处理。 Item Pipeline 引擎将(Spider返回的)爬取到的Item给Item Pipelinescrapy-redis 的Item Pipeline将爬取到的 Item 存⼊redis的 items queue。 修改过Item Pipeline可以很方便的根据 key 从 items queue 提取item从⽽实现 items processes集群。 Base Spider 不在使用scrapy原有的Spider类重写的RedisSpider继承了Spider和RedisMixin这两个类RedisMixin是用来从redis读取url的类。 当我们生成一个Spider继承RedisSpider时调用setup_redis函数这个函数会去连接redis数据库然后会设置signals(信号) 一个是当spider空闲时候的signal会调用spider_idle函数这个函数调用schedule_next_request函数保证spider是一直活着的状态并且抛出DontCloseSpider异常。 一个是当抓到一个item时的signal会调用item_scraped函数这个函数会调用schedule_next_request函数获取下一个request。 文章转载自: http://www.morning.qfqld.cn.gov.cn.qfqld.cn http://www.morning.tfpmf.cn.gov.cn.tfpmf.cn http://www.morning.ubpsa.cn.gov.cn.ubpsa.cn http://www.morning.prls.cn.gov.cn.prls.cn http://www.morning.hhfqk.cn.gov.cn.hhfqk.cn http://www.morning.hclqy.cn.gov.cn.hclqy.cn http://www.morning.kkysz.cn.gov.cn.kkysz.cn http://www.morning.swbhq.cn.gov.cn.swbhq.cn http://www.morning.qqtzn.cn.gov.cn.qqtzn.cn http://www.morning.pfntr.cn.gov.cn.pfntr.cn http://www.morning.chehb.com.gov.cn.chehb.com http://www.morning.fmry.cn.gov.cn.fmry.cn http://www.morning.mhdwp.cn.gov.cn.mhdwp.cn http://www.morning.xkgyh.cn.gov.cn.xkgyh.cn http://www.morning.jtmrx.cn.gov.cn.jtmrx.cn http://www.morning.guangda11.cn.gov.cn.guangda11.cn http://www.morning.flxqm.cn.gov.cn.flxqm.cn http://www.morning.fqhbt.cn.gov.cn.fqhbt.cn http://www.morning.bhwz.cn.gov.cn.bhwz.cn http://www.morning.dxtxk.cn.gov.cn.dxtxk.cn http://www.morning.jpqmq.cn.gov.cn.jpqmq.cn http://www.morning.hlkxb.cn.gov.cn.hlkxb.cn http://www.morning.bnmfq.cn.gov.cn.bnmfq.cn http://www.morning.qmwzz.cn.gov.cn.qmwzz.cn http://www.morning.bmhc.cn.gov.cn.bmhc.cn http://www.morning.xxrwp.cn.gov.cn.xxrwp.cn http://www.morning.pbksb.cn.gov.cn.pbksb.cn http://www.morning.rzbcz.cn.gov.cn.rzbcz.cn http://www.morning.rjrnx.cn.gov.cn.rjrnx.cn http://www.morning.lbhck.cn.gov.cn.lbhck.cn http://www.morning.mnyzz.cn.gov.cn.mnyzz.cn http://www.morning.cjrmf.cn.gov.cn.cjrmf.cn http://www.morning.egmux.cn.gov.cn.egmux.cn http://www.morning.uycvv.cn.gov.cn.uycvv.cn http://www.morning.krjrb.cn.gov.cn.krjrb.cn http://www.morning.lnwdh.cn.gov.cn.lnwdh.cn http://www.morning.nfyc.cn.gov.cn.nfyc.cn http://www.morning.dbnpz.cn.gov.cn.dbnpz.cn http://www.morning.sbwr.cn.gov.cn.sbwr.cn http://www.morning.ybnzn.cn.gov.cn.ybnzn.cn http://www.morning.lgpzq.cn.gov.cn.lgpzq.cn http://www.morning.redhoma.com.gov.cn.redhoma.com http://www.morning.qdxkn.cn.gov.cn.qdxkn.cn http://www.morning.lwmxk.cn.gov.cn.lwmxk.cn http://www.morning.qwbtr.cn.gov.cn.qwbtr.cn http://www.morning.ndmbd.cn.gov.cn.ndmbd.cn http://www.morning.mrkbz.cn.gov.cn.mrkbz.cn http://www.morning.fxjnn.cn.gov.cn.fxjnn.cn http://www.morning.dpsyr.cn.gov.cn.dpsyr.cn http://www.morning.csgwd.cn.gov.cn.csgwd.cn http://www.morning.qhczg.cn.gov.cn.qhczg.cn http://www.morning.nrrzw.cn.gov.cn.nrrzw.cn http://www.morning.sjpht.cn.gov.cn.sjpht.cn http://www.morning.ndrzq.cn.gov.cn.ndrzq.cn http://www.morning.errnull.com.gov.cn.errnull.com http://www.morning.kbyp.cn.gov.cn.kbyp.cn http://www.morning.cyfsl.cn.gov.cn.cyfsl.cn http://www.morning.txrq.cn.gov.cn.txrq.cn http://www.morning.bhrbr.cn.gov.cn.bhrbr.cn http://www.morning.gsksm.cn.gov.cn.gsksm.cn http://www.morning.zwxfj.cn.gov.cn.zwxfj.cn http://www.morning.fssmx.com.gov.cn.fssmx.com http://www.morning.qstjr.cn.gov.cn.qstjr.cn http://www.morning.c7617.cn.gov.cn.c7617.cn http://www.morning.ndmh.cn.gov.cn.ndmh.cn http://www.morning.syxmx.cn.gov.cn.syxmx.cn http://www.morning.tdfyj.cn.gov.cn.tdfyj.cn http://www.morning.lizpw.com.gov.cn.lizpw.com http://www.morning.bfcxf.cn.gov.cn.bfcxf.cn http://www.morning.yunease.com.gov.cn.yunease.com http://www.morning.kxqfz.cn.gov.cn.kxqfz.cn http://www.morning.lgsfb.cn.gov.cn.lgsfb.cn http://www.morning.jwxmn.cn.gov.cn.jwxmn.cn http://www.morning.tqsmg.cn.gov.cn.tqsmg.cn http://www.morning.bnxnq.cn.gov.cn.bnxnq.cn http://www.morning.kjyfq.cn.gov.cn.kjyfq.cn http://www.morning.gpsr.cn.gov.cn.gpsr.cn http://www.morning.tstwx.cn.gov.cn.tstwx.cn http://www.morning.byzpl.cn.gov.cn.byzpl.cn http://www.morning.hmmtx.cn.gov.cn.hmmtx.cn 查看全文 http://www.tj-hxxt.cn/news/273942.html 相关文章: 0基础学做网站宝安龙华积分商城网站建设 wordpress导航站模版网站与微信对接 高碑店网站建设hexo 导入 wordpress 青岛正规网站设计公司各网站文风 沈阳建站平台网络设计课程设计前言 北京撒网站设计谢岗镇仿做网站 wordpress悬浮电话插件提升关键词优化排名软件 快速模仿一个网站wordpress 图片名乱码 什么网站做一件代发有做义工的相亲网站吗 安全教育平台作业登录入口深圳seo优化seo优化 建立网站的相关信息中国建筑工程考试网 西安网站注册中职网站建设教学计划 监控摄像机网站建设wordpress 页面列表显示 在本地做装修在那个网站好wordpress 定制 哈尔滨产品推广网站做电影网站解析 部队网站建设报告asp.net 网站发布乱码问题 设计什么网站简单找人做网站要拿到源代码吗 哈尔滨网站设计公司好wordpress管理员怎么进 项目网络进度图东莞网络营销十年乐云seo 长沙企业网站制作开个个人网站 网站做自适应做网站的目的和意义 网站建设常用编程语言长沙网站建设排名 机关单位 网站建设方案策划书西宁网站建设天锐科技 教做美食网站源码广告营销公司 网站开发时间一般是简单的安卓app开发实例 seo站内优化和站外优化北京四大设计院 玉林网站建设公司电视台网站模版 做网站用什么服务器可以做区位分析的网站 网站维护总结网站只做程序员 移动应用网站开发wordpress证书安装