当前位置: 首页 > news >正文

网站建设合同免费推广广告链接

网站建设合同,免费推广广告链接,网站flash导入页,做擦边网站 服务器如何利用Scrapy框架实战提取百度首页热榜新闻的排名、标题和链接 一、安装Scrapy库 二、创建项目(以BaiduSpider为例) scrapy startproject BaiduSpider生成每个文件的功能: 二、 创建爬虫脚本(爬虫名:news&#xff…

如何利用Scrapy框架实战提取百度首页热榜新闻的排名、标题和链接

一、安装Scrapy库

在这里插入图片描述

二、创建项目(以BaiduSpider为例)

scrapy startproject BaiduSpider

在这里插入图片描述

生成每个文件的功能:

在这里插入图片描述

二、 创建爬虫脚本(爬虫名:news)

scrapy genspider news www.baidu.com

命令执行成功后,spider目录中将生成news.py文件

在这里插入图片描述

(1)name:在同一个项目中,名字是唯一的,用来区分不同的spider。
(2)allowed_domains:允许爬取的域名,如果初始或后续请求的URL不是这个域名下的,则请求会被过滤掉,可以根据需要编辑或添加。
(3)start_urls:spider初始爬取的URL列表,可以根据需要编辑或添加。
(4)parse(self,response):解析返回的响应,提取数据或新的URL,response是请求start_urls后返回的响应。

三、修改settings脚本(位置:settings.py)

设置请求头中的User-Agent和不遵守Robots协议

在这里插入图片描述

四、完善爬虫(位置:news.py)

编写解析方法

在这里插入图片描述

五、 运行爬虫

正常运行爬虫命令

scrapy crawl news

不打印日志文件运行爬虫命令

scrapy crawl news --nolog

在这里插入图片描述

六、数据保存

6.1 修改items脚本(位置:items.py)

scrapy库提供Item对象来实现将爬取到的数据转换成结构化数据的功能。实现方法是定义Item类(继承scrapy.Item类),并定义类中的数据类型为scrapy.Filed字段。

在这里插入图片描述

6.2 编写解析方法(位置:news.py)

在这里插入图片描述

6.3 保存为JSON文件
scrapy crawl news -o news.json

命令执行成功后,BaiduSpider目录中将生成news.json文件

在这里插入图片描述

注意: 使用-o输出JSON文件时,会默认使用unicode编码,当内容为中文时,输出的JSON文件不便于查看。此时,可以在settings.py文件中修改默认的编码方式,即增加设置FEED_EXPORT_ENCODING = ‘utf-8’

http://www.tj-hxxt.cn/news/27142.html

相关文章:

  • 企业建站系统cms网络营销模式案例
  • 定制app开发的流程seo网站推广助理招聘
  • 视频网站做app还是h5网站推广专家
  • 网站开发常用模板获客软件排名前十名
  • 网站系统cms网站设计专业的公司
  • b站推广网站动漫贵港seo关键词整站优化
  • wordpress导出软件关键词排名优化提升培训
  • 桥东企业做网站南京网页搜索排名提升
  • 南昌做网站哪家便宜百度竞价托管公司
  • 做网站项目收获互联网推广有哪些方式
  • 做火情监控网站需要用什么系统网站seo诊断报告怎么写
  • 来年做哪些网站能致富培训公司
  • 腾和企业网站 优帮云如何给企业做网络推广
  • 合川网站建设公司可以免费网络推广网站
  • 网络公司网站程序手机网页制作
  • 网站推广必备的工具搜索引擎竞价排名
  • 建设银行绑定手机号码网站百度无广告搜索引擎
  • 科技小制作怎么做视频网站营销方式和渠道
  • 诸城网站做的好的企业中层管理人员培训课程
  • 北京vi设计案例分析seo搜索优化培训
  • 做网站都需要什么百度知道小程序
  • 唐山网站建设那家性价比高线上营销技巧和营销方法
  • 青岛哪家公司做网站好游戏推广赚佣金
  • 下载代码的网站百度网站推广申请
  • 本科毕业 做网站编辑域名注册流程
  • 想找个人建网站深圳网络营销推广外包
  • 网站与云平台区别个人如何做seo推广
  • 网站建设行业的前景分析舆情信息怎么写
  • 网站编辑注意问题公司官网怎么做
  • 视网站亏损了为什么还做全国十大跨境电商公司排名