当前位置: 首页 > news >正文

网站定制windows优化大师破解版

网站定制,windows优化大师破解版,java网站留言板怎么做,做服装外单的网站有哪些内容如何利用Scrapy框架实战提取百度首页热榜新闻的排名、标题和链接 一、安装Scrapy库 二、创建项目(以BaiduSpider为例) scrapy startproject BaiduSpider生成每个文件的功能: 二、 创建爬虫脚本(爬虫名:news&#xff…

如何利用Scrapy框架实战提取百度首页热榜新闻的排名、标题和链接

一、安装Scrapy库

在这里插入图片描述

二、创建项目(以BaiduSpider为例)

scrapy startproject BaiduSpider

在这里插入图片描述

生成每个文件的功能:

在这里插入图片描述

二、 创建爬虫脚本(爬虫名:news)

scrapy genspider news www.baidu.com

命令执行成功后,spider目录中将生成news.py文件

在这里插入图片描述

(1)name:在同一个项目中,名字是唯一的,用来区分不同的spider。
(2)allowed_domains:允许爬取的域名,如果初始或后续请求的URL不是这个域名下的,则请求会被过滤掉,可以根据需要编辑或添加。
(3)start_urls:spider初始爬取的URL列表,可以根据需要编辑或添加。
(4)parse(self,response):解析返回的响应,提取数据或新的URL,response是请求start_urls后返回的响应。

三、修改settings脚本(位置:settings.py)

设置请求头中的User-Agent和不遵守Robots协议

在这里插入图片描述

四、完善爬虫(位置:news.py)

编写解析方法

在这里插入图片描述

五、 运行爬虫

正常运行爬虫命令

scrapy crawl news

不打印日志文件运行爬虫命令

scrapy crawl news --nolog

在这里插入图片描述

六、数据保存

6.1 修改items脚本(位置:items.py)

scrapy库提供Item对象来实现将爬取到的数据转换成结构化数据的功能。实现方法是定义Item类(继承scrapy.Item类),并定义类中的数据类型为scrapy.Filed字段。

在这里插入图片描述

6.2 编写解析方法(位置:news.py)

在这里插入图片描述

6.3 保存为JSON文件
scrapy crawl news -o news.json

命令执行成功后,BaiduSpider目录中将生成news.json文件

在这里插入图片描述

注意: 使用-o输出JSON文件时,会默认使用unicode编码,当内容为中文时,输出的JSON文件不便于查看。此时,可以在settings.py文件中修改默认的编码方式,即增加设置FEED_EXPORT_ENCODING = ‘utf-8’

http://www.tj-hxxt.cn/news/99565.html

相关文章:

  • 做企业网站需要建多大的画布口碑营销方案
  • 网站内容建设的布局和结构图什么网站百度收录快
  • 赞美对方公司网站做的好的日语b2b商务平台
  • 制作网站公司价格重庆高端seo
  • 济南做网站企业网站点击快速排名
  • 广州哪家做网站价格好网站优化策略
  • 在建设银行网站申请完信用卡吗app拉新接单平台
  • 网站建设在线视频网络维护培训班
  • xampp wordpress 花生壳优化大师哪个好
  • 网站建设企划动力百度热门关键词排名
  • 济南哪家公司做网站域名购买哪个网站好
  • 怎么做网站推广电话seo整站排名
  • 越秀网站建设推广代发百度帖子包收录排名
  • 长沙外贸网站建设河南企业网站建设
  • 民治营销型网站制作软文代写接单平台
  • 未来做那些网站能致富西seo优化排名
  • 如何利用NAS做网站万维网域名注册查询
  • 免费个人网站模板线上推广费用预算
  • 吉安网站开发seo外链发布平台
  • 关于集团网站建设的修改请示爱论坛
  • 济南网站seo公司今日最新新闻重大事件
  • 网站开发设计的步骤免费网上申请注册
  • 国外专门用于做网站图片的百度竞价托管外包代运营
  • 西部数码如何建设自己的网站企业培训系统app
  • 湘潭电大网站网络营销五个主要手段
  • 网站排名技巧seo推广的特点
  • 怎么看别人网站怎么做的优化免费网络推广平台
  • 网站icp备案 去哪网络营销做得比较成功的案例
  • 免费域名注册网站有哪些seo收费还是免费
  • 网站模块有哪些抖音宣传推广方案