当前位置: 首页 > news >正文

网站建设合同广点通和腾讯朋友圈广告区别

网站建设合同,广点通和腾讯朋友圈广告区别,沙河网站建设,末备案网站如何做cdn如何利用Scrapy框架实战提取百度首页热榜新闻的排名、标题和链接 一、安装Scrapy库 二、创建项目(以BaiduSpider为例) scrapy startproject BaiduSpider生成每个文件的功能: 二、 创建爬虫脚本(爬虫名:news&#xff…

如何利用Scrapy框架实战提取百度首页热榜新闻的排名、标题和链接

一、安装Scrapy库

在这里插入图片描述

二、创建项目(以BaiduSpider为例)

scrapy startproject BaiduSpider

在这里插入图片描述

生成每个文件的功能:

在这里插入图片描述

二、 创建爬虫脚本(爬虫名:news)

scrapy genspider news www.baidu.com

命令执行成功后,spider目录中将生成news.py文件

在这里插入图片描述

(1)name:在同一个项目中,名字是唯一的,用来区分不同的spider。
(2)allowed_domains:允许爬取的域名,如果初始或后续请求的URL不是这个域名下的,则请求会被过滤掉,可以根据需要编辑或添加。
(3)start_urls:spider初始爬取的URL列表,可以根据需要编辑或添加。
(4)parse(self,response):解析返回的响应,提取数据或新的URL,response是请求start_urls后返回的响应。

三、修改settings脚本(位置:settings.py)

设置请求头中的User-Agent和不遵守Robots协议

在这里插入图片描述

四、完善爬虫(位置:news.py)

编写解析方法

在这里插入图片描述

五、 运行爬虫

正常运行爬虫命令

scrapy crawl news

不打印日志文件运行爬虫命令

scrapy crawl news --nolog

在这里插入图片描述

六、数据保存

6.1 修改items脚本(位置:items.py)

scrapy库提供Item对象来实现将爬取到的数据转换成结构化数据的功能。实现方法是定义Item类(继承scrapy.Item类),并定义类中的数据类型为scrapy.Filed字段。

在这里插入图片描述

6.2 编写解析方法(位置:news.py)

在这里插入图片描述

6.3 保存为JSON文件
scrapy crawl news -o news.json

命令执行成功后,BaiduSpider目录中将生成news.json文件

在这里插入图片描述

注意: 使用-o输出JSON文件时,会默认使用unicode编码,当内容为中文时,输出的JSON文件不便于查看。此时,可以在settings.py文件中修改默认的编码方式,即增加设置FEED_EXPORT_ENCODING = ‘utf-8’

http://www.tj-hxxt.cn/news/12045.html

相关文章:

  • 公司网站建设费用的会计分录seo外包公司兴田德润官方地址
  • 广州网页设计制作西安网站seo厂家
  • 大一网页设计电商网站作业软件网站关键词优化
  • 做热血钓鱼网站企业推广方式
  • 怎么优化网站源代码宝安网站建设
  • 湖南网站建设网络公司十大中文网站排名
  • 58同城武汉网站建设seo优化网站教程
  • 政府网站开发程序员重庆网络推广平台
  • 惠州网站建设培训中国网站排名网
  • 企业运营系统seo网址超级外链工具
  • 大型门户网站建设多少钱清远今日头条最新消息
  • 建网站做点什么好飞猪关键词排名优化
  • 网站建设与制作价格微信软文推广怎么做
  • 网站建设哪里有什么是seo什么是sem
  • 学校建设网站赛雷猴是什么意思
  • h5免费制作平台易企秀淘宝怎么优化关键词排名
  • 织梦做分类信息系统网站网站制作企业
  • 金水郑州网站建设淄博网站优化
  • 达川区建设局局网站网站接广告平台
  • 网站中滚动条怎么做免费信息推广平台
  • 西安网络公司网站建设seo优化价格
  • 用香港服务器做网站网络营销seo是什么意思
  • 菏砖网站建设百度关键词排名神器
  • 培训网站建设方案书网络营销咨询服务
  • 郑州做网站公司360网站推广
  • 兰州市城关区疫情最新消息河南seo
  • 怎么做网站地图导航在线建站模板
  • 代做视频的网站头条新闻今日头条官方版本
  • 佛山专业网站设计方案绍兴seo排名外包
  • 上海当地网站推广产品的文案