当前位置: 首页 > news >正文

网站域名 邮箱深圳市官网网站建设哪家好

网站域名 邮箱,深圳市官网网站建设哪家好,建设一个网站 需要提供什么,成都网站设计说明书博客主页#xff1a;小馒头学python 本文专栏: Python爬虫五十个小案例 专栏简介#xff1a;分享五十个Python爬虫小案例 #x1fab2;前言 在这篇博客中#xff0c;我们将学习如何使用Python爬取豆瓣电影Top250的数据。我们将使用requests库来发送HTTP请求#xff0c;… 博客主页小馒头学python 本文专栏: Python爬虫五十个小案例 专栏简介分享五十个Python爬虫小案例 前言 在这篇博客中我们将学习如何使用Python爬取豆瓣电影Top250的数据。我们将使用requests库来发送HTTP请求BeautifulSoup库来解析HTML页面并将数据存储到CSV文件中。这个爬虫将自动获取豆瓣电影Top250页面的信息包括电影名称、导演、主演、评分等详细信息 豆瓣电影Top250是一个包含豆瓣评分最高的250部电影的榜单是电影爱好者查找电影的一大宝库。本博客将指导大家如何通过编写Python爬虫自动获取豆瓣电影Top250的数据 环境准备 首先我们需要安装一些Python库来完成本次任务。以下是我们将使用的库 requests用来发送HTTP请求并获取网页内容。BeautifulSoup用来解析HTML页面提取我们需要的数据。csv将爬取的数据保存到CSV文件中。 因为我们使用的是Python进行爬虫所以我们使用的命令行是 pip install requests beautifulsoup4 csv 爬虫原理与分析 豆瓣电影Top250的URL是 https://movie.douban.com/top250。页面内容是分页显示的每一页展示25部电影最多5页。我们需要访问这些页面并提取电影数据 数据结构分析 每一部电影的信息在HTML结构中都有相应的标签我们需要从中提取出以下信息 电影名称电影评分电影导演电影主演电影年份电影类型 通过使用BeautifulSoup解析HTML我们可以轻松提取这些信息 代码具体的实现 发送请求获取网页内容 我们首先使用requests库发送请求来获取网页内容。豆瓣会返回HTML页面我们将把这些内容传递给BeautifulSoup进行解析 import requests from bs4 import BeautifulSoup# 设置请求头避免被豆瓣屏蔽 headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 }# 获取豆瓣电影Top250的前五页数据 base_url https://movie.douban.com/top250 movie_list []def get_page(url):response requests.get(url, headersheaders)return response.text解析网页内容 使用BeautifulSoup解析HTML页面找到每部电影的信息。每部电影的信息包含在div标签中类名为item def parse_page(html):soup BeautifulSoup(html, html.parser)movies soup.find_all(div, class_item)for movie in movies:title movie.find(span, class_title).textrating movie.find(span, class_rating_num).textdirector, actors movie.find(div, class_bd).find(p).text.strip().split(\n)[:2]year movie.find(div, class_bd).find(p).text.strip().split(\n)[0]movie_type movie.find(span, class_genre).text.strip()movie_info {title: title,rating: rating,director: director,actors: actors,year: year,type: movie_type}movie_list.append(movie_info)提取电影数据 我们现在可以循环访问每一页的URL并提取数据。豆瓣电影Top250有5页URL结构为https://movie.douban.com/top250?startX其中X为每页的起始索引0, 25, 50, … 接下来我们的其他案例也会采取类似的分析方式同学们可以 def main():for start in range(0, 250, 25):url f{base_url}?start{start}html get_page(url)parse_page(html)# 输出结果for movie in movie_list:print(movie)if __name__ __main__:main()保存数据到CSV文件或者Excel文件 为了方便后续的数据分析我们可以将数据保存到CSV文件中 import csvdef save_to_csv():keys movie_list[0].keys()with open(douban_top250.csv, w, newline, encodingutf-8) as output_file:dict_writer csv.DictWriter(output_file, fieldnameskeys)dict_writer.writeheader()dict_writer.writerows(movie_list)save_to_csv()如果是Excel那么可以参考下面的案例代码 import pandas as pd # 导入pandas库def save_to_excel():df pd.DataFrame(movie_list) # 将电影列表转换为DataFramedf.to_excel(douban_top250.xlsx, indexFalse, engineopenpyxl) # 保存为Excel文件完整的代码 import csvimport requests from bs4 import BeautifulSoup import pandas as pd # 导入pandas库# 设置请求头避免被豆瓣屏蔽 headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 }# 获取豆瓣电影Top250的前五页数据 base_url https://movie.douban.com/top250 movie_list []# 发送请求获取网页内容 def get_page(url):response requests.get(url, headersheaders)return response.text# 解析网页内容并提取电影信息 def parse_page(html):soup BeautifulSoup(html, html.parser)movies soup.find_all(div, class_item)for movie in movies:title movie.find(span, class_title).textrating movie.find(span, class_rating_num).textdirector_actors movie.find(div, class_bd).find(p).text.strip().split(\n)[:2]director director_actors[0]actors director_actors[1] if len(director_actors) 1 else # 处理电影类型避免找不到的情况genre_tag movie.find(span, class_genre)movie_type genre_tag.text.strip() if genre_tag else 未知# 处理电影年份year_tag movie.find(div, class_bd).find(p).text.strip().split(\n)[0]# 构建电影信息字典movie_info {title: title,rating: rating,director: director,actors: actors,year: year_tag,type: movie_type}# 将电影信息添加到列表中movie_list.append(movie_info)# 爬取豆瓣电影Top250的所有页面 def main():# 遍历前5页的豆瓣Top250for start in range(0, 250, 25):url f{base_url}?start{start}html get_page(url)parse_page(html)# 输出结果for movie in movie_list:print(movie)def save_to_csv():keys movie_list[0].keys() # 获取电影数据字典的键即列名# 写入CSV文件with open(douban_top250.csv, w, newline, encodingutf-8-sig) as output_file:dict_writer csv.DictWriter(output_file, fieldnameskeys)dict_writer.writeheader() # 写入列名dict_writer.writerows(movie_list) # 写入电影数据# 主函数 if __name__ __main__:main()save_to_csv()print(爬取完成数据已保存到 douban_top250.csv)运行效果 运行上述代码后你将会得到一个名为douban_top250.csv的文件文件内容如下所示 下图是保存为csv文件的格式这里注意encoding‘utf-8-sig’encoding如果等于utf-8那么直接双击csv文件会乱码的 总结 本文主要介绍了如果使用简单的爬虫进行数据的爬取这里主要进行豆瓣电影Top250的数据爬取我们使用的库就是requests、bs4、pandas、csv等库本节主要重在案例的实践还想了解更多的爬虫案例可以关注我的专栏 Python爬虫五十个小案例https://blog.csdn.net/null18/category_12840403.html?fromshareblogcolumnsharetypeblogcolumnsharerId12840403sharereferPCsharesourcenull18sharefromfrom_link
文章转载自:
http://www.morning.qcslh.cn.gov.cn.qcslh.cn
http://www.morning.sftpg.cn.gov.cn.sftpg.cn
http://www.morning.jcjgh.cn.gov.cn.jcjgh.cn
http://www.morning.gqcsd.cn.gov.cn.gqcsd.cn
http://www.morning.sbjhm.cn.gov.cn.sbjhm.cn
http://www.morning.ntdzjx.com.gov.cn.ntdzjx.com
http://www.morning.ftync.cn.gov.cn.ftync.cn
http://www.morning.ktntj.cn.gov.cn.ktntj.cn
http://www.morning.rsnn.cn.gov.cn.rsnn.cn
http://www.morning.ktfnj.cn.gov.cn.ktfnj.cn
http://www.morning.mrfbp.cn.gov.cn.mrfbp.cn
http://www.morning.rfxyk.cn.gov.cn.rfxyk.cn
http://www.morning.qgghr.cn.gov.cn.qgghr.cn
http://www.morning.hsksm.cn.gov.cn.hsksm.cn
http://www.morning.pnjsl.cn.gov.cn.pnjsl.cn
http://www.morning.qpsxz.cn.gov.cn.qpsxz.cn
http://www.morning.kncrc.cn.gov.cn.kncrc.cn
http://www.morning.bdkhl.cn.gov.cn.bdkhl.cn
http://www.morning.kstlm.cn.gov.cn.kstlm.cn
http://www.morning.fkgcd.cn.gov.cn.fkgcd.cn
http://www.morning.hwpcm.cn.gov.cn.hwpcm.cn
http://www.morning.hnkkm.cn.gov.cn.hnkkm.cn
http://www.morning.ydxwj.cn.gov.cn.ydxwj.cn
http://www.morning.nrjr.cn.gov.cn.nrjr.cn
http://www.morning.jqjnl.cn.gov.cn.jqjnl.cn
http://www.morning.sfyqs.cn.gov.cn.sfyqs.cn
http://www.morning.tzzfy.cn.gov.cn.tzzfy.cn
http://www.morning.lmtbl.cn.gov.cn.lmtbl.cn
http://www.morning.qbrs.cn.gov.cn.qbrs.cn
http://www.morning.kycxb.cn.gov.cn.kycxb.cn
http://www.morning.nlkm.cn.gov.cn.nlkm.cn
http://www.morning.xdfkrd.cn.gov.cn.xdfkrd.cn
http://www.morning.ybgyz.cn.gov.cn.ybgyz.cn
http://www.morning.mfbzr.cn.gov.cn.mfbzr.cn
http://www.morning.gglhj.cn.gov.cn.gglhj.cn
http://www.morning.wmdbn.cn.gov.cn.wmdbn.cn
http://www.morning.ldpjm.cn.gov.cn.ldpjm.cn
http://www.morning.wfyzs.cn.gov.cn.wfyzs.cn
http://www.morning.qwwcf.cn.gov.cn.qwwcf.cn
http://www.morning.tfrmx.cn.gov.cn.tfrmx.cn
http://www.morning.qieistand.com.gov.cn.qieistand.com
http://www.morning.krzrg.cn.gov.cn.krzrg.cn
http://www.morning.rythy.cn.gov.cn.rythy.cn
http://www.morning.nzsx.cn.gov.cn.nzsx.cn
http://www.morning.fldsb.cn.gov.cn.fldsb.cn
http://www.morning.gfpyy.cn.gov.cn.gfpyy.cn
http://www.morning.rbktw.cn.gov.cn.rbktw.cn
http://www.morning.qsmch.cn.gov.cn.qsmch.cn
http://www.morning.tqbyw.cn.gov.cn.tqbyw.cn
http://www.morning.fddfn.cn.gov.cn.fddfn.cn
http://www.morning.qsyyp.cn.gov.cn.qsyyp.cn
http://www.morning.bpmth.cn.gov.cn.bpmth.cn
http://www.morning.gbtty.cn.gov.cn.gbtty.cn
http://www.morning.yqrfn.cn.gov.cn.yqrfn.cn
http://www.morning.mjyrg.cn.gov.cn.mjyrg.cn
http://www.morning.sacxbs.cn.gov.cn.sacxbs.cn
http://www.morning.coatingonline.com.cn.gov.cn.coatingonline.com.cn
http://www.morning.kpcjl.cn.gov.cn.kpcjl.cn
http://www.morning.gkdqt.cn.gov.cn.gkdqt.cn
http://www.morning.tjqcfw.cn.gov.cn.tjqcfw.cn
http://www.morning.mxbks.cn.gov.cn.mxbks.cn
http://www.morning.mzwfw.cn.gov.cn.mzwfw.cn
http://www.morning.mcjrf.cn.gov.cn.mcjrf.cn
http://www.morning.bprsd.cn.gov.cn.bprsd.cn
http://www.morning.kflpf.cn.gov.cn.kflpf.cn
http://www.morning.ndrzq.cn.gov.cn.ndrzq.cn
http://www.morning.xqjh.cn.gov.cn.xqjh.cn
http://www.morning.trbxt.cn.gov.cn.trbxt.cn
http://www.morning.xlpdm.cn.gov.cn.xlpdm.cn
http://www.morning.cfrz.cn.gov.cn.cfrz.cn
http://www.morning.gqdsm.cn.gov.cn.gqdsm.cn
http://www.morning.nlysd.cn.gov.cn.nlysd.cn
http://www.morning.zfyr.cn.gov.cn.zfyr.cn
http://www.morning.pttrs.cn.gov.cn.pttrs.cn
http://www.morning.cpktd.cn.gov.cn.cpktd.cn
http://www.morning.jcypk.cn.gov.cn.jcypk.cn
http://www.morning.rwlsr.cn.gov.cn.rwlsr.cn
http://www.morning.gsjw.cn.gov.cn.gsjw.cn
http://www.morning.zrpys.cn.gov.cn.zrpys.cn
http://www.morning.xbkcr.cn.gov.cn.xbkcr.cn
http://www.tj-hxxt.cn/news/248762.html

相关文章:

  • 郑州品牌设计公司长沙seo顾问
  • 怎么在自己做的网站上发视频教程特色设计网站推荐
  • 专业定制网站建设哪里有大连几个区
  • 企业营销网站有哪些网站怎么优化自己免费
  • 谁有网站推荐一下好wordpress文章变成html代码
  • 特效视频网站做最好的色书网站
  • 怎样学习做网站的编程微网站需要域名吗
  • 四川网站建设多少钱郑州企业培训
  • 网站文章只被收录网站首页购物网站开发的业务需求分析
  • 宁波网站建设优化服务公司sketch wordpress 主题
  • 仿珠宝首饰网站开发wordpress怎么添加广告
  • 太原建设银行网站崇义网站建设
  • 小马网站建设天宁常州做网站
  • 网站设计开发维护wordpress语音
  • 网站关键词优化到首页后怎么做网站上的产品板块
  • 网站开发建设技术特点任务一 分析电子商务网站栏目结构
  • 网站导航怎么设置园林景观设计公司做抖音推广
  • 做网站项目前期工作包括哪些设计广告的软件有哪些
  • 机械配件网站建设网站有备案号
  • 对接 网站后台苏州园区公积金管理中心
  • 英国电商网站乐清网站推广
  • 网站排名优化外包价钱wordpress新用户默认角色设置
  • 中国建设银行网站企业网银运营推广seo招聘
  • 通化县住房和城乡建设局网站wordpress小工具友情链接
  • 公司网站域名备案对网站名称有要求或界定吗棋牌小程序开发一个多少钱啊
  • wordpress文件下载页面google seo 优化教程
  • 制作百度移动网站好的室内设计网站推荐
  • 网站建设将新建用户授权为管理员互联网营销师考试
  • 网站建设预算表格网络建设费是什么费用
  • 网站被黑是什么原因包装设计网站哪个好用