当前位置: 首页 > news >正文

彩神app官方网站开发关键词优化系统

彩神app官方网站开发,关键词优化系统,教你如何建网站视频,广州花都网站建设爬取豆瓣电影top250 需求分析 将爬取的数据导入到表格中,方便人为查看。 实现方法 三大功能 1,下载所有网页内容。 2,处理网页中的内容提取自己想要的数据 3,导入到表格中 分析网站结构需要提取的内容 代码 import requests…

爬取豆瓣电影top250

需求分析

将爬取的数据导入到表格中,方便人为查看。

实现方法

三大功能
1,下载所有网页内容。
2,处理网页中的内容提取自己想要的数据
3,导入到表格中

分析网站结构需要提取的内容

在这里插入图片描述

代码

import requests
from bs4 import BeautifulSoup
import pprint
import json
import pandas as pd
import time# 构造分页数字列表
page_indexs = range(0, 250, 25)
list(page_indexs)# 请求头
headers = {'User-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/1'
}# 下载所有的网页然后交给下一个函数处理
def download_all_htmls():htmls = []for idx in page_indexs:url = "https://movie.douban.com/top250?start={}&filter=".format(idx)print("craw html", url)r = requests.get(url, headers=headers)if r.status_code != 200:raise Exception("error")htmls.append(r.text)time.sleep(0.5)return htmls# 解析HTML得到数据def parse_single_html(html):# 使用BeautifulSoup处理网页,传入参数html,使用html.parser模式处理soup = BeautifulSoup(html, 'html.parser')# 使用BeautifulSoup匹配想要的内容,使用find函数article_items = (soup.find("div", class_="article").find("ol", class_="grid_view").find_all("div", class_="item"))datas = []# 内容比较多分步提取内容for article_item in article_items:rank = article_item.find("div", class_="pic").find("em").get_text()info = article_item.find("div", class_="info")title = info.find("div", class_="hd").find("span", class_="title").get_text()stars = (info.find("div", class_="bd").find("div", class_="star").find_all("span"))rating_star = stars[0]["class"][0]rating_num = stars[1].get_text()comments = stars[3].get_text()datas.append({"rank": rank,"title": title,"rating_star": rating_star.replace("rating", "").replace("-t", ""),"rating_num": rating_num,"comments": comments.replace("人评价", "")})return dataspprint.pprint()if __name__ == '__main__':# 下载所有的网页内容htmls = download_all_htmls()# pprint.pprint(parse_single_html(htmls[0]))# 解析网页内容并追到all_datas的列表中all_datas = []for html in htmls:all_datas.extend(parse_single_html(html))# 使用pandas模块,批量导入到表格中df = pd.DataFrame(all_datas)df.to_excel("doubanTOP250.xlsx")

效果图

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

参考文章

https://www.bilibili.com/video/BV1CY411f7yh/?p=15

http://www.tj-hxxt.cn/news/42635.html

相关文章:

  • 厦门建设网站百度一下百度搜索首页
  • 如何破解网站后台网址深圳网站设计制作
  • 莱芜高端网站设计建设怎样进行seo
  • 美团网站建设总体需求与目标西安 做网站
  • 网站托管服务适用于哪种类型的网站南昌百度快速排名提升
  • 淘宝联盟怎么自己做网站推广上海服务政策调整
  • 5m带宽做视频网站北京网站推广营销策划
  • 永春政府网站建设情况搜索引擎优化的办法有哪些
  • 红色好看的网站开封网站快速排名优化
  • 淘宝客网站应该怎么做百度市场应用官方app
  • 网站建设与服务考试病毒式营销案例
  • 外贸seo网站建设潍坊关键词优化平台
  • 征途网站开发背景百度图片搜索引擎入口
  • 用html做简单网站大数据网络营销
  • 襄阳建设21网站制作一个网站的流程有哪些
  • 网站营销设计全面的seo网站优化排名
  • 空间服务 网站被黑关键词优化是什么
  • vue 做的网站自媒体营销的策略和方法
  • 欧美网站设计欣赏百度主页
  • 找人做网站去哪里找长尾关键词网站
  • 行业网站建设多少钱营销网站设计
  • 上海嘉定区网站建设公司万能识图
  • 浅灰色做网站背景网站怎么做谷歌推广
  • 网站备案 假身份证网页优化seo公司
  • 新乡网站建设那家好seo 优化是什么
  • 小工厂怎么做网站网站seo需要用到哪些工具
  • 福州专业网站建设网络公司搜索 引擎优化
  • 优秀高端网站建设服务商百度软件中心下载
  • nodejs做视频网站百度企业认证怎么认证
  • wordpress一个主站多个子站荥阳seo