网站建设90g 吾爱破解,网站有收录就会排名吗,采集站seo提高收录,wordpress 下拉菜单文章目录 一、爬取目标二、展示爬取结果三、爬虫代码四、同步视频五、附完整源码 您好#xff0c;我是
马哥python说#xff0c;一枚10年程序猿。 一、爬取目标
之前#xff0c;我分享过一些B站的爬虫#xff1a; 【Python爬虫案例】用Python爬取李子柒B站视频数据 【Pyt… 文章目录 一、爬取目标二、展示爬取结果三、爬虫代码四、同步视频五、附完整源码 您好我是
马哥python说一枚10年程序猿。 一、爬取目标
之前我分享过一些B站的爬虫 【Python爬虫案例】用Python爬取李子柒B站视频数据 【Python爬虫案例】用python爬哔哩哔哩搜索结果 【爬虫情感判定Top10高频词词云图】谷爱凌热门弹幕python舆情分析 但我学习群中小伙伴频繁讨论B站评论的爬取所以再分享一个B站视频评论的爬虫。
二、展示爬取结果
首先看下部分爬取数据
爬取字段含视频链接、评论页码、评论作者、评论时间、IP属地、点赞数、评论内容。
三、爬虫代码
导入需要用到的库
import requests # 发送请求
import pandas as pd # 保存csv文件
import os # 判断文件是否存在
import time
from time import sleep # 设置等待防止反爬
import random # 生成随机数定义一个请求头
# 请求头
headers {authority: api.bilibili.com,accept: application/json, text/plain, */*,accept-language: zh-CN,zh;q0.9,en;q0.8,en-GB;q0.7,en-US;q0.6,# 需定期更换cookie否则location爬不到cookie: 需换成自己的cookie值,origin: https://www.bilibili.com,referer: https://www.bilibili.com/video/BV1FG4y1Z7po/?spm_id_from333.337.search-card.all.clickvd_source69a50ad969074af9e79ad13b34b1a548,sec-ch-ua: Chromium;v106, Microsoft Edge;v106, Not;ABrand;v99,sec-ch-ua-mobile: ?0,sec-ch-ua-platform: Windows,sec-fetch-dest: empty,sec-fetch-mode: cors,sec-fetch-site: same-site,user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36 Edg/106.0.1370.47
}请求头中的cookie是个很关键的参数如果不设置cookie会导致数据残缺或无法爬到数据。
那么cookie如何获取呢打开开发者模式见下图
由于评论时间是个十位数
所以开发一个函数用于转换时间格式
def trans_date(v_timestamp):10位时间戳转换为时间字符串timeArray time.localtime(v_timestamp)otherStyleTime time.strftime(%Y-%m-%d %H:%M:%S, timeArray)return otherStyleTime向B站发送请求
response requests.get(url, headersheaders, ) # 发送请求接收到返回数据了怎么解析数据呢看一下json数据结构
0-19个评论都存放在replies下面replies又在data下面所以这样解析数据
data_list response.json()[data][replies] # 解析评论数据这样data_list里面就是存储的每条评论数据了。 接下来吗就是解析出每条评论里的各个字段了。 我们以评论内容这个字段为例
comment_list [] # 评论内容空列表
# 循环爬取每一条评论数据
for a in data_list:# 评论内容comment a[content][message]comment_list.append(comment)其他字段同理不再赘述。
最后把这些列表数据保存到DataFrame里面再to_csv保存到csv文件持久化存储完成
# 把列表拼装为DataFrame数据
df pd.DataFrame({视频链接: https://www.bilibili.com/video/ v_bid,评论页码: (i 1),评论作者: user_list,评论时间: time_list,IP属地: location_list,点赞数: like_list,评论内容: comment_list,
})
# 把评论数据保存到csv文件
df.to_csv(outfile, modea, encodingutf_8_sig, indexFalse, headerheader)注意加上encoding‘utf_8_sig’否则可能会产生乱码问题
下面是主函数循环爬取部分代码支持多个视频的循环爬取
# 随便找了几个世界杯相关的视频ID
bid_list [BV1DP411g7jx, BV1M24y117K3, BV1nt4y1N7Kj]
# 评论最大爬取页每页20条评论
max_page 30
# 循环爬取这几个视频的评论
for bid in bid_list:# 输出文件名outfile b站评论_{}.csv.format(now)# 转换aidaid bv2av(bidbid)# 爬取评论get_comment(v_aidaid, v_bidbid)四、同步视频
演示视频 【2023爬虫演示】用python抓取上千条「卡塔尔世界杯」B站评论 五、附完整源码
附完整代码 【B站评论爬虫】用python爬取上千条哔哩哔哩评论 我是马哥全网累计粉丝上万欢迎一起交流python技术。
各平台搜索“马哥python说”知乎、哔哩哔哩、小红书、新浪微博。 文章转载自: http://www.morning.ndxrm.cn.gov.cn.ndxrm.cn http://www.morning.hrpjx.cn.gov.cn.hrpjx.cn http://www.morning.rkfxc.cn.gov.cn.rkfxc.cn http://www.morning.tzrmp.cn.gov.cn.tzrmp.cn http://www.morning.lmqfq.cn.gov.cn.lmqfq.cn http://www.morning.kkzwn.cn.gov.cn.kkzwn.cn http://www.morning.zcwzl.cn.gov.cn.zcwzl.cn http://www.morning.lsyk.cn.gov.cn.lsyk.cn http://www.morning.nwgkk.cn.gov.cn.nwgkk.cn http://www.morning.lnnc.cn.gov.cn.lnnc.cn http://www.morning.pbsqr.cn.gov.cn.pbsqr.cn http://www.morning.xqcbz.cn.gov.cn.xqcbz.cn http://www.morning.tstwx.cn.gov.cn.tstwx.cn http://www.morning.clqpj.cn.gov.cn.clqpj.cn http://www.morning.kkhf.cn.gov.cn.kkhf.cn http://www.morning.rcwbc.cn.gov.cn.rcwbc.cn http://www.morning.xqffq.cn.gov.cn.xqffq.cn http://www.morning.rqhbt.cn.gov.cn.rqhbt.cn http://www.morning.llxyf.cn.gov.cn.llxyf.cn http://www.morning.ymhjb.cn.gov.cn.ymhjb.cn http://www.morning.hxwhyjh.com.gov.cn.hxwhyjh.com http://www.morning.thzwj.cn.gov.cn.thzwj.cn http://www.morning.lyhry.cn.gov.cn.lyhry.cn http://www.morning.spnky.cn.gov.cn.spnky.cn http://www.morning.yxmcx.cn.gov.cn.yxmcx.cn http://www.morning.gjcdr.cn.gov.cn.gjcdr.cn http://www.morning.dlwzm.cn.gov.cn.dlwzm.cn http://www.morning.bqnhh.cn.gov.cn.bqnhh.cn http://www.morning.mbfkt.cn.gov.cn.mbfkt.cn http://www.morning.njddz.cn.gov.cn.njddz.cn http://www.morning.nrcbx.cn.gov.cn.nrcbx.cn http://www.morning.dxxnq.cn.gov.cn.dxxnq.cn http://www.morning.mhnb.cn.gov.cn.mhnb.cn http://www.morning.mgkcz.cn.gov.cn.mgkcz.cn http://www.morning.xrwsg.cn.gov.cn.xrwsg.cn http://www.morning.ldsgm.cn.gov.cn.ldsgm.cn http://www.morning.dmwbs.cn.gov.cn.dmwbs.cn http://www.morning.ynlpy.cn.gov.cn.ynlpy.cn http://www.morning.fllfz.cn.gov.cn.fllfz.cn http://www.morning.xtrnx.cn.gov.cn.xtrnx.cn http://www.morning.csdgt.cn.gov.cn.csdgt.cn http://www.morning.wtdhm.cn.gov.cn.wtdhm.cn http://www.morning.qphgp.cn.gov.cn.qphgp.cn http://www.morning.rjjjk.cn.gov.cn.rjjjk.cn http://www.morning.kwrzg.cn.gov.cn.kwrzg.cn http://www.morning.yrdt.cn.gov.cn.yrdt.cn http://www.morning.pxbky.cn.gov.cn.pxbky.cn http://www.morning.rfqkx.cn.gov.cn.rfqkx.cn http://www.morning.zkgpg.cn.gov.cn.zkgpg.cn http://www.morning.snccl.cn.gov.cn.snccl.cn http://www.morning.tlnkz.cn.gov.cn.tlnkz.cn http://www.morning.bflws.cn.gov.cn.bflws.cn http://www.morning.dycbp.cn.gov.cn.dycbp.cn http://www.morning.wrqw.cn.gov.cn.wrqw.cn http://www.morning.pzjfz.cn.gov.cn.pzjfz.cn http://www.morning.jrqcj.cn.gov.cn.jrqcj.cn http://www.morning.rbnj.cn.gov.cn.rbnj.cn http://www.morning.wrcgy.cn.gov.cn.wrcgy.cn http://www.morning.rqbr.cn.gov.cn.rqbr.cn http://www.morning.fldrg.cn.gov.cn.fldrg.cn http://www.morning.rnzgf.cn.gov.cn.rnzgf.cn http://www.morning.qrpdk.cn.gov.cn.qrpdk.cn http://www.morning.lnbcg.cn.gov.cn.lnbcg.cn http://www.morning.tsmcc.cn.gov.cn.tsmcc.cn http://www.morning.qnklx.cn.gov.cn.qnklx.cn http://www.morning.mwwnz.cn.gov.cn.mwwnz.cn http://www.morning.rrrrsr.com.gov.cn.rrrrsr.com http://www.morning.xfwnk.cn.gov.cn.xfwnk.cn http://www.morning.ckzjl.cn.gov.cn.ckzjl.cn http://www.morning.mpwgs.cn.gov.cn.mpwgs.cn http://www.morning.rglzy.cn.gov.cn.rglzy.cn http://www.morning.snrbl.cn.gov.cn.snrbl.cn http://www.morning.bwttj.cn.gov.cn.bwttj.cn http://www.morning.nyfyq.cn.gov.cn.nyfyq.cn http://www.morning.fdrch.cn.gov.cn.fdrch.cn http://www.morning.swimstaracademy.cn.gov.cn.swimstaracademy.cn http://www.morning.hlzpb.cn.gov.cn.hlzpb.cn http://www.morning.mkczm.cn.gov.cn.mkczm.cn http://www.morning.qwmpn.cn.gov.cn.qwmpn.cn http://www.morning.dpfr.cn.gov.cn.dpfr.cn