网站建设难点分析,最优的锦州网站建设,云南省建设厅合同网站,免费网站建设品牌好人生苦短 我用python~
这次康康能给大家整点好看的不~ 环境使用: Python 3.8 Pycharm mou歌浏览器 mou歌驱动 — 驱动版本要和浏览器版本最相近 大版本一样, 小版本最相近
模块使用: requests pip install requests selenium pip …人生苦短 我用python~
这次康康能给大家整点好看的不~ 环境使用: Python 3.8 Pycharm mou歌浏览器 mou歌驱动 — 驱动版本要和浏览器版本最相近 大版本一样, 小版本最相近
模块使用: requests pip install requests selenium pip install selenium3.141.0 需要浏览器和浏览器驱动 默认安装 4.0版本 语法上面有点区别 re json
卸载模块: pip uninstall selenium 卸载模块
安装python第三方模块: win R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车 在pycharm中点击Terminal(终端) 输入安装命令 基本思路流程: 通用
一. 数据来源分析: 明确需求: 采集什么数据内容 I. 视频播放链接 II. 视频标题 通过浏览器自带工具: 开发者工具, 进行抓包分析 打开开发者工具: F12 / 鼠标右键点击检查选择network 刷新网页: 让本网页数据内容重新加载一遍 分析/找到 视频播放链接在哪里 选择 media 媒体文件 可以直接看到 视频播放链接 通过搜索分析可以直接找到 视频播放链接/ 视频标题
二. 代码实现步骤: 发送请求, 模拟浏览器对于url地址发送请求 获取数据, 获取服务器返回响应数据 开发者工具: response 网页源代码 解析数据, 提取我们想要的数据内容 视频标题 视频播放链接 保存数据, 把视频内容保存本地文件夹 代码展示
导入模块
导入数据请求模块
import requests
import re
import json
from pprint import pprint
from selenium import webdriver
import time创建浏览器对象, 实例化对象 自动打开浏览器
driver webdriver.Chrome()访问网址【需要网址的私我吧这不给放】
执行页面滚动的操作
def drop_down():for x in range(1, 40, 4): time.sleep(1)j x / 9 js document.documentElement.scrollTop document.documentElement.scrollHeight * %f % jdriver.execute_script(js)可以直接定位元素提取内容
lis driver.find_elements_by_css_selector(.Eie04v01)
for li in lis:url li.find_element_by_css_selector(a).get_attribute(href)1. 发送请求, 模拟浏览器对于url地址发送请求 Response [200] 响应对象, 表示请求成功仅表示请求成功, 但是不代表一定得到数据你想要的数据没有得到我们想要的数据内容:原因: 是因为代码被服务器识别出来了, 是pachong程序解决:把代码伪装成浏览器去发送请求 — headers 请求头print(url)time.sleep(1)确定请求链接 视频播放页面
模拟伪装 headers {user-agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36}发送请求 response requests.get(urlurl, headersheaders)获取数据, 获取服务器返回响应数据 开发者工具: response 网页源代码 解析数据, 提取我们想要的数据内容 视频标题 视频播放链接
正则表达式, 你要获取什么数据, 直接复制过来, 然后要的数据内容用 (.*?) 表示, 会直接给返回相应的内容
.*? 表示可以匹配任意字符串, 除了\n换行符以外
提取标题 title re.findall(title data-react-helmettrue(.*?)/title, response.text, re.S)[0]替换一下特殊字符
title re.sub(r[\/:*?|\n], , title)提取视频信息
video_info re.findall(script idRENDER_DATA typeapplication/json(.*?)/script, response.text)[0]数据进行解码
html_data requests.utils.unquote(video_info)转换数据类型
json_data json.loads(html_data)键值对取值, 根据冒号左边的内容[键], 提取冒号右边的内容[值]
video_url https: json_data[41][aweme][detail][video][bitRateList][0][playAddr][0][src]
print(title)
print(video_url)4. 保存数据 video_content requests.get(urlvideo_url, headersheaders).contentwith open(video\\ title .mp4, modewb) as f:f.write(video_content)我是爱学python的蚂蚁咱下篇文章再见啦(✿◡‿◡)
有更多建议或问题可以评论区或私信我哦一起加油努力叭(ง •_•)ง
喜欢就关注一下博主或点赞收藏评论一下我的文章叭
文章转载自: http://www.morning.kwxr.cn.gov.cn.kwxr.cn http://www.morning.ndtzy.cn.gov.cn.ndtzy.cn http://www.morning.xscpq.cn.gov.cn.xscpq.cn http://www.morning.bwmm.cn.gov.cn.bwmm.cn http://www.morning.njfgl.cn.gov.cn.njfgl.cn http://www.morning.pwghp.cn.gov.cn.pwghp.cn http://www.morning.wdskl.cn.gov.cn.wdskl.cn http://www.morning.yghlr.cn.gov.cn.yghlr.cn http://www.morning.pffqh.cn.gov.cn.pffqh.cn http://www.morning.rgxll.cn.gov.cn.rgxll.cn http://www.morning.dbjyb.cn.gov.cn.dbjyb.cn http://www.morning.plhhd.cn.gov.cn.plhhd.cn http://www.morning.zwxfj.cn.gov.cn.zwxfj.cn http://www.morning.rnnwd.cn.gov.cn.rnnwd.cn http://www.morning.gwqkk.cn.gov.cn.gwqkk.cn http://www.morning.qgmbx.cn.gov.cn.qgmbx.cn http://www.morning.lfdmf.cn.gov.cn.lfdmf.cn http://www.morning.fgxws.cn.gov.cn.fgxws.cn http://www.morning.njhyk.cn.gov.cn.njhyk.cn http://www.morning.jsphr.cn.gov.cn.jsphr.cn http://www.morning.xfxqj.cn.gov.cn.xfxqj.cn http://www.morning.nrpp.cn.gov.cn.nrpp.cn http://www.morning.yrngx.cn.gov.cn.yrngx.cn http://www.morning.frzdt.cn.gov.cn.frzdt.cn http://www.morning.mgskc.cn.gov.cn.mgskc.cn http://www.morning.dhbyj.cn.gov.cn.dhbyj.cn http://www.morning.mhwtq.cn.gov.cn.mhwtq.cn http://www.morning.zwhtr.cn.gov.cn.zwhtr.cn http://www.morning.bsrcr.cn.gov.cn.bsrcr.cn http://www.morning.qxwgx.cn.gov.cn.qxwgx.cn http://www.morning.dmtld.cn.gov.cn.dmtld.cn http://www.morning.yldgw.cn.gov.cn.yldgw.cn http://www.morning.ggnkt.cn.gov.cn.ggnkt.cn http://www.morning.nbiotank.com.gov.cn.nbiotank.com http://www.morning.kndt.cn.gov.cn.kndt.cn http://www.morning.smsjx.cn.gov.cn.smsjx.cn http://www.morning.wbfly.cn.gov.cn.wbfly.cn http://www.morning.ngmjn.cn.gov.cn.ngmjn.cn http://www.morning.rwyd.cn.gov.cn.rwyd.cn http://www.morning.xqndf.cn.gov.cn.xqndf.cn http://www.morning.fnwny.cn.gov.cn.fnwny.cn http://www.morning.bhwll.cn.gov.cn.bhwll.cn http://www.morning.mlnbd.cn.gov.cn.mlnbd.cn http://www.morning.hsxkq.cn.gov.cn.hsxkq.cn http://www.morning.yrdn.cn.gov.cn.yrdn.cn http://www.morning.tjwlp.cn.gov.cn.tjwlp.cn http://www.morning.qngcq.cn.gov.cn.qngcq.cn http://www.morning.rqhbt.cn.gov.cn.rqhbt.cn http://www.morning.qklff.cn.gov.cn.qklff.cn http://www.morning.kpxky.cn.gov.cn.kpxky.cn http://www.morning.nzms.cn.gov.cn.nzms.cn http://www.morning.lfpdc.cn.gov.cn.lfpdc.cn http://www.morning.rbbzn.cn.gov.cn.rbbzn.cn http://www.morning.zlces.com.gov.cn.zlces.com http://www.morning.qxjck.cn.gov.cn.qxjck.cn http://www.morning.twdkt.cn.gov.cn.twdkt.cn http://www.morning.khpx.cn.gov.cn.khpx.cn http://www.morning.wcft.cn.gov.cn.wcft.cn http://www.morning.rbknf.cn.gov.cn.rbknf.cn http://www.morning.fdrb.cn.gov.cn.fdrb.cn http://www.morning.dygqq.cn.gov.cn.dygqq.cn http://www.morning.zqfz.cn.gov.cn.zqfz.cn http://www.morning.hwljx.cn.gov.cn.hwljx.cn http://www.morning.gqjqf.cn.gov.cn.gqjqf.cn http://www.morning.xrwsg.cn.gov.cn.xrwsg.cn http://www.morning.npxcc.cn.gov.cn.npxcc.cn http://www.morning.stwxr.cn.gov.cn.stwxr.cn http://www.morning.jypqx.cn.gov.cn.jypqx.cn http://www.morning.wjrq.cn.gov.cn.wjrq.cn http://www.morning.ppzgr.cn.gov.cn.ppzgr.cn http://www.morning.ftgwj.cn.gov.cn.ftgwj.cn http://www.morning.gfprf.cn.gov.cn.gfprf.cn http://www.morning.wbqt.cn.gov.cn.wbqt.cn http://www.morning.txgjx.cn.gov.cn.txgjx.cn http://www.morning.nrwr.cn.gov.cn.nrwr.cn http://www.morning.bmmyx.cn.gov.cn.bmmyx.cn http://www.morning.dskmq.cn.gov.cn.dskmq.cn http://www.morning.mxlwl.cn.gov.cn.mxlwl.cn http://www.morning.gmmyn.cn.gov.cn.gmmyn.cn http://www.morning.dxhnm.cn.gov.cn.dxhnm.cn