当前位置: 首页 > news >正文

企业网站cms模板东莞做网站的公司有哪些

企业网站cms模板,东莞做网站的公司有哪些,福州市城乡建设网站张麒蛰,网站建设有什么系统相信训练模型时数据集的获取也是一个很头疼的事情,搞cv领域的可以扛着摄像头架起三脚架拍摄获取(以前干过),但是如果是nlp领域的呢,特别是chatgpt等大模型出来后对这类文本等数据的需求更大,如果没有现成的…

相信训练模型时数据集的获取也是一个很头疼的事情,搞cv领域的可以扛着摄像头架起三脚架拍摄获取(以前干过),但是如果是nlp领域的呢,特别是chatgpt等大模型出来后对这类文本等数据的需求更大,如果没有现成的数据集的话基本上很难自己创造数据,所以爬取视为其中一个手段获取数据(但是提醒一下要合法获取数据哦)。
那么下面就以简单的批量获取mp3文件为例。

假设我们要获取网易云飙升榜的所有音乐文件:
在这里插入图片描述
地址为:https://music.163.com/#/discover/toplist?id=19723756
首先f12打开开发者工具:
在这里插入图片描述
选择network,然后根据歌曲名复制到搜索框,然后点击清理按键清理所有的请求信息。
然后点击刷新页面,可以看到出现了很多新的请求信息,这里打开抓包再开始请求是因为刚才的请求信息可能是有延迟的请求信息,并不全,这里重新获取的比较全面。
在这里插入图片描述
在左边搜索框搜索出来的点击就可以看到定位到的位置,在li标签的a标签里面,接下来我们先查看请求信息get获取一下信息打印出来看看:
在这里插入图片描述
在这里插入图片描述

选择headers,要获取两个信息,一个是url,一个是request headers底下的user agent。复制这两个信息开始下面的代码:

import requests   
import re   # 正则表达式的库url = "https://music.163.com/discover/toplist?id=19723756"
headers = {"user-agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36"
}
response = requests.get(url=url, headers=headers)
print(response.text)

在这里插入图片描述
运行后打印出获取到的信息,接下来开始从中提取想要的内容,ctrl f定位到歌名可以看到是包裹在li标签中,因为我们想要下载的是mp3格式的文件,看到mp3的下载地址的组成包括id,而id就是和歌名一一对应的,所以我们for循环获取每个歌名及id来下载对应的mp3文件:
我们先拿这个“双星”举例,他的组成是这样的:<li><a href="/song?id=2068206782">双星</a></li>,所以我们可以用正则表达式来通用表示所有的歌名的标签组成:<li><a href="/song\?id=(\d+)">(.*?)</a>,代码如下:

html_data = re.findall('<li><a href="/song\?id=(\d+)">(.*?)</a>', response.text)
# print(html_data)
for num_id, title in html_data:music_url = f"http://music.163.com/song/media/outer/url?id={num_id}.mp3"  # mp3文件地址music_content = requests.get(url=music_url, headers=headers).contentwith open("/home/alpha/桌面/results/" + title + ".mp3", mode="wb") as f:   # 下载每个mp3文件f.write(music_content)print(num_id, title)

运行结果:
在这里插入图片描述
这样就爬取下当前页面下全部的mp3文件了。

http://www.tj-hxxt.cn/news/37983.html

相关文章:

  • 美女写真网站源码做关键词优化
  • 网站开发算什么费用东莞做网站哪家好
  • 山西省智慧建筑信息平台seo服务外包公司
  • 免费网页申请谷歌优化排名公司
  • 网站建设首选亿企联盟腾讯广告推广怎么做
  • 做苗木网站哪家做得好seo关键词排名优化如何
  • 做信息图的免费网站seo技术网网
  • 网站优化方案 site ww广告接单平台有哪些
  • 福州网站建设个人兼职yoast seo教程
  • 网站的栏目青岛官网seo
  • 高端大气网络设计建设公司网站织梦模板怎么做seo信息优化
  • 武汉经济技术开发区官网广东百度seo
  • wordpress学做网站站长工具ip查询
  • 郑州营销网站公司地址优化网站排名需要多少钱
  • 国家企业信用信息没有网站怎么做google搜索入口
  • java和php做网站海南网站设计
  • 网站 只做程序长春做网站公司长春seo公司
  • 城市建设杂志社网站seo技术论坛
  • 海南爱心扶贫网站是哪个公司做的百度一下网页首页
  • 科技有限公司可以做网站建设吗?全球搜索网站排名
  • 在四川省住房和城乡建设厅网站上查代做百度首页排名价格
  • 渠道营销包括哪些方面宁波seo关键词优化方法
  • 网站模板建设上海百度seo网站优化
  • 婚纱网站开发进度表宁波免费建站seo排名
  • 自适应网站建设服务哪家好源码交易网站源码
  • 如何建立网站建设如何把网站推广出去
  • 网站建设与开发试题与答案产品推广语
  • 湖州网站设计公司电商网
  • 建筑招工人在哪个网站比较好找sem是什么公司
  • 南宁公司官网建站网络项目免费的资源网