当前位置: 首页 > news >正文

网站推广服务chuseotrinseo公司

网站推广服务chuseo,trinseo公司,dw做的网站如何让别人看看,绍兴网站建设公司背景 近期工作中要解决两个问题,一个是数据组需要网爬一些图片数据,另外一个是要批量爬取公司用于文档协同的一个网站上的附件。于是乎,就写了两个脚本去完成任务。 爬虫思路 第一步:向确定的url发送请求,接收服务器…

背景

近期工作中要解决两个问题,一个是数据组需要网爬一些图片数据,另外一个是要批量爬取公司用于文档协同的一个网站上的附件。于是乎,就写了两个脚本去完成任务。

爬虫思路

第一步:向确定的url发送请求,接收服务器的响应信息;如果是需要用户登录的网页,需要手动获取cookie信息放入header中,或者模拟登录自动获取cookie。

第二步:对接收到的信息进行解析,找到需要的标签内容(通常是我们需要的图片或文件的url);

第三步:向目标url发送请求,保存数据到本地。

python在网络爬虫方面提供了一些框架,Scrapy、Pyspider等,由于我们要实现的都是小功能,用一些现成的库即可。

爬取附件

1、发送简单请求用urllib.request.urlopen(url)就可以了,但如果要加入headers则可用urllib.request.Request类构造一个request实例,再调用urlopen发送请求。如要用到cookie:

(如果要实现模拟登录自动获取cookie,可参考爬虫实战学习笔记_2 网络请求urllib模块+设置请求头+Cookie+模拟登陆-CSDN博客)

import urllib.requestheaders = {"Cookie": 'confluence.list.pages.cookie=list-content-tree;.......'}req = urllib.request.Request(url, headers=headers)
response = urllib.request.urlopen(req)
2、解析响应体,这里是要找到附件链接的图标,在html中是<a class="filename">的标签元素。用到BeautifulSoup。
from bs4 import BeautifulSouphtml = response.read().decode("utf8")
soup = BeautifulSoup(html, "lxml")
a_list = soup.find_all("a")
for a in a_list:if "class" in a.attrs:if "filename" in a["class"]:filename = a.text.strip()download_url = a['href']print(download_url)           
3、获得文件下载地址后,发送请求,将返回的响应保存到本地即可。这里发请求用的requests库,用urllib.request应该也可以。
import requestsfile = requests.get(download_url, headers=headers)
save_path = './download/'
if not os.path.exists(save_path):os.mkdir(save_path)
save_file = open(os.path.join(save_path, filename), 'wb')
save_file.write(file.content)
save_file.close()
print('save ok')
遗留问题:

上述脚本可针对特定网页进行附件爬取,但多个网页如何先获取到所有网页地址是个棘手的问题。目前只能通过搜寻url规律,发现里面的pageId是9位数字字符,大概确定了范围,进行暴力遍历。

爬取图片

网上关于百度、google爬取关键字图片的开源代码很多,我也是找了一个开源代码进行稍微修改,目前满足实际需要。这里附上代码,供参考。

# -*- coding: UTF-8 -*-"""
import requests
import tqdm
import os
import jsondef configs(search, page, number):url = 'https://image.baidu.com/search/acjson'params = {"tn": "resultjson_com","logid": "11555092689241190059","ipn": "rj","ct": "201326592","is": "","fp": "result","queryWord": search,"cl": "2","lm": "-1","ie": "utf-8","oe": "utf-8","adpicid": "","st": "-1","z": "","ic": "0","hd": "","latest": "","copyright": "","word": search,"s": "","se": "","tab": "","width": "","height": "","face": "0","istype": "2","qc": "","nc": "1","fr": "","expermode": "","force": "","pn": str(60 * page),"rn": number,"gsm": "1e","1617626956685": ""}return url, paramsdef loadpic(number, page, path):while (True):if number == 0:breakurl, params = configs(search, page, number)try:response = requests.get(url, headers=header, params=params).content.decode('utf-8')result = json.loads(response)url_list = []for data in result['data'][:-1]:url_list.append(data['thumbURL'])for i in range(len(url_list)):getImg(url_list[i], 60 * page + i, path)bar.update(1)number -= 1if number == 0:breakpage += 1except Exception as e:print(e)continueprint("\nfinish!")def getImg(url, idx, result_path):img = requests.get(url, headers=header)file = open(result_path + str(idx + 1) + '.jpg', 'wb')file.write(img.content)file.close()if __name__ == '__main__':search = "溜冰" # 爬取的关键词number = 100    #爬取的目标数量result_path = os.path.join(os.getcwd(), search)if not os.path.exists(result_path):os.mkdir(result_path)header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36'}bar = tqdm.tqdm(total=number)page = 0loadpic(number, page, result_path)

http://www.tj-hxxt.cn/news/3687.html

相关文章:

  • 做电视网站需要多大的服务器百度快速收录提交工具
  • 推广网站刷排名网络营销方法有哪些举例
  • ASP.NET与网站开发实践教程徐州seo排名收费
  • 做网站赔钱了建立一个企业网站需要多少钱
  • 网站怎么做一级域名跳转关键词优化排名网站
  • 有网站怎么做淘宝客百度seo策略
  • 网站建设简单合同模板下载百度搜索引擎排行榜
  • 屏蔽网页 的网站备案2024年2月新冠疫情又开始了吗
  • 网站常州建设农产品网络营销
  • 广东网站建设公司报价培训平台
  • 中国怎么进fiverr网站做任务广告公司名字
  • 镇海做网站西安网络推广公司大全
  • 邯郸哪里可以做网站厦门seo网络推广
  • 北京的广告公司网站建设seo搜索引擎优化入门
  • 如何利用开源代码做网站怎样建立网站平台
  • 微信网站开发费用优秀的网页设计网站
  • dedecms网站关键字在哪个表旺道seo
  • wordpress如何发布文件夹seo查询网站
  • 泰州网站制作公司百度一下首页下载安装桌面
  • 连接器零售在什么网站做网络推广平台有哪些公司
  • 有什么设计logo网站网络推广技巧
  • 成都网站优化最低价安卓内核级优化神器
  • 做网站需要注册哪类商标杭州seo网络公司
  • 建设网站的 成本关键词排名零芯互联排名
  • 文本网站开发英文文献免费数据统计网站
  • 加工平台有哪些设备班级优化大师app下载
  • 网站自适应 如何做长尾关键词排名推广
  • 成都广告公司网站建设开发外包网站
  • 学网站开发有前途吗一个完整的产品运营方案
  • 做私服发布网站犯法吗效果最好的推广软件