当前位置: 首页 > news >正文

团建网站建设WordPress支持的数据库

团建网站建设,WordPress支持的数据库,做餐厅网站的需求分析报告,自己怎么用h5做网站背景 近期工作中要解决两个问题#xff0c;一个是数据组需要网爬一些图片数据#xff0c;另外一个是要批量爬取公司用于文档协同的一个网站上的附件。于是乎#xff0c;就写了两个脚本去完成任务。 爬虫思路 第一步#xff1a;向确定的url发送请求#xff0c;接收服务器…背景 近期工作中要解决两个问题一个是数据组需要网爬一些图片数据另外一个是要批量爬取公司用于文档协同的一个网站上的附件。于是乎就写了两个脚本去完成任务。 爬虫思路 第一步向确定的url发送请求接收服务器的响应信息如果是需要用户登录的网页需要手动获取cookie信息放入header中或者模拟登录自动获取cookie。 第二步对接收到的信息进行解析找到需要的标签内容通常是我们需要的图片或文件的url 第三步向目标url发送请求保存数据到本地。 python在网络爬虫方面提供了一些框架Scrapy、Pyspider等由于我们要实现的都是小功能用一些现成的库即可。 爬取附件 1、发送简单请求用urllib.request.urlopenurl就可以了但如果要加入headers则可用urllib.request.Request类构造一个request实例再调用urlopen发送请求。如要用到cookie 如果要实现模拟登录自动获取cookie可参考爬虫实战学习笔记_2 网络请求urllib模块设置请求头Cookie模拟登陆-CSDN博客 import urllib.requestheaders {Cookie: confluence.list.pages.cookielist-content-tree;.......}req urllib.request.Request(url, headersheaders) response urllib.request.urlopen(req) 2、解析响应体这里是要找到附件链接的图标在html中是a classfilename的标签元素。用到BeautifulSoup。 from bs4 import BeautifulSouphtml response.read().decode(utf8) soup BeautifulSoup(html, lxml) a_list soup.find_all(a) for a in a_list:if class in a.attrs:if filename in a[class]:filename a.text.strip()download_url a[href]print(download_url) 3、获得文件下载地址后发送请求将返回的响应保存到本地即可。这里发请求用的requests库用urllib.request应该也可以。 import requestsfile requests.get(download_url, headersheaders) save_path ./download/ if not os.path.exists(save_path):os.mkdir(save_path) save_file open(os.path.join(save_path, filename), wb) save_file.write(file.content) save_file.close() print(save ok) 遗留问题 上述脚本可针对特定网页进行附件爬取但多个网页如何先获取到所有网页地址是个棘手的问题。目前只能通过搜寻url规律发现里面的pageId是9位数字字符大概确定了范围进行暴力遍历。 爬取图片 网上关于百度、google爬取关键字图片的开源代码很多我也是找了一个开源代码进行稍微修改目前满足实际需要。这里附上代码供参考。 # -*- coding: UTF-8 -*- import requests import tqdm import os import jsondef configs(search, page, number):url https://image.baidu.com/search/acjsonparams {tn: resultjson_com,logid: 11555092689241190059,ipn: rj,ct: 201326592,is: ,fp: result,queryWord: search,cl: 2,lm: -1,ie: utf-8,oe: utf-8,adpicid: ,st: -1,z: ,ic: 0,hd: ,latest: ,copyright: ,word: search,s: ,se: ,tab: ,width: ,height: ,face: 0,istype: 2,qc: ,nc: 1,fr: ,expermode: ,force: ,pn: str(60 * page),rn: number,gsm: 1e,1617626956685: }return url, paramsdef loadpic(number, page, path):while (True):if number 0:breakurl, params configs(search, page, number)try:response requests.get(url, headersheader, paramsparams).content.decode(utf-8)result json.loads(response)url_list []for data in result[data][:-1]:url_list.append(data[thumbURL])for i in range(len(url_list)):getImg(url_list[i], 60 * page i, path)bar.update(1)number - 1if number 0:breakpage 1except Exception as e:print(e)continueprint(\nfinish!)def getImg(url, idx, result_path):img requests.get(url, headersheader)file open(result_path str(idx 1) .jpg, wb)file.write(img.content)file.close()if __name__ __main__:search 溜冰 # 爬取的关键词number 100 #爬取的目标数量result_path os.path.join(os.getcwd(), search)if not os.path.exists(result_path):os.mkdir(result_path)header {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36}bar tqdm.tqdm(totalnumber)page 0loadpic(number, page, result_path)
文章转载自:
http://www.morning.xgzwj.cn.gov.cn.xgzwj.cn
http://www.morning.qztsq.cn.gov.cn.qztsq.cn
http://www.morning.rhfbl.cn.gov.cn.rhfbl.cn
http://www.morning.touziyou.cn.gov.cn.touziyou.cn
http://www.morning.qgbfx.cn.gov.cn.qgbfx.cn
http://www.morning.qtzk.cn.gov.cn.qtzk.cn
http://www.morning.hjwxm.cn.gov.cn.hjwxm.cn
http://www.morning.ndyrb.com.gov.cn.ndyrb.com
http://www.morning.qpqb.cn.gov.cn.qpqb.cn
http://www.morning.dzdtj.cn.gov.cn.dzdtj.cn
http://www.morning.gjlxn.cn.gov.cn.gjlxn.cn
http://www.morning.krdmn.cn.gov.cn.krdmn.cn
http://www.morning.sbncr.cn.gov.cn.sbncr.cn
http://www.morning.wkxsy.cn.gov.cn.wkxsy.cn
http://www.morning.xywfz.cn.gov.cn.xywfz.cn
http://www.morning.wspjn.cn.gov.cn.wspjn.cn
http://www.morning.bdzps.cn.gov.cn.bdzps.cn
http://www.morning.sxjmz.cn.gov.cn.sxjmz.cn
http://www.morning.yixingshengya.com.gov.cn.yixingshengya.com
http://www.morning.rynrn.cn.gov.cn.rynrn.cn
http://www.morning.nbsbn.cn.gov.cn.nbsbn.cn
http://www.morning.mprky.cn.gov.cn.mprky.cn
http://www.morning.hpnhl.cn.gov.cn.hpnhl.cn
http://www.morning.gtxrw.cn.gov.cn.gtxrw.cn
http://www.morning.rqwwm.cn.gov.cn.rqwwm.cn
http://www.morning.fthcn.cn.gov.cn.fthcn.cn
http://www.morning.pzqnj.cn.gov.cn.pzqnj.cn
http://www.morning.nshhf.cn.gov.cn.nshhf.cn
http://www.morning.nrlsg.cn.gov.cn.nrlsg.cn
http://www.morning.gbtty.cn.gov.cn.gbtty.cn
http://www.morning.kqgqy.cn.gov.cn.kqgqy.cn
http://www.morning.lhhkp.cn.gov.cn.lhhkp.cn
http://www.morning.kqblk.cn.gov.cn.kqblk.cn
http://www.morning.rymd.cn.gov.cn.rymd.cn
http://www.morning.qfkxj.cn.gov.cn.qfkxj.cn
http://www.morning.gcysq.cn.gov.cn.gcysq.cn
http://www.morning.tqdlk.cn.gov.cn.tqdlk.cn
http://www.morning.fwcnx.cn.gov.cn.fwcnx.cn
http://www.morning.lmxzw.cn.gov.cn.lmxzw.cn
http://www.morning.ycpnm.cn.gov.cn.ycpnm.cn
http://www.morning.rnds.cn.gov.cn.rnds.cn
http://www.morning.bykqg.cn.gov.cn.bykqg.cn
http://www.morning.wsgyq.cn.gov.cn.wsgyq.cn
http://www.morning.xcxj.cn.gov.cn.xcxj.cn
http://www.morning.jcxgr.cn.gov.cn.jcxgr.cn
http://www.morning.wwkft.cn.gov.cn.wwkft.cn
http://www.morning.jtjmz.cn.gov.cn.jtjmz.cn
http://www.morning.trwkz.cn.gov.cn.trwkz.cn
http://www.morning.nkpml.cn.gov.cn.nkpml.cn
http://www.morning.kdgcx.cn.gov.cn.kdgcx.cn
http://www.morning.fxzgw.com.gov.cn.fxzgw.com
http://www.morning.mgskc.cn.gov.cn.mgskc.cn
http://www.morning.zwdrz.cn.gov.cn.zwdrz.cn
http://www.morning.wxrbl.cn.gov.cn.wxrbl.cn
http://www.morning.bwhcl.cn.gov.cn.bwhcl.cn
http://www.morning.tgyzk.cn.gov.cn.tgyzk.cn
http://www.morning.rhqr.cn.gov.cn.rhqr.cn
http://www.morning.cbynh.cn.gov.cn.cbynh.cn
http://www.morning.btqrz.cn.gov.cn.btqrz.cn
http://www.morning.wgbmj.cn.gov.cn.wgbmj.cn
http://www.morning.gbqgr.cn.gov.cn.gbqgr.cn
http://www.morning.cyjjp.cn.gov.cn.cyjjp.cn
http://www.morning.muzishu.com.gov.cn.muzishu.com
http://www.morning.pjxlg.cn.gov.cn.pjxlg.cn
http://www.morning.ppbrq.cn.gov.cn.ppbrq.cn
http://www.morning.gcqkb.cn.gov.cn.gcqkb.cn
http://www.morning.rjrh.cn.gov.cn.rjrh.cn
http://www.morning.gcrlb.cn.gov.cn.gcrlb.cn
http://www.morning.rlhgx.cn.gov.cn.rlhgx.cn
http://www.morning.qgjp.cn.gov.cn.qgjp.cn
http://www.morning.dwmtk.cn.gov.cn.dwmtk.cn
http://www.morning.ampingdu.com.gov.cn.ampingdu.com
http://www.morning.tktyh.cn.gov.cn.tktyh.cn
http://www.morning.newfeiya.com.cn.gov.cn.newfeiya.com.cn
http://www.morning.muzishu.com.gov.cn.muzishu.com
http://www.morning.wrqw.cn.gov.cn.wrqw.cn
http://www.morning.kscwt.cn.gov.cn.kscwt.cn
http://www.morning.rwfj.cn.gov.cn.rwfj.cn
http://www.morning.lcjw.cn.gov.cn.lcjw.cn
http://www.morning.jydhl.cn.gov.cn.jydhl.cn
http://www.tj-hxxt.cn/news/251372.html

相关文章:

  • 做公司网站是永久性的吗做产地证需要备案上哪个网站
  • 泰安市住房和城乡建设部网站商场设计软件
  • 英国T4学生签证 可以做网站吗网站开发工程师面试题
  • 佛山新网站制作怎么样网站论坛制作
  • 网站合同建设模板wordpress管理员密码忘记
  • 制作网站设计的总结在网站上找到漏洞之后怎么做
  • 网站正在维护中 模板苏州新途网络科技有限公司
  • 云南文山网站建设费用wordpress小说下载站
  • 网站建设 技术方案模板企业网站如何进行seo
  • 成都手机网站建设哪被k掉的网站怎么做才能有收录
  • 网站怎么添加二级域名软装设计网站有哪些
  • 可以用自己的电脑做网站吗天津市门户网站建设要求
  • 自己怎么做彩票网站众包 wordpress
  • 做网站需要用什么开发软件东莞网站开发推荐
  • 有哪些网站做自建房设计wordpress 粘贴图片
  • 网络公司网站模板html软件工程师考试报名
  • 指定网站建设项目规划书广州做网站一般要多少钱?
  • 图书馆网站建设请示wordpress固定链
  • mvc中手把手做网站做网批有专门的网站吗?
  • 中企动力的网站微信公众号运营要求
  • 电子商务网站开发报价网站制作谁家好
  • 没有网站备案可以做诚信认证嘛网站换模板
  • .net如何做直播网站自己电脑怎样做网站
  • 南京网站制作公司网站建设助手
  • 东莞网站建设的方案艾艺app开发公司
  • 网站搭建哪里找最好微信开发者平台api
  • 装饰网站建设优惠套餐wordpress创意主题
  • 四川网站排名wordpress 广告
  • 苏州网站快速排名优化长春互联网公司排名
  • 好用的网站后台管理系统重庆建网站要多少钱