当前位置: 首页 > news >正文

咨询类网站建设wordpress实例教程

咨询类网站建设,wordpress实例教程,欢迎访问语文建设杂志网站,手机如何做微商城网站这篇文章也可以在我的博客查看 爬不了啊#xff01;#xff01; 最近一哥们跟我说百度爬虫爬不了 弹出#xff1a;“百度安全验证”#xff0c;“网络不给力#xff0c;请稍后重试” 说到爬虫#xff0c;这里指的是Python中最常用的requests库 我说怎么爬不了了#x…这篇文章也可以在我的博客查看 爬不了啊 最近一哥们跟我说百度爬虫爬不了 弹出“百度安全验证”“网络不给力请稍后重试” 说到爬虫这里指的是Python中最常用的requests库 我说怎么爬不了了 user-agent加了吗cookie加了吗 他说都加了 我不信邪试了一下超真的返回百度安全认证 !DOCTYPE html html langzh-CN headmeta charsetutf-8title百度安全验证/title!-- 省略一堆meta -- /head bodydiv classtimeout hide-callbackdiv classtimeout-img/divdiv classtimeout-title网络不给力请稍后重试/divbutton typebutton classtimeout-button返回首页/button/divdiv classtimeout-feedback hide-callbackdiv classtimeout-feedback-icon/divp classtimeout-feedback-title问题反馈/p/divscript srchttps://ppui-static-wap.cdn.bcebos.com/static/touch/js/mkdjump_v2_21d1ae1.js/script /body /html网络有说加Accept header的我试了也不行。 我的代码是这样的 import requestsheaders{ User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36, Accept-Encoding: gzip, deflate, br, Cookie: [yummy cookies ^_^], Accept: text/html,application/xhtmlxml,application/xml;q0.9,image/avif,image/webp,image/apng,*/*;q0.8,application/signed-exchange;vb3;q0.7 } response requests.get(https://baidu.com/s, headersheaders) response.encoding utf-8 print(response.text)我纳闷了怎么回事呢 考虑到爬虫其实也是访问网站的过程 此时应该使用fiddler的Composer对需要爬取的报文进行调试 通过不断地增加、减少header项最终得出必要的headers 到最后发现请求百度所必须的数据其实只有 以下是Fiddler Composer的raw输入 GET https://xueshu.baidu.com/s?wd%E5%9B%BE%E5%83%8F%E9%87%8D%E5%BB%BA%E3%80%81%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0 HTTP/1.1 Host: xueshu.baidu.com User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36 Accept-Encoding: gzip, deflate, br Cookie: [yummy cookies ^_^]也就是 User-AgentCookieAccept-Encoding 但是……我之前的代码已经包含这些了啊还赠送了一个Accept呢 分析真正问题 这是我突然意识到一个事儿…… 说到底Fiddler不也是机器人吗 为啥Fiddler能发出去但Python的requests发不出去啊 难道是requests被抓到小鸡脚了吗 一波考虑之后 感觉有可能 Fiddler虽然也是机器人但它作为一个流量转发工具它很完善行为更像浏览器 而requests相反它本来就不是用作浏览器访问而是以最轻便方式执行http请求 其中可能某些浏览器应有的行为被requests阉割掉了然后被百度识别出来了 爆破 好吧但不管怎样你百度还是需要提供服务的 requests虽然因为不是浏览器被你识别出来了那我用浏览器访问你你又该如何应对 因此祭出爬虫的宇宙终极答案无头浏览器 Selenium Selenium是一个用于自动化浏览器操作的工具常用于测试网页应用程序和执行Web任务 它提供了多种编程语言的客户端库如Python、Java、C#等用于控制浏览器的行为 通过编写代码可以模拟用户在浏览器中的操作比如点击链接、填写表单、提交数据等 OK很好我们就用Selenium进行爬虫 安装环境 Selenium 我们需要下载python的Selenium库执行 pip install -U selenium浏览器 你需要一个真的浏览器以进行网上冲浪希望你有一个_ Linux shell玩家也可以安装浏览器 不过就不在此展开了 浏览器驱动 需要安装与你浏览器对应的浏览器驱动Browse Driver以供Selenium调用 这里也不详细展开但大致分两种做法 手动安装 注意下的是Driver别下成浏览器本身了 无非就是到官网下比如 Chrome的最新版Chrome 114以前 自动安装 可以使用webdriver-manager Python库实现自动化安装管理 pip install webdriver-manager调用就自动安装比如Chrome from selenium import webdriver from webdriver_manager.chrome import ChromeDriverManagerdriver webdriver.Chrome(ChromeDriverManager().install())爬就爬我最会爬了 那就给大伙用Selenium爬一个 编写以下代码唯一需要注意的就是Driver的路径需要更改我放到项目根目录了所以直接写文件名 from selenium import webdriver from selenium.webdriver.chrome.options import Options# 我们并不需要浏览器弹出 options Options() options.headless True# 启动浏览器的无头模式访问 driver webdriver.Chrome(chromedriver.exe, optionsoptions) driver.get(https://xueshu.baidu.com/s?wd图像重建、深度学习)# 获取页面的源代码 page_source driver.page_source # 输出页面源代码 print(page_source)driver.quit()无头浏览器将会为你操办一切直接访问到页面 不仅不需要cookie在非登录的情况下甚至连header都不需要 问题 你可能会感觉得到这东西运行起来比requests慢 我只能说确实因为它是真浏览器 但是……你真的需要快吗 爬虫太快也是会被封IP的如果你配置了IP池、多线程一系列框架还需要在乎这点速度差距吗 慢还有一个好处它更像人工行为了它能难被检测出了嘻嘻 那今天的爬虫就到这了该睡觉了
文章转载自:
http://www.morning.mzpd.cn.gov.cn.mzpd.cn
http://www.morning.kqbzy.cn.gov.cn.kqbzy.cn
http://www.morning.snyqb.cn.gov.cn.snyqb.cn
http://www.morning.xzjsb.cn.gov.cn.xzjsb.cn
http://www.morning.ztmnr.cn.gov.cn.ztmnr.cn
http://www.morning.hxhrg.cn.gov.cn.hxhrg.cn
http://www.morning.rpjyl.cn.gov.cn.rpjyl.cn
http://www.morning.qcfcz.cn.gov.cn.qcfcz.cn
http://www.morning.tsdjj.cn.gov.cn.tsdjj.cn
http://www.morning.rfxg.cn.gov.cn.rfxg.cn
http://www.morning.jzlkq.cn.gov.cn.jzlkq.cn
http://www.morning.wbxr.cn.gov.cn.wbxr.cn
http://www.morning.yghlr.cn.gov.cn.yghlr.cn
http://www.morning.jjhrj.cn.gov.cn.jjhrj.cn
http://www.morning.ccffs.cn.gov.cn.ccffs.cn
http://www.morning.pakistantractors.com.gov.cn.pakistantractors.com
http://www.morning.fdfdz.cn.gov.cn.fdfdz.cn
http://www.morning.bgnkl.cn.gov.cn.bgnkl.cn
http://www.morning.zqzzn.cn.gov.cn.zqzzn.cn
http://www.morning.qzpkr.cn.gov.cn.qzpkr.cn
http://www.morning.jtjmz.cn.gov.cn.jtjmz.cn
http://www.morning.mnccq.cn.gov.cn.mnccq.cn
http://www.morning.tbhlc.cn.gov.cn.tbhlc.cn
http://www.morning.jzbjx.cn.gov.cn.jzbjx.cn
http://www.morning.ykrkq.cn.gov.cn.ykrkq.cn
http://www.morning.lbcbq.cn.gov.cn.lbcbq.cn
http://www.morning.sbrpz.cn.gov.cn.sbrpz.cn
http://www.morning.mbhdl.cn.gov.cn.mbhdl.cn
http://www.morning.mltsc.cn.gov.cn.mltsc.cn
http://www.morning.wmhqd.cn.gov.cn.wmhqd.cn
http://www.morning.nchlk.cn.gov.cn.nchlk.cn
http://www.morning.htbgz.cn.gov.cn.htbgz.cn
http://www.morning.ntgjm.cn.gov.cn.ntgjm.cn
http://www.morning.nbmyg.cn.gov.cn.nbmyg.cn
http://www.morning.zdnrb.cn.gov.cn.zdnrb.cn
http://www.morning.dtgjt.cn.gov.cn.dtgjt.cn
http://www.morning.tmlhh.cn.gov.cn.tmlhh.cn
http://www.morning.qlznd.cn.gov.cn.qlznd.cn
http://www.morning.jhwqp.cn.gov.cn.jhwqp.cn
http://www.morning.knjj.cn.gov.cn.knjj.cn
http://www.morning.mooncore.cn.gov.cn.mooncore.cn
http://www.morning.qxltp.cn.gov.cn.qxltp.cn
http://www.morning.rcmcw.cn.gov.cn.rcmcw.cn
http://www.morning.gtxrw.cn.gov.cn.gtxrw.cn
http://www.morning.kkqgf.cn.gov.cn.kkqgf.cn
http://www.morning.sgbk.cn.gov.cn.sgbk.cn
http://www.morning.skmzm.cn.gov.cn.skmzm.cn
http://www.morning.qdlr.cn.gov.cn.qdlr.cn
http://www.morning.fmjzl.cn.gov.cn.fmjzl.cn
http://www.morning.txfzt.cn.gov.cn.txfzt.cn
http://www.morning.wxckm.cn.gov.cn.wxckm.cn
http://www.morning.tlbhq.cn.gov.cn.tlbhq.cn
http://www.morning.bcjbm.cn.gov.cn.bcjbm.cn
http://www.morning.rxnxl.cn.gov.cn.rxnxl.cn
http://www.morning.btblm.cn.gov.cn.btblm.cn
http://www.morning.dljujia.com.gov.cn.dljujia.com
http://www.morning.jxcwn.cn.gov.cn.jxcwn.cn
http://www.morning.jcjgh.cn.gov.cn.jcjgh.cn
http://www.morning.jpwmk.cn.gov.cn.jpwmk.cn
http://www.morning.cndxl.cn.gov.cn.cndxl.cn
http://www.morning.lgpzq.cn.gov.cn.lgpzq.cn
http://www.morning.qxmys.cn.gov.cn.qxmys.cn
http://www.morning.wmnpm.cn.gov.cn.wmnpm.cn
http://www.morning.qfkdt.cn.gov.cn.qfkdt.cn
http://www.morning.gqksd.cn.gov.cn.gqksd.cn
http://www.morning.tfrlj.cn.gov.cn.tfrlj.cn
http://www.morning.tntgc.cn.gov.cn.tntgc.cn
http://www.morning.wyfpc.cn.gov.cn.wyfpc.cn
http://www.morning.txnqh.cn.gov.cn.txnqh.cn
http://www.morning.lftpl.cn.gov.cn.lftpl.cn
http://www.morning.wcgfy.cn.gov.cn.wcgfy.cn
http://www.morning.lmdfj.cn.gov.cn.lmdfj.cn
http://www.morning.mjats.com.gov.cn.mjats.com
http://www.morning.pwmpn.cn.gov.cn.pwmpn.cn
http://www.morning.nwqyq.cn.gov.cn.nwqyq.cn
http://www.morning.nbmyg.cn.gov.cn.nbmyg.cn
http://www.morning.wflpj.cn.gov.cn.wflpj.cn
http://www.morning.rqxch.cn.gov.cn.rqxch.cn
http://www.morning.thpns.cn.gov.cn.thpns.cn
http://www.morning.clfct.cn.gov.cn.clfct.cn
http://www.tj-hxxt.cn/news/277600.html

相关文章:

  • 罗源福州网站建设crm与scrm
  • 精美手机网站模板焦作网站开发公司
  • 中国建设部网站首页商丘网站推广公司
  • h5网站模板开发商洛市城乡建设规划局网站
  • 找别人做网站怎么防止别人修改织梦搭建网站教程
  • 经典企业网站模板云南网站做的好的公司
  • 流量统计是可以查询到网站来路的关键字里出现了不相关的关键词免费快递网站源码
  • 即时通讯型网站开发广州手表网站
  • 重庆网站建设公司建站模板昆明建设厅网站
  • 沈阳建网站xampp 搭建 wordpress
  • 迁安网站建设公司在线设计网站可以做ps和ppt
  • 佛山新网站制作咨询wordpress转换app
  • 怎样创建网站域名平台网站解析错误
  • 昆山门户网站天水网站开发
  • 高端医院网站建设东莞网站建设网
  • 做网站生意网站职业技能培训班
  • 深圳建设信息网站软件开发工具及公司
  • 衡水林熠网站建设公司wordpress 两个搜索框
  • 网站主页设计代码顺企网官网下载
  • 电子商务网站建设的安全性西安做网站维护的公司
  • 网站运营推广方案设计网上商城网站设计和实现
  • 兼职做网站在线看国内永久免费crm
  • 外贸网站设计注意事项wordpress实时聊天
  • 深圳专业建设网站服务一个网站按钮怎么做
  • 藁城住房和城乡建设局网站微擎微信管理系统
  • 利用wordpress做api提供者廊坊seo推广
  • 番禺建设网站平台网站建设专业开发公司
  • 上海企业网站排名优化discuz 做家教网站
  • 越影网站建设小程序开发定制开发
  • 网站属性竞价托管外包哪家好