做网站和推广公司,扁平结构的网站,网站群发手机短信,苏州本地网站建设目录 一、反爬内容1、案例12、案例2 二、后来发现的问题解决 一、反爬内容
1、案例1
反爬的响应文本返回如下#xff1a;爬虫均能精准识别,测试链接:https://ziyuan.baidu.com/crawltools/index)非正常爬虫访问时:返回的压缩报文内容无法直接识别,可一定程度上保护站点信息安… 目录 一、反爬内容1、案例12、案例2 二、后来发现的问题解决 一、反爬内容
1、案例1
反爬的响应文本返回如下爬虫均能精准识别,测试链接:https://ziyuan.baidu.com/crawltools/index)非正常爬虫访问时:返回的压缩报文内容无法直接识别,可一定程度上保护站点信息安全;(伪装成爬虫的恶意请求、非爬虫服务器的SEO检测工具等)注:用户浏览器和爬虫看到的页面完全一致,如果您有顾虑,也可以进入网站后台网站管理站点信息关闭网站加速功能 用requests请求也是上面的响应内容返回from curl_cffi import requests as curl_requestsres curl_requests.get(http://hanxbio.com/cpgx, timeout30, impersonatechrome124)
print(res.text)但是linux机器上自动化也是难道自动化被反爬了windows上面是正常的from DrissionPage import ChromiumPage, ChromiumOptions, WebPage
co ChromiumOptions().set_paths(browser_path/data/code/spiderprj/src/crawlsall/DrugMonitor/cancel_fixed)
co.headless(True) # 设置无头加载 无头模式是一种在浏览器没有界面的情况下运行的模式它可以提高浏览器的性能和加载速
# co.incognito(True) # 无痕隐身模式打开的话不会记住你的网站账号密码的
co.set_argument(--no-sandbox) # 禁用沙箱 禁用沙箱可以避免浏览器在加载页面时进行安全检查,从而提高加载速度 默认情况下所有Chrome 用户都启用了隐私沙盒选项 https://zhuanlan.zhihu.com/p/475639754
co.set_argument(--disable-gpu) # 禁用GPU加速可以避免浏览器在加载页面时使用过多的计算资源从而提高加载速度
co.set_user_agent(user_agentMozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36) # 设置ua
# co.set_proxy(http://127.0.0.1:10109)
co.set_local_port(9211)
page ChromiumPage(co)
page.get(http://hanxbio.com/cpgx)
print(page.html)
print(page.ele(x://div[idtxt_con_243_39]//table).html)2、案例2
This page isn’t working 同样是代理问题
二、后来发现的问题解决
自动化问题解决方案linux机器我设置的那个代理有问题挂了co.set_proxy(http://127.0.0.1:10109)代理则会返回如下内容去掉那个代理ip则正常返回 requests解决方案找到有数据的具体的接口api请求from curl_cffi import requests as curl_requestsres curl_requests.get(https://nwzimg.wezhan.net/pubsf/18028/18028944/cdn-static-pages/pages/pc/170828_zh-cn.html.Body.js?version20240723111847, timeout30, impersonatechrome124)
print(res.text)