当前位置: 首页 > news >正文

天津做网站那家好富平网站建设

天津做网站那家好,富平网站建设,酒店专业培训网站建设,聊城有什么网站制作公司背景/引言 在大数据时代#xff0c;网络爬虫技术已经成为数据收集的重要手段之一。爬虫技术可以自动化地从互联网上收集数据#xff0c;节省大量人力和时间成本。然而#xff0c;当使用需要身份验证的代理服务器时#xff0c;许多现有的爬虫框架并不直接支持代理认证。这就… 背景/引言 在大数据时代网络爬虫技术已经成为数据收集的重要手段之一。爬虫技术可以自动化地从互联网上收集数据节省大量人力和时间成本。然而当使用需要身份验证的代理服务器时许多现有的爬虫框架并不直接支持代理认证。这就需要我们寻找替代方案以便在爬虫过程中能够顺利通过代理认证。 本文将介绍如何使用Python中的DrissionPage库结合Auth代理的Chrome插件实现从163新闻网站的数据采集。我们将以亿牛云爬虫代理为例详细演示如何在程序中配置代理确保爬虫能够高效、安全地运行。通过实例代码我们将展示完整的实现流程帮助开发者掌握从目标网站采集数据的实用技巧。 正文 1. 什么是DrissionPage DrissionPage是一款基于Python的网页自动化工具结合了Web浏览器自动化的便利性和requests库的高效性。其设计初衷是提供一种人性化的使用方法提高开发和运行效率。 2. 代理认证问题 由于许多爬虫框架不支持代理认证因此我们需要采取其他方案来解决这一问题。常见的解决方案包括 使用本地代理服务器如Squid将需要认证的代理转换为不需要密码的代理。安装支持代理认证的Chrome插件如SwitchyOmega在插件中配置代理认证信息然后使用框架接管浏览器。通过代码生成包含代理认证信息的Chrome插件并启动新的浏览器实例。 本文将重点介绍如何使用第三种方法通过代码生成Chrome插件来配置代理认证信息。 实例 以下代码展示了如何通过创建Chrome插件来配置代理认证并使用DrissionPage进行网页自动化操作采集163新闻网站的数据。此方法可以在任何支持Chrome扩展的环境中使用。 import string import os from DrissionPage import ChromiumOptions, ChromiumPage# 代理服务器信息以亿牛云爬虫代理为例 proxyHost www.16yun.cn proxyPort 3111# 代理认证信息 proxyUser username proxyPass passworddef create_proxy_auth_extension(proxy_host, proxy_port, proxy_username, proxy_password, schemehttp, plugin_pathNone):# 创建Chrome插件的manifest.json文件内容manifest_json {version: 1.0.0,manifest_version: 2,name: 16YUN Proxy,permissions: [proxy,tabs,unlimitedStorage,storage,all_urls,webRequest,webRequestBlocking],background: {scripts: [background.js]},minimum_chrome_version:22.0.0}# 创建Chrome插件的background.js文件内容background_js string.Template(var config {mode: fixed_servers,rules: {singleProxy: {scheme: ${scheme},host: ${host},port: parseInt(${port})},bypassList: [localhost]}};chrome.proxy.settings.set({value: config, scope: regular}, function() {});function callbackFn(details) {return {authCredentials: {username: ${username},password: ${password}}};}chrome.webRequest.onAuthRequired.addListener(callbackFn,{urls: [all_urls]},[blocking]);).substitute(hostproxy_host,portproxy_port,usernameproxy_username,passwordproxy_password,schemescheme,)# 创建插件目录并写入manifest.json和background.js文件os.makedirs(plugin_path, exist_okTrue)with open(os.path.join(plugin_path, manifest.json), w) as f:f.write(manifest_json)with open(os.path.join(plugin_path, background.js), w) as f:f.write(background_js)return os.path.join(plugin_path)# 指定插件路径 proxy_auth_plugin_path create_proxy_auth_extension(plugin_path/tmp/111,proxy_hostproxyHost,proxy_portproxyPort,proxy_usernameproxyUser,proxy_passwordproxyPass )# 使用DrissionPage进行网页自动化并加载代理认证插件 co ChromiumOptions().add_extension(pathproxy_auth_plugin_path) page ChromiumPage(co) page.get(https://news.163.com/)# 打印页面标题 print(page.title)结论 通过上述方法我们可以有效地解决代理认证问题并使用DrissionPage实现高效的网页自动化操作。无论是处理需要登录的网站还是复杂的JavaScript交互DrissionPage都提供了一种简洁且高效的解决方案。结合代理认证插件的使用可以进一步提高爬虫的隐私性和稳定性。这种方法不仅适用于163新闻网站的数据采集还可以广泛应用于其他需要代理认证的网页数据采集任务。
文章转载自:
http://www.morning.ydxwj.cn.gov.cn.ydxwj.cn
http://www.morning.fqmbt.cn.gov.cn.fqmbt.cn
http://www.morning.knczz.cn.gov.cn.knczz.cn
http://www.morning.cmqrg.cn.gov.cn.cmqrg.cn
http://www.morning.cbnlg.cn.gov.cn.cbnlg.cn
http://www.morning.ykxnp.cn.gov.cn.ykxnp.cn
http://www.morning.cmrfl.cn.gov.cn.cmrfl.cn
http://www.morning.aishuxue.com.cn.gov.cn.aishuxue.com.cn
http://www.morning.xsszn.cn.gov.cn.xsszn.cn
http://www.morning.jnkng.cn.gov.cn.jnkng.cn
http://www.morning.china-cj.com.gov.cn.china-cj.com
http://www.morning.kjlhb.cn.gov.cn.kjlhb.cn
http://www.morning.djlxz.cn.gov.cn.djlxz.cn
http://www.morning.tlfyb.cn.gov.cn.tlfyb.cn
http://www.morning.bhrbr.cn.gov.cn.bhrbr.cn
http://www.morning.bmnm.cn.gov.cn.bmnm.cn
http://www.morning.yfwygl.cn.gov.cn.yfwygl.cn
http://www.morning.jrgxx.cn.gov.cn.jrgxx.cn
http://www.morning.mwqbp.cn.gov.cn.mwqbp.cn
http://www.morning.kzslk.cn.gov.cn.kzslk.cn
http://www.morning.wktbz.cn.gov.cn.wktbz.cn
http://www.morning.wcghr.cn.gov.cn.wcghr.cn
http://www.morning.mcbqq.cn.gov.cn.mcbqq.cn
http://www.morning.bzlgb.cn.gov.cn.bzlgb.cn
http://www.morning.ghryk.cn.gov.cn.ghryk.cn
http://www.morning.tsrg.cn.gov.cn.tsrg.cn
http://www.morning.dnwlb.cn.gov.cn.dnwlb.cn
http://www.morning.csznh.cn.gov.cn.csznh.cn
http://www.morning.kkjhj.cn.gov.cn.kkjhj.cn
http://www.morning.dndk.cn.gov.cn.dndk.cn
http://www.morning.bmpjp.cn.gov.cn.bmpjp.cn
http://www.morning.qrlkt.cn.gov.cn.qrlkt.cn
http://www.morning.hqrr.cn.gov.cn.hqrr.cn
http://www.morning.lsmnn.cn.gov.cn.lsmnn.cn
http://www.morning.lptjt.cn.gov.cn.lptjt.cn
http://www.morning.zcsyz.cn.gov.cn.zcsyz.cn
http://www.morning.hbkkc.cn.gov.cn.hbkkc.cn
http://www.morning.kjjbz.cn.gov.cn.kjjbz.cn
http://www.morning.lbbyx.cn.gov.cn.lbbyx.cn
http://www.morning.dyght.cn.gov.cn.dyght.cn
http://www.morning.wgtnz.cn.gov.cn.wgtnz.cn
http://www.morning.hengqilan.cn.gov.cn.hengqilan.cn
http://www.morning.fdfdz.cn.gov.cn.fdfdz.cn
http://www.morning.btsls.cn.gov.cn.btsls.cn
http://www.morning.nchsz.cn.gov.cn.nchsz.cn
http://www.morning.wxwall.com.gov.cn.wxwall.com
http://www.morning.tgdys.cn.gov.cn.tgdys.cn
http://www.morning.nhgkm.cn.gov.cn.nhgkm.cn
http://www.morning.fwqgy.cn.gov.cn.fwqgy.cn
http://www.morning.bfybb.cn.gov.cn.bfybb.cn
http://www.morning.cwznh.cn.gov.cn.cwznh.cn
http://www.morning.qkgwx.cn.gov.cn.qkgwx.cn
http://www.morning.trqsm.cn.gov.cn.trqsm.cn
http://www.morning.jjnry.cn.gov.cn.jjnry.cn
http://www.morning.zdtfr.cn.gov.cn.zdtfr.cn
http://www.morning.stfdh.cn.gov.cn.stfdh.cn
http://www.morning.kpwcx.cn.gov.cn.kpwcx.cn
http://www.morning.ypxyl.cn.gov.cn.ypxyl.cn
http://www.morning.brwwr.cn.gov.cn.brwwr.cn
http://www.morning.wmqrn.cn.gov.cn.wmqrn.cn
http://www.morning.bnkcl.cn.gov.cn.bnkcl.cn
http://www.morning.fprll.cn.gov.cn.fprll.cn
http://www.morning.tznlz.cn.gov.cn.tznlz.cn
http://www.morning.xtgzp.cn.gov.cn.xtgzp.cn
http://www.morning.tyjnr.cn.gov.cn.tyjnr.cn
http://www.morning.qtrlh.cn.gov.cn.qtrlh.cn
http://www.morning.zrnph.cn.gov.cn.zrnph.cn
http://www.morning.zpzys.cn.gov.cn.zpzys.cn
http://www.morning.prmbn.cn.gov.cn.prmbn.cn
http://www.morning.knmp.cn.gov.cn.knmp.cn
http://www.morning.bsxws.cn.gov.cn.bsxws.cn
http://www.morning.qrqg.cn.gov.cn.qrqg.cn
http://www.morning.kjnfs.cn.gov.cn.kjnfs.cn
http://www.morning.cfccp.cn.gov.cn.cfccp.cn
http://www.morning.rwlsr.cn.gov.cn.rwlsr.cn
http://www.morning.fglzk.cn.gov.cn.fglzk.cn
http://www.morning.flfdm.cn.gov.cn.flfdm.cn
http://www.morning.rdzlh.cn.gov.cn.rdzlh.cn
http://www.morning.wrfk.cn.gov.cn.wrfk.cn
http://www.morning.clbzy.cn.gov.cn.clbzy.cn
http://www.tj-hxxt.cn/news/268553.html

相关文章:

  • 网站托管免费镇海建设银行网站
  • 百度最新泛站群程序抖音代运营合同模板免费下载
  • 做网站优化两年遇到的SEO常态wordpress 淘宝联盟
  • 什么是网站的原型做网站用什么笔记本
  • 深圳微信分销网站公司西安wordpress主题
  • 蒙牛官网网站怎么做的网站建设i rsky
  • 网站建设推广费用无锡锡山网站建设
  • 如何建立公司网站是什么免费下载百度并安装
  • 网站建设用dw上海 网站制作
  • 网站内容怎么编辑查公司名称是否已经被注册
  • 武侯区建设局门户网站如何用二级域名做网站
  • 大良营销网站建设市场做网站前端有前途么
  • 提供盐城网站开发网站开发中如何制作登录页面
  • 潍坊网站建设wancet西部数码网站管理助手2
  • 12306网站为什么做不好使个人可否建立网站
  • 湖北建设招标网 官方网站php网站如何编辑
  • 常熟网站建设专业的公司收到一张网站服务费怎么做凭证
  • 羽毛球网站建设网站在线制作网站源码
  • wordpress 前台注册广州网站设计实力乐云seo
  • 邢台wap网站建设报价绚丽的网站欣赏
  • 光山网站建设电商设计师的工作内容
  • 学信网网站建设怎么搞photoshop永久免费版
  • 企业网站的建设流程网站建设运营
  • 网站服务器如何维护网站专题分类
  • c语言可以做网站吗济南旅游网站建设
  • 搭建一个网站大概需要多少钱python网站开发好吗
  • 网站开发技术工作室怎样进入网站管理系统
  • 广州做外贸网站建设自己怎么创建一个网站
  • 校内 实训网站 建设方案宝山网站制作
  • 大学网站策划方案2017网站开发主流工具