当前位置: 首页 > news >正文

哪些编程语言适合网站开发中国城市建设网

哪些编程语言适合网站开发,中国城市建设网,如何免费建立自己的网页,建网站平台 优帮云博客正文#xff08;包含详细注释#xff09; 引言 在爬虫技术领域#xff0c;处理动态加载的网页内容常常是一项挑战#xff0c;尤其是对于那些通过用户滚动或其他交互动态加载更多内容的网站。本文将介绍如何结合使用Selenium和Scrapy来有效处理这类网页。 初探Seleni…博客正文包含详细注释 引言 在爬虫技术领域处理动态加载的网页内容常常是一项挑战尤其是对于那些通过用户滚动或其他交互动态加载更多内容的网站。本文将介绍如何结合使用Selenium和Scrapy来有效处理这类网页。 初探Selenium与Scrapy的结合 首先我们探索如何使用Selenium在Scrapy中间件中处理动态加载内容的网页。关键在于模拟用户滚动行为以加载并捕获所有内容。 def process_response(self, request, response, spider):driver spider.driver# 检查请求的URL是否在我们的目标列表中if request.url in spider.page_url:driver.get(request.url) # 使用Selenium打开页面# 等待页面初步加载完成time.sleep(3) # 示例等待时间可能需要根据实际页面调整# 获取当前页面的高度last_height driver.execute_script(return document.body.scrollHeight)while True:# 滚动到页面底部driver.execute_script(window.scrollTo(0, document.body.scrollHeight);)# 等待页面可能出现的新内容加载time.sleep(3) # 重新获取新的页面高度new_height driver.execute_script(return document.body.scrollHeight)# 如果高度不再改变说明到达了页面底部if new_height last_height:breaklast_height new_height # 更新高度用于下次比较# 获取完整的页面源代码text driver.page_source# 创建新的HtmlResponse并返回return HtmlResponse(urlrequest.url, bodytext, encodingutf-8, requestrequest)# 如果URL不在目标列表中返回原始响应return response完整的Scrapy爬虫实例 下面是一个使用Selenium和Scrapy爬取网易新闻的示例。 import scrapy from selenium.webdriver import Chrome, ChromeOptions from selenium.webdriver.chrome.options import Optionsclass WySpider(scrapy.Spider):name wy # 爬虫名称start_urls [https://news.163.com/domestic/] # 起始URL# Selenium配置opt Options()opt.add_argument(--headless) # 添加headless参数指定浏览器在无界面模式下运行即没有用户界面或可视化界面的情况下。opt.add_argument(--disable-gpu) # 禁用GPU加速opt.add_argument(--window-size4000,1600) # 设置浏览器窗口大小opt.add_experimental_option(excludeSwitches, [enable-automation]) # 防止网站识别出自动化测试driver Chrome(optionsopt) # 创建Chrome驱动href_index [1, 2] # 指定要处理的链接索引page_url [] # 存储目标URL地址# 处理起始URL的响应def parse(self, resp, **kwargs):# 提取链接href_list resp.xpath(/html/body/div/div[3]/div[2]/div[2]/div/ul/li/a/href).extract()for i in range(len(href_list)):if i in self.href_index:# 如果链接在指定索引中添加到目标列表并发起请求self.page_url.append(href_list[i])yield scrapy.Request(urlhref_list[i], callbackself.parse_detail)# 处理获取的新闻类别链接def parse_detail(self, resp, **kwargs):# 提取详细页面的链接detail_url resp.xpath(/html/body/div/div[3]/div[3]/div[1]/div[1]/div/ul/li/div/div/div/div[1]/h3/a/href).extract()for url in detail_url:# 对每个详细新闻链接发起请求yield scrapy.Request(urlurl, callbackself.parse_detail_content)# 提取并处理新闻详细内容def parse_detail_content(self, resp, **kwargs):# 提取新闻标题title resp.xpath(//*[idcontain]/div[2]/h1/text()).extract_first()# 提取新闻内容con resp.xpath(//*[idcontent]/div[2]//text()).extract()con .join(con).strip()data {title: title, con: con} # 封装提取的数据print(data) # 打印数据yield data # 返回提取的数据使用场景 这种结合Selenium和Scrapy的方法适用于需要处理动态加载内容的网页如新闻网站、社交媒体平台等。 结语 通过结合Selenium和Scrapy我们可以有效地处理那些动态加载内容的网页这对于数据抓取和网络爬虫项目至关重要。希望这篇文章能够帮助您在面对类似的挑战时有所启发和帮助。
文章转载自:
http://www.morning.xmtzk.cn.gov.cn.xmtzk.cn
http://www.morning.lhytw.cn.gov.cn.lhytw.cn
http://www.morning.sqgsx.cn.gov.cn.sqgsx.cn
http://www.morning.cffwm.cn.gov.cn.cffwm.cn
http://www.morning.bbjw.cn.gov.cn.bbjw.cn
http://www.morning.mjjty.cn.gov.cn.mjjty.cn
http://www.morning.ctfh.cn.gov.cn.ctfh.cn
http://www.morning.ykwgl.cn.gov.cn.ykwgl.cn
http://www.morning.lanyee.com.cn.gov.cn.lanyee.com.cn
http://www.morning.ltpzr.cn.gov.cn.ltpzr.cn
http://www.morning.ntyanze.com.gov.cn.ntyanze.com
http://www.morning.mksny.cn.gov.cn.mksny.cn
http://www.morning.jcnmy.cn.gov.cn.jcnmy.cn
http://www.morning.bftr.cn.gov.cn.bftr.cn
http://www.morning.rsnn.cn.gov.cn.rsnn.cn
http://www.morning.gyjld.cn.gov.cn.gyjld.cn
http://www.morning.ghcfx.cn.gov.cn.ghcfx.cn
http://www.morning.zqmdn.cn.gov.cn.zqmdn.cn
http://www.morning.zgqysw.cn.gov.cn.zgqysw.cn
http://www.morning.nrlsg.cn.gov.cn.nrlsg.cn
http://www.morning.dmwbs.cn.gov.cn.dmwbs.cn
http://www.morning.pqndg.cn.gov.cn.pqndg.cn
http://www.morning.btmwd.cn.gov.cn.btmwd.cn
http://www.morning.nqpy.cn.gov.cn.nqpy.cn
http://www.morning.zfqr.cn.gov.cn.zfqr.cn
http://www.morning.lbywt.cn.gov.cn.lbywt.cn
http://www.morning.tdgwg.cn.gov.cn.tdgwg.cn
http://www.morning.rksg.cn.gov.cn.rksg.cn
http://www.morning.wtrjq.cn.gov.cn.wtrjq.cn
http://www.morning.trkhx.cn.gov.cn.trkhx.cn
http://www.morning.nzmhk.cn.gov.cn.nzmhk.cn
http://www.morning.rwzkp.cn.gov.cn.rwzkp.cn
http://www.morning.cgbgc.cn.gov.cn.cgbgc.cn
http://www.morning.wmnpm.cn.gov.cn.wmnpm.cn
http://www.morning.zdgp.cn.gov.cn.zdgp.cn
http://www.morning.mbaiwan.com.gov.cn.mbaiwan.com
http://www.morning.cmdfh.cn.gov.cn.cmdfh.cn
http://www.morning.ybmp.cn.gov.cn.ybmp.cn
http://www.morning.qqnh.cn.gov.cn.qqnh.cn
http://www.morning.lpsjs.com.gov.cn.lpsjs.com
http://www.morning.xmpbh.cn.gov.cn.xmpbh.cn
http://www.morning.jbnss.cn.gov.cn.jbnss.cn
http://www.morning.pqjpw.cn.gov.cn.pqjpw.cn
http://www.morning.slfkt.cn.gov.cn.slfkt.cn
http://www.morning.stbhn.cn.gov.cn.stbhn.cn
http://www.morning.nlrp.cn.gov.cn.nlrp.cn
http://www.morning.mnsmb.cn.gov.cn.mnsmb.cn
http://www.morning.zdkzj.cn.gov.cn.zdkzj.cn
http://www.morning.pnmtk.cn.gov.cn.pnmtk.cn
http://www.morning.zzqgc.cn.gov.cn.zzqgc.cn
http://www.morning.zyslyq.cn.gov.cn.zyslyq.cn
http://www.morning.xmxbm.cn.gov.cn.xmxbm.cn
http://www.morning.pbmg.cn.gov.cn.pbmg.cn
http://www.morning.qgdsd.cn.gov.cn.qgdsd.cn
http://www.morning.mflqd.cn.gov.cn.mflqd.cn
http://www.morning.wqhlj.cn.gov.cn.wqhlj.cn
http://www.morning.xwgbr.cn.gov.cn.xwgbr.cn
http://www.morning.pkfpl.cn.gov.cn.pkfpl.cn
http://www.morning.ygrkg.cn.gov.cn.ygrkg.cn
http://www.morning.qcnk.cn.gov.cn.qcnk.cn
http://www.morning.mghgl.cn.gov.cn.mghgl.cn
http://www.morning.sbrxm.cn.gov.cn.sbrxm.cn
http://www.morning.nwjzc.cn.gov.cn.nwjzc.cn
http://www.morning.yfqhc.cn.gov.cn.yfqhc.cn
http://www.morning.addai.cn.gov.cn.addai.cn
http://www.morning.qbfwb.cn.gov.cn.qbfwb.cn
http://www.morning.nnpwg.cn.gov.cn.nnpwg.cn
http://www.morning.zxfdq.cn.gov.cn.zxfdq.cn
http://www.morning.fxqjz.cn.gov.cn.fxqjz.cn
http://www.morning.ypqwm.cn.gov.cn.ypqwm.cn
http://www.morning.jpdbj.cn.gov.cn.jpdbj.cn
http://www.morning.ssgqc.cn.gov.cn.ssgqc.cn
http://www.morning.qnbsx.cn.gov.cn.qnbsx.cn
http://www.morning.cbchz.cn.gov.cn.cbchz.cn
http://www.morning.dndjx.cn.gov.cn.dndjx.cn
http://www.morning.rhkmn.cn.gov.cn.rhkmn.cn
http://www.morning.snbry.cn.gov.cn.snbry.cn
http://www.morning.nzms.cn.gov.cn.nzms.cn
http://www.morning.cwskn.cn.gov.cn.cwskn.cn
http://www.morning.dfbeer.com.gov.cn.dfbeer.com
http://www.tj-hxxt.cn/news/263827.html

相关文章:

  • 有什么设计网站推荐校园网组网方案设计
  • 北京招聘网站建设做外贸网站包括哪些
  • 自助发外链网站网站建设 方案
  • 目前提供目录类搜索引擎的网站wordpress 纯静态
  • 营销型网站开发营销软件技术专业介绍
  • 昆明做网站竞价网站开发费用计入什么二级科目
  • 网站培训建网站在线支付怎么
  • wordpress搭建短视频网站三原做网站
  • 高端网站开发哪家专业网站设计哪家专业
  • 网站建设 体会wordpress主题中文主题下载
  • 济宁软件开发网站建设淘宝上开个网站建设
  • wordpress 多站点门户网站开发人员招聘信息
  • iis 网站正在建设中wordpress post_class
  • 全flash网站模板活动营销方案
  • wordpress建设企业网站雅布设计作品
  • 兼职做猎头的网站me域名网站
  • 淘宝客网站主题下载游戏培训学校
  • 金融网站html5模板摄影图片网站
  • 沈阳专业制作网站公司吗网站建设 常用字体
  • 百度里面企业网站怎么建设wordpress 无法发送邮件
  • 资中网站建设四川做文学有关的网站
  • 成都和奇乐网站建设公司怎么样建立个机密网站
  • 淘宝客网站 备案wordpress新闻页面模板下载
  • 牡丹江市建设局网站外贸网站建设内容包括哪些
  • 国外设计网站pinterest极速版泾阳网站建设
  • 用pycharm做网站wordpress实时预览
  • 如何在网站投放广告新钥匙网站建设
  • 福州 建站 软件怎么做网站板块
  • 为什么网站要备案兰州模板网站建设
  • 自动化设计网站建设网络营销论文题目精选