当前位置: 首页 > news >正文

三个小伙毕业了做购物网站的电视剧深圳网络营销技巧

三个小伙毕业了做购物网站的电视剧,深圳网络营销技巧,东道设计logo,天津站建站时间在这里,我总结了本次项目的数据收集过程中遇到的反爬虫策略以及一些爬虫过程中容易出现问题的地方。 user-agent 简单的设置user-agent头部为浏览器即可: 爬取标签中带href属性的网页 对于显示岗位列表的页面,通常检查其源代码就会发现&…

在这里,我总结了本次项目的数据收集过程中遇到的反爬虫策略以及一些爬虫过程中容易出现问题的地方。

user-agent

简单的设置user-agent头部为浏览器即可:
在这里插入图片描述

爬取标签中带href属性的网页

对于显示岗位列表的页面,通常检查其源代码就会发现,相应的标签处存在一个a标签,其中存在href属性值:
在这里插入图片描述
于是可以选择,爬取出该网页中的所有的href属性,再依次对href属性中的所有的网址进行爬取,

current_job_links=browser.find_elements(by=By.XPATH,value='//li[@class="border-top"]//a[@target="_blank"]')
for link in current_job_links:job_path = link.get_attribute("href")job_url = urljoin(self.base_url, job_path)job_links.append(job_url)

爬取使用js跳转的网页,进行选型卡管理

现在好多都是不存在href,而是使用javascript进行跳转,也就是点击卡片之后会新开一个选项卡,因此这里要使用selenium的选项卡管理来实现browser的url变化,从而获得新打开页面的url(如果不切换选项卡,即使模拟单击了卡片,也不能对打开的页面进行爬虫)
重点在于一定要记得切换选项卡!!

for card_element in card_elements:# 单击卡片元素browser.execute_script("arguments[0].click();",card_element)# 等待新页面加载完成wait.until(EC.number_of_windows_to_be(2))# 切换到新的窗口browser.switch_to.window(browser.window_handles[1])# 获取新页面的URLcurrent_url2 = browser.current_urlcurrent_url_list.append(current_url2)browser.close()

分页爬取

url变化实现换页

大部分网页都是通过url的变化实现翻页的:
在这里插入图片描述
因此只需要修改相应网址的pageNo即可,

if self.page < 100:self.page += 1# 换urlurl = 'https://zhaopin.meituan.com/web/position?hiringType=2_6&pageNo=' +str(self.page)#再次调用爬虫yield scrapy.Request(url=url, callback=self.parse, dont_filter=True)time.sleep(3)  # 设置3秒间隔

换页url不变

使用selenium模拟浏览器点击下一页按钮。所以需要在网页中定位到”下一页“按钮的位置

next_button = browser.find_element(by=By.XPATH,value='//[@id="target_list"]/div/div[2]/div[3]/button[2]')
if not next_button.is_enabled():break
browser.execute_script("arguments[0].click();", next_button)

同时注意判断停止条件,当按钮不可用时表示到达最后

登录问题

在爬取京东招聘时需要首先进行登录
使用如下代码实现模拟登陆:
在这里插入图片描述

http://www.tj-hxxt.cn/news/56231.html

相关文章:

  • 制作网站的公司怎么样爱站网长尾关键词
  • 杭州兼职网站建设网站关键字优化公司
  • 哪里有网站可以做动态视频倒计时南宁seo怎么做优化团队
  • 已经注册了域名 怎么做网站上海百度研发中心
  • 做网站的是如何赚钱的网站seo优化教程
  • 廊坊做网站公司排名建站
  • 索莱宝做网站seo系统源码出售
  • 国内规模大的建站公司2022年新闻摘抄简短
  • 石家庄信息网官方网站西安专业seo
  • 做冰块批发网站搜索排名竞价
  • linux做网站服务器吗银川网站seo
  • 专门做奢侈品的网站海南网站推广
  • 做外贸兼职的网站设计适合推广的app有哪些
  • 做网站和网页区别淄博网站营销与推广
  • 免费crm软件排名下载班级优化大师
  • 惠州企业建站模板西安百度首页优化
  • 厦门网站做的比较好一站式网络推广服务
  • 没有公司自己做网站抖音广告代运营
  • 广告行业做网站哪个好网推一手单渠道
  • wordpress 企业展示哈尔滨seo网络推广
  • 给网站做h5缓存机制百度推广一年大概多少钱
  • 做的网站域名劫持seo服务外包
  • 专门做财经的网站免费网络推广方式
  • 网站做更改后台怎么做如何做网络推广人员
  • 做网站现在什么最赚钱吗公司营销策划方案案例
  • 关于网站建设的图片行业数据统计网站
  • 网站数据库如何备份seo网站推广报价
  • 苏州做网站费用广东深圳疫情最新情况
  • 5网站建站深圳网站seo推广
  • 有哪些网站制作公司内部优化