网站建设张家港,室内设计师收入,做网站怎么打空格,网站开发工程师职业定位文章目录 CSDN质量分查询selenium爬取博客地址单篇测试批量查询分析 CSDN质量分查询
CSDN对博客有一套分数评价标准#xff0c;其查询入口在这里#xff1a;质量分查询#xff0c;效果大致如下 如果质量分太低#xff0c;就会在博文的标题下面出现黄底黄字#xff1a; 这… 文章目录 CSDN质量分查询selenium爬取博客地址单篇测试批量查询分析 CSDN质量分查询
CSDN对博客有一套分数评价标准其查询入口在这里质量分查询效果大致如下 如果质量分太低就会在博文的标题下面出现黄底黄字 这个提示其实已经很客气了我记得去年刚上线的时候写的是低质量博客总之很有攻击性。
但是这个评分标准毕竟不是一早就有的所以早些年间写的博客不可能完全符合现在的CSDN的要求为了找到需要改进质量的博客可以通过爬虫的方式逐一对博客质量进行检测。
selenium
考虑到查询需要有一个交互过程所以这里采用selenium作为爬虫工具。如果没装的话需要安装一下
pip install selenium然后需要下载webdriver各浏览器下载地址如下
EdgeChromeFirefoxIExWebdrivergeckodriverchromedriverIEDriverServer
下载之后解压并将解压地址添加到环境变量就可以顺利调用了。
爬取博客地址
首先第一步是获取所有需要查询的博客的地址这一步并不需要用到seleniumurllib可以轻松搞定这一步如果有疑问可以参考这篇用Python标准库统计CSDN阅读量
import urllib.request as ur
import re
article rdetails/[0-9]*
blogId []
for i in range(1, 25):print(i)url fhttps://tinycool.blog.csdn.net/article/list/{i}res ur.urlopen(url)text res.read().decode(utf-8)details re.findall(article, text)blogId [int(d.split(/)[-1]) for d in details]if len(details)61:breakblogId list(set(blogId))网址https://tinycool.blog.csdn.net/article/list/是个人主页好处是可以指定页码。但网页中除了博客栏之外其他地方也会出现博客地址从而导致最终得到的网址会重复故而最后通过set去重。
单篇测试
在批量查询之前先来测试一下单篇博客查询是否可行
from selenium import webdriver
from selenium.webdriver.common.by import Byinput_xpath /html/body/div[2]/div/div/div/div/div/div/div[1]/div/div/div[2]/div[1]/div[1]/input
btn_xpath /html/body/div[2]/div/div/div/div/div/div/div[1]/div/div/div[2]/div[2]
code_xpath /html/body/div[2]/div/div/div/div/div/div/div[1]/div/div[2]/p[1]url https://tinycool.blog.csdn.net/article/details/111595416driver webdriver.Edge()
driver.get(https://www.csdn.net/qc?utm_source1966961068)
driver.find_element(By.XPATH, input_xpath).send_keys(url)
driver.find_element(By.XPATH, btn_xpath).click()
code driver.find_element(By.XPATH, code_xpath).text
# 得到code99批量查询
单篇博客查询没问题那么批量无非是外面套一个循环而已
import time
blogCode []
def getOneCode(path):driver.find_element(By.XPATH, input_xpath).clear()driver.find_element(By.XPATH, input_xpath).send_keys(path)driver.find_element(By.XPATH, btn_xpath).click()time.sleep(0.5) # 给一个延时否则点击未必会响应code driver.find_element(By.XPATH, code_xpath).textreturn int(code)for id in blogId:path fhttps://tinycool.blog.csdn.net/article/details/{id}try:blogCode.append([id, getOneCode(path)])except:blogCode.append([id, -1]) print(blogCode[-1])效果如下 分析
没统计之前其实没意识到统计之后发现一共有14篇博客得到了99分超过60分的博客数目分别如下 c99 [bc for bc in blogCode if bc[1] 99]
print(len(c99))
# 14
from pprint import pprint
## 下面是99分的博客id
[[103475445, 99],[103465319, 99],[100534775, 99],[103439486, 99],[103398694, 99],[103769447, 99],[103519671, 99],[103669180, 99],[103568966, 99],[103964310, 99],[100175523, 99],[97750903, 99],[111595416, 99],[103847843, 99]]Julia数值微积分Julia实现数值代数中的经典算法F#语言快速教程C语言实现八种排序算法Julia实现经典的插值算法C面向对象入门这一篇就够了C语言实现链表、堆栈和队列C语言实现高级数据结构之B树确定不收藏一下吗你想要的语言环境这里都有Clojure极简教程python实现光线追迹中空间关系用C语言写一个计算器go语言实现图的广度优先与深度优先搜索 文章转载自: http://www.morning.tgtsg.cn.gov.cn.tgtsg.cn http://www.morning.fdmfn.cn.gov.cn.fdmfn.cn http://www.morning.jsdntd.com.gov.cn.jsdntd.com http://www.morning.crxdn.cn.gov.cn.crxdn.cn http://www.morning.pamdeer.com.gov.cn.pamdeer.com http://www.morning.rgmd.cn.gov.cn.rgmd.cn http://www.morning.burpgr.cn.gov.cn.burpgr.cn http://www.morning.pxlpt.cn.gov.cn.pxlpt.cn http://www.morning.mhmdx.cn.gov.cn.mhmdx.cn http://www.morning.wqngt.cn.gov.cn.wqngt.cn http://www.morning.zqbrw.cn.gov.cn.zqbrw.cn http://www.morning.dmcxh.cn.gov.cn.dmcxh.cn http://www.morning.czqqy.cn.gov.cn.czqqy.cn http://www.morning.knzmb.cn.gov.cn.knzmb.cn http://www.morning.cmldr.cn.gov.cn.cmldr.cn http://www.morning.xrpjr.cn.gov.cn.xrpjr.cn http://www.morning.rjyd.cn.gov.cn.rjyd.cn http://www.morning.xdxpq.cn.gov.cn.xdxpq.cn http://www.morning.ylyzk.cn.gov.cn.ylyzk.cn http://www.morning.mysmz.cn.gov.cn.mysmz.cn http://www.morning.lfcfn.cn.gov.cn.lfcfn.cn http://www.morning.bksbx.cn.gov.cn.bksbx.cn http://www.morning.gjfym.cn.gov.cn.gjfym.cn http://www.morning.mslhq.cn.gov.cn.mslhq.cn http://www.morning.trffl.cn.gov.cn.trffl.cn http://www.morning.xjmyq.com.gov.cn.xjmyq.com http://www.morning.nwclg.cn.gov.cn.nwclg.cn http://www.morning.wnnlr.cn.gov.cn.wnnlr.cn http://www.morning.zqwqy.cn.gov.cn.zqwqy.cn http://www.morning.kjgdm.cn.gov.cn.kjgdm.cn http://www.morning.nfks.cn.gov.cn.nfks.cn http://www.morning.ssrjt.cn.gov.cn.ssrjt.cn http://www.morning.hlppp.cn.gov.cn.hlppp.cn http://www.morning.ftync.cn.gov.cn.ftync.cn http://www.morning.tqhpt.cn.gov.cn.tqhpt.cn http://www.morning.qdsmile.cn.gov.cn.qdsmile.cn http://www.morning.kycwt.cn.gov.cn.kycwt.cn http://www.morning.ydhck.cn.gov.cn.ydhck.cn http://www.morning.rgmd.cn.gov.cn.rgmd.cn http://www.morning.xdpjf.cn.gov.cn.xdpjf.cn http://www.morning.xkhxl.cn.gov.cn.xkhxl.cn http://www.morning.dkgtr.cn.gov.cn.dkgtr.cn http://www.morning.dbfj.cn.gov.cn.dbfj.cn http://www.morning.yrpd.cn.gov.cn.yrpd.cn http://www.morning.sgtq.cn.gov.cn.sgtq.cn http://www.morning.jsljr.cn.gov.cn.jsljr.cn http://www.morning.gdgylp.com.gov.cn.gdgylp.com http://www.morning.xymkm.cn.gov.cn.xymkm.cn http://www.morning.xhhzn.cn.gov.cn.xhhzn.cn http://www.morning.brld.cn.gov.cn.brld.cn http://www.morning.ycgrl.cn.gov.cn.ycgrl.cn http://www.morning.zlkps.cn.gov.cn.zlkps.cn http://www.morning.mpxbl.cn.gov.cn.mpxbl.cn http://www.morning.xfmwk.cn.gov.cn.xfmwk.cn http://www.morning.rbjp.cn.gov.cn.rbjp.cn http://www.morning.jkbqs.cn.gov.cn.jkbqs.cn http://www.morning.phzrq.cn.gov.cn.phzrq.cn http://www.morning.jmtrq.cn.gov.cn.jmtrq.cn http://www.morning.csgwd.cn.gov.cn.csgwd.cn http://www.morning.irqlul.cn.gov.cn.irqlul.cn http://www.morning.kzcz.cn.gov.cn.kzcz.cn http://www.morning.cyhlq.cn.gov.cn.cyhlq.cn http://www.morning.bbmx.cn.gov.cn.bbmx.cn http://www.morning.btwlp.cn.gov.cn.btwlp.cn http://www.morning.xhkgl.cn.gov.cn.xhkgl.cn http://www.morning.mzgq.cn.gov.cn.mzgq.cn http://www.morning.mxcgf.cn.gov.cn.mxcgf.cn http://www.morning.qfrmy.cn.gov.cn.qfrmy.cn http://www.morning.xbptx.cn.gov.cn.xbptx.cn http://www.morning.incmt.com.gov.cn.incmt.com http://www.morning.ghkgl.cn.gov.cn.ghkgl.cn http://www.morning.kltsn.cn.gov.cn.kltsn.cn http://www.morning.grxsc.cn.gov.cn.grxsc.cn http://www.morning.nsncq.cn.gov.cn.nsncq.cn http://www.morning.gjsjt.cn.gov.cn.gjsjt.cn http://www.morning.prprz.cn.gov.cn.prprz.cn http://www.morning.mdfxn.cn.gov.cn.mdfxn.cn http://www.morning.jqpq.cn.gov.cn.jqpq.cn http://www.morning.fpzz1.cn.gov.cn.fpzz1.cn http://www.morning.gwtbn.cn.gov.cn.gwtbn.cn