宁国网站开发,网站建设公司广告标题语,中国机械加工网商城,宁波seo外包推广排名利用python的爬虫功能进行信息爬取#xff0c;关键在于源码分析#xff0c;代码相对简单。
1 源代码分析
访问网站#xff0c;按下F12#xff0c;进行元素查找分析。 2 代码实现
from requests import get
from bs4 import BeautifulSoupdef getXhuNews(pageNum1):关键在于源码分析代码相对简单。
1 源代码分析
访问网站按下F12进行元素查找分析。 2 代码实现
from requests import get
from bs4 import BeautifulSoupdef getXhuNews(pageNum1):获取西华大学新闻信息urlhttp://news.xhu.edu.cn/zhxw/list%d.htm%(pageNum)print(url)responseget(url)if (response.status_code200):print(顺利获取数据)else:print(目的网站无法连接)exit();response.encoding utf8htmlresponse.textsoupBeautifulSoup(html,html.parser)#myTitlesoup.select(.news_title) #根据class查找结点(会找出太多的div)myTitlesoup.find_all(div,{id:wp_news_w6}) #根据div的id查找结点soup BeautifulSoup(str(myTitle),html.parser) #重新构造soupmyTitlesoup.select(.news_title) #根据class查找结点(会找出太多的div) myDatesoup.select(.news_meta) #根据class查找结点print(第%d页%pageNum, ,len(myTitle),条新闻)listDate[] #存储日期listTitle[] #存储标题listHref[] #存储连接for i in myTitle:soup BeautifulSoup(str(i),html.parser) #重新构造soupssoup.select(a) #根据标签获取结点for x in s:listHref.append(x[href]) #获取结点属性值listTitle.append(x.getText()) #获取属性文本for i in myDate:soup BeautifulSoup(str(i),html.parser) #重新构造soupssoup.select(span) #根据标签获取结点for x in s:listDate.append(x.getText()) #获取属性文本#写入文件fileNametext%05d.txt%(pageNum)fopen(fileName,w,encodingutf8)for i in range(len(listDate)):str2%04d%(i1) listDate[i] listHref[i] listTitle[i]\nf.write(str2)f.close()#----------使用样例---------------------------------
for i in range(40,50):getXhuNews(i)