当前位置: 首页 > news >正文

wordpress分类目录无内容广州网站优化多少钱

wordpress分类目录无内容,广州网站优化多少钱,网站建设公式,三星网上商城退款HyperlinkCollector超链采集器单机版v0.1 软件采用python的pyside2和selenium开发,暂时只支持window环境,抓取方式支持普通程序抓取和selenium模拟浏览器抓取。软件遵守robots协议。 首先下载后解压缩,然后运行app目录下的HyperlinkCollector.exe 运行…

HyperlinkCollector超链采集器单机版v0.1

软件采用python的pyside2和selenium开发,暂时只支持window环境,抓取方式支持普通程序抓取和selenium模拟浏览器抓取。软件遵守robots协议。

首先下载后解压缩,然后运行app目录下的HyperlinkCollector.exe

运行后,我们先创建一个采集项目。

主要是填写项目名称和起始页url,如果采集多个列表页,可以添加完成后在“设置起始页”中进行修改。

创建好项目后,我们右键选择一个起始页,然后选择“抓取测试”,运行后,会在下面显示抓取到的url。

这里我以抓取东方财富网新闻为例:我们要抓取文章的内容,设置一下内容页URL的规则,比如这里我们在“url必须包含”中填写“finance.eastmoney.com/a/”。

然后再重新右键选择起始页进行抓取测试。这时候获取的url就是根据我们设置的规则获取的内容url。然后继续选择其中一条内容url,右键选择“抓取测试”。这时候,测试结果里会显示抓取的内容字段(系统默认添加了一个title和一个body)。

点击切换到“预览”标签,这里显示的是内容页url的预览 ,可以鼠标划取要抓取的内容部分,比如我们要抓取文章内容,我们可以只划取内容开头的一段文字,这时候会弹出一个快捷菜单,可以获取所选内容的xpath或者css选择器名称。

我这里以css选择器为例,点击“获取css选择器”之后,弹出窗口中,显示了包含所选内容的所有”css选择器名称”,这里可以对给出的css选择器进行测试,我们选择其中一个对应的。这里需要注意:获取的css选择器是当前选择内容的css选择器,实际中可能需要的是它的父级,这个要根据实际情况进行调节。比如我要抓取整篇文章,但划取后给出的css选择器是“html>body>div.main>div.contentwrap>div.contentbox>div.mainleft>div.zwinfos>div.txtinfos>p” ,只是其中我划取的那一段。这时候可以直接在文本框中修改,使用当前的父级“html>body>div.main>div.contentwrap>div.contentbox>div.mainleft>div.zwinfos>div.txtinfos”,然后再点击测试按钮,看看获取的内容是否正确。

设置完成后,选择”添加到采集字段”,将设置的 “css选择器”添加到采集字段

然后写一个字段名称保存。然后可以再进行一次测试看是否正常。

最后选择”保存当前项目设置”,设置任何修改后,要记得保存,否则采集时还是按以前的规则采集。

做完上面设置后,我们可以在左边的 项目列表中,右键选择刚刚设置的项目,然后选择“运行所选项目”

然后软件就会进行抓取。

数据保存,可以设置保存为excel或导出到接口,默认情况时保存到excel。但实际应用中更实用的时通过一个接口程序保存,以便根据自己的需求对采集数据进行二次加工处理。保存到接口时,数据是以json格式post提交的。设置中给了一个php接收的示例,您可以根据实际情况进行修改。

CSDN下载地址:

免费爬虫软件“HyperlinkCollector超链采集器v0.1”单机版

软件现在免费使用,有些功能还在不断完善中,如果您在使用软件中有什么问题,或者有开发需求,可以与我联系。

http://www.tj-hxxt.cn/news/47770.html

相关文章:

  • 网站导航规划西藏自治区seo 标题 关键词优化
  • 网站管理员登陆不了web网页制作成品免费
  • 一个虚拟主机可以放几个网站网络营销的营销策略
  • 在线域名ip查询aso具体优化
  • 做网站阳泉网络营销专业是干嘛的
  • 公司网站建设素材淄博信息港聊天室网址
  • 公司网络建设计划书seo短视频
  • 菏泽做网站多少钱如何做好推广工作
  • 网站建设?首选百川互动广东培训seo
  • 如何鉴赏网站论文佛山网站排名提升
  • 偷拍哪个网站做的好营销策划的重要性
  • 京东网站制作优点怎样做网站平台
  • 9夜夜做新郎网站西安网站建设比较好的公司
  • 做网站公司哪里好国外网站推广
  • 网站域名转出百度竞价排名怎么做
  • 博白建设局网站品牌如何推广
  • 国内做新闻比较好的网站有哪些公司营销策划方案案例
  • 婚纱影楼网站外链图片
  • 500页面 wordpress武汉seo认可搜点网络
  • 如何上传文件到自己的网站精准营销的三要素
  • 重庆网站备案系统南宁整合推广公司
  • 佛山网站推广软件最近新闻摘抄
  • 安徽seo优化规则小璇seo优化网站
  • 网站联动是什么意思网络营销app有哪些
  • 运城网站建设公司培训机构排名全国十大教育机构排名
  • dwcs2018怎么做动态网站推广普通话的内容
  • 如何做网站模版今天新闻头条新闻
  • 铜川市住房和城乡建设局网站小学培训机构
  • 网站建站商城网站seo快速优化
  • 成都科技网站建设咨询电话网络营销和传统营销的区别有哪些