建筑网站免费,南通市网站建设我的完,网页设计简单作业成品,游戏工作室加盟平台1 前言 城市规划、商业选址等应用场景中经常会对地区房价、地域价值进行数据分析#xff0c;其中地区楼盘房价是分析数据中重要的信息参考点#xff0c;一些互联网网站上汇聚了大量房源信息#xff0c;通过收集此类数据#xff0c;能够对地区房价的分析提供参考依据。 如何…1 前言 城市规划、商业选址等应用场景中经常会对地区房价、地域价值进行数据分析其中地区楼盘房价是分析数据中重要的信息参考点一些互联网网站上汇聚了大量房源信息通过收集此类数据能够对地区房价的分析提供参考依据。 如何收集此类数据呢互联网上提供了众多工具或代码然后对于普通用户均有较高的使用门槛并且需要调试用户体验不太理想工作量也较大。 下面以目标网址为例
上海楼盘网上海新房一手房上海房产网信息网新开楼盘在售上海楼盘信息 - 安居客 为解决此类用户需求痛点本着“所见所得”的设计理念小O历时半年时间重新对小O网兜软件进行重构摈弃原有的使用思路提升软件功能的同时更加提升软件应用的灵活性力求为用户提供更加实用的网页信息收集软件这个过程中反复测试适配多种类型网页面对及其复杂的网页内容结构反复修改功能再多次自我使用、测试、颠覆的状态中终于发布新版本 0231功能上超越之前版本更加灵活可配置。 复杂功能和易用性有时难两全软件在使用操作方面仍然有一定的门槛好在软件也提供了数据模板功能通过下载配置好的模板用户可以跳过配置直接启动采集不断扩充模板...希望新版能够满足您数据采集上的需求助力提升工作效率。 下文将以采集二手房源信息为例带领大家感受软件功能。 本文操作流程概览 2 操作步骤 下载软件 登录官网 www.gis9.com 首页往下滚动下载【小O网兜】。
软件无需安装下载后直接运行可能会被防火墙或者软件管家之类的软件拦截请将软件添加到信任列表里。
软件启动后进入主界面如图请注册登录后使用软件。 新建任务 点击软件左上方网格球图标打开任务向导窗口可以新建和打开xop扩展名的任务文件。
当然也可以直接从模板库中下载模板。
注意任务文件保存着采集目标网页、采集的数据等信息请妥善保存好。 本例子选择新建采集任务设置任务文件保存目录软件打开空的任务界面。如下图 打开目标网址并新建采集规则自动创建一组采集动作。 配置任务 依次配置每个动作的参数 【打开页面】
-- 该动作是让浏览器打开目标网址。
切换至动作参数将当前网址复制到网址集合参数项里。如下图点击批量生成后会在列表页中新增网址记录。 【扫描页面】
-- 自动扫描页面所有元素此动作无需配置。
如果目标页面带有向下滚动加载数据可将超时参数设置大些以便让程序自动将页面向下滚动加载更多数据。
滚动幅度控制页面向下滚动的速度值越大则越快。运行超时控制页面滚动时长可适当调大。 【读取数据】
-- 该动作从页面读取数据并保存至表格中。 一 点击【数据表】弹出界面配置新建存储表默认会有一个表存储数据。如有需求可以新建新表存储数据。 二 在读取数据Tab页中点击数据块 / 新建菜单新建读取数据块如下图依次选择保存字段。对照页面设置需要采集的字段。 三 配置字段采集的数据如下图依次点击使用[选择元素]在页面上右键选中目标元素定位到[网页树]节点在节点右键菜单选[设置字段目标元素]设置目标元素至选中的字段。 四 选中[读数据块1]上图中 1 位置需设置读取数据块和数据行。 五 点击字段在页面下方有取值预览调整参数获得想要的数据结果。-- 设置参数[目标元素]在网页树选中节点右键菜单设置目标元素。-- 设置取值参数对值进行处理预览值显示在下方。 六 点击表格在页面下方能预览所有表格数据页面中数据正确预览在表格中。 【翻页动作】
-- 设置翻页动作执行后页面会自动翻页提供多种方式翻页 查找和设置目标元素设置同上 设置翻页页码
点下一页按钮设置下一页翻页设置下一页目标元素每次模拟翻页可设置翻页执行次数。逐个页码设置页码翻页设置翻页元素和页码在页码中找到元素后执行翻页。 设置完成后 可点击动作鼠标右键单步执行该动作验证页码是否翻页。 至此所有动作均配置完成。 执行任务 可挨个动作点击右键执行单步逐一执行动作。
也可以点击执行循环循环执行多有动作。下图程序会进行运行直到结束。 异常情况运行期间可能会出现异常情况
1、 网页反扒需要人工点击此时可能会导致动作执行失效人工点击验证后再从任务点击右键继续循环执行。
2、 目标元素为找到导致无法翻页。 导出数据
执行完毕后打开【数据表】窗口对采集数据进行处理后导出CSV文件可应用再其他软件中。
导出前可对数据进行简单处理 --- 删除重复记录选择 页码URL和标题作为唯一值进行排重
--- 导出数据将表格数据导出CSV文件可在EXCEL软件中打开表格。 到此就是小O网兜复制网页信息的全过程感兴趣的朋友可登陆官网下载软件。 3 小结 小O网兜除了提供模板任务供用户直接下载并采集数据也提供自定义配置功能由用户自助式实现采集流程。本文以房源数据为例介绍采集房源数据的操作流程通过本文用户能够掌握房源数据采集任务的配置过程满足中介、科研机构、高校研究等用户自定义采集需求。小O网兜提供开放式、可视化、配置化的采集功能能够采集绝大多数网页的列表数据和自动翻页操作实现无人留守自动采集。
后续作者还将继续对标其他优秀同类软件新增更多操作简便、实用、易用的软件功能。