天小编为大家带来的教程是,采集58同城数据,同样适用于其他类似网站,具体操作如下:
第一步:新建任务
①点击左上角“加号”新建任务,如图1:
②在弹窗里填写采集地址,任务名称,如图2:
③点击下一步,选择进行数据抽取还是链接抽取,首先采集58同城·便当分类下的分类列表的链接,所以点击抽取链接,如图3:
④完成后模板抽取配置列表有一个模板,默认模板,如图4:
第二步:创建链接抽取,通过定位过滤得到所需链接
①直接点击“默认模板:01”,点击上面“新建链接抽取”按钮,得到链接抽取,如图5。
②按住Ctrl+鼠标左键,进行区域选择,按住Shift+鼠标左键,扩大选择区域,点击“确认选区”按钮,如图6:
③点击采集预览确认链接是否过滤完全,如图7:
第三步:创建新模板,并添加链接抽取
①在模板配置,点击“新建模板”按钮,得到新建模板,如图8。
②将模板一过滤得到的任意一条链接,作为模板二的示例地址。如:https://biandang.58.com/cn/shebaoyiliao/, 见图9:
③新建数据抽取。直接点击模板二,点击上面“新建数据抽取”按钮,得到数据抽取,如图10。
④关联模板
在软件中模板的关联关系,与网页中链接跳转的关系相同。
根据网页跳转规律,将模板一的“新建链接抽取”关联模板二,如图11
第四步:通过定位过滤得到文章列表所需链接
①按住Ctrl+鼠标左键,进行区域选择,按住Shift+鼠标左键,扩大选择区域,点击“确认选区”按钮,如图12:
②鼠标右键点击模板二,模板预览,如图13:
③确认链接是否过滤完全,如图14:
第五步:创建新的模板,并新建数据抽取
①在模板配置,点击“新建模板”按钮,得到新建模板,重命名为正文数据模板,如图15。
②新建数据抽取。直接点击模板二,点击上面“新建数据抽取”按钮,得到数据抽取,如图16。
③将模板二过滤得到的任意一条链接,作为模板三的示例地址。如:https://biandang.58.com/cn/chujingrujing/34968880434256x.shtml, 见图17:
④关联模板
在软件中模板的关联关系,与网页中链接跳转的关系相同。
根据网页跳转规律,将模板二“新建链接抽取”关联模板三,如图18。
第六步:创建/选择表单
在ForeSpider爬虫中,表单是可以复用的,所以可以在数据表单出直接选择之前建过的表单,也可以通过表单ID来进行查找并关联数据表单。此处使用的是方法三。
方法一:通过下拉菜单或表单ID选择已有表单
方法二:点击创建表单进入快速建表页面,新建表单。
方法三:点击“采集配置”-“数据建表”,点击采“采集表单”后面的如图19:
第七步:配置表单
根据所需内容,配置表单字段(即表头),此处配置了包括网页主键、文章标题、访问量、发布时间、文本内容5个字段,表单如图20:
第八步:字段取值
取值方法:按住Ctrl+鼠标左键,进行区域选择,按住Shift+鼠标左键,扩大选择区域。点击:“确认选区”按钮,确认操作
tit、read_num、pub_date、text字段,如图21:
第九步:模板预览
①鼠标右键点击模板三,然后点击“模板预览”,如图22:
②预览结果如图23:
第十步:采集预览
①点击右上角采集预览,如图24:
②双击任意一条链接,看看是否可以得到和网页对应的规整的数据,如图25、26:
相关推荐
### 58同城数据采集(站长版说明书) #### 软件概述 58同城数据采集(站长版)是一款专为网站管理员设计的数据抓取工具,旨在帮助用户高效、准确地从58同城这一国内知名的生活服务平台上获取各类信息。该软件通过...
58同城数据采集(站长版)软件特点: 1、数据永久保存 2、精确到58最细分类,精确到每一条街道 3、分类以及信息所有的字段都采集,全部仿真58同城 4、支持图片电话号码识别 5、支持数据发布到站点数据库
【58同城通讯录采集系统】是一款专门针对58同城平台设计的数据采集工具,它能够高效地抓取并整理58同城网站上的商家信息,包括电话号码和手机联系方式。这款系统具备以下几个关键特点: 1. **精准定位**:系统能够...
本篇文章将深入探讨如何有效地进行58同城简历的数据采集,以及这一过程涉及的关键知识点。 首先,我们需要了解的是**网络爬虫技术**。网络爬虫是一种自动浏览互联网并抓取网页内容的程序。在58同城简历采集的场景中...
在本案例中,"制作好的批量58同城二手房页面数据采集"项目提供了一套完整的解决方案,帮助用户高效地收集58同城网站上的二手房房源信息。这个压缩包包含了以下几个关键组成部分: 1. **爬虫文件**:这是实现数据...
58同城数据集
58同城作为中国知名的分类信息网站,其二手房板块提供了丰富的房源信息,包括价格、面积、地理位置等,对于数据分析或市场研究非常有价值。 首先,我们需要了解网络爬虫的基本原理。网络爬虫通常由以下几个部分组成...
58同城App接口数据电话解密,控制台程序,AES,个人学习研究用
"58同城抓取字段"这个标题暗示了我们正在探讨如何从58同城这个知名的分类信息网站上获取特定的数据字段。58同城是一个涵盖房产、招聘、二手物品等多个领域的平台,其中"二手房"数据是许多人关注的焦点,这可能涉及到...
仿58同城分类信息系统简介 仿58同城分类信息系统可在后台自由切换58橙、赶集绿、天猫红色等颜色的界面,默认为分类信息布局支持可切换行业门户和地方门户,总共三种色调三种布局风格;支持城市本地商家、网上商城、...
【仿58同城源代码】是一个用于学习和参考的项目,旨在模仿国内知名分类信息服务网站58同城的功能和设计。这个源代码可以帮助开发者理解和构建类似的本地生活服务平台,提供包括但不限于二手物品交易、房屋租赁、招聘...
仿58同城网站系统必须遵守网络安全法规,保护用户隐私,防止数据泄露。同时,要防止虚假信息和恶意行为,比如设置举报机制、实名认证等措施。 总结,仿58同城网站系统是一个涉及多方面技术的复杂项目,包括前端交互...
本项目"58同城搜索页静态html代码爬虫xpath测试demo"专注于利用XPath技术从58同城网站的搜索页面中提取静态HTML代码,以获取相关数据。 首先,我们要理解HTML。HTML(HyperText Markup Language)是网页内容的基础...
【58同城防屏蔽脚本】是一个针对58同城平台设计的特殊脚本,主要用于解决在58同城发布信息时可能会遇到的屏蔽问题。在58同城这样的分类信息平台上,由于平台规则和反垃圾信息机制,用户发布的信息有时会被自动过滤或...
1. **市场份额**:58同城是中国最大的分类信息网站,根据艾瑞数据,其市场份额为38%,并且市场正在由线下向线上转移。 2. **货币化前景**:58同城拥有广阔的商业货币化前景,尤其是针对中小企业的在线推广服务。 3...
58同城是一个提供生活服务、招聘信息、房屋租赁、二手物品交易等多元化信息服务的平台,而这个项目则旨在创建一个类似的系统。 【描述】"真实可用" 表示这个项目不仅是一个概念设计或原型,而是已经完成并可以实际...
本教程将聚焦于“58同城采集模拟登陆”的过程,这涉及到模拟POST请求、简历数据抓取、爬虫技术以及C#编程语言的应用。下面我们将深入探讨这些知识点。 首先,58同城是一个大型的分类信息服务网站,包含了丰富的用户...
【标题】:“本地宝仿58同城小程序源码下载,前端” 这个标题表明我们讨论的是一个与“本地宝”相似的58同城风格的小程序的前端源码。58同城是一个知名的分类信息网站,涵盖了租房、招聘、二手交易等多个生活服务...
- **日志追踪**:利用Agent进行日志数据的采集,并采用Dat算法进行关键字过滤,提高数据采集效率。 - **主动探测**:通过模拟真实用户行为进行服务可用性测试。 - **进程监控**:监测JVM等进程的状态,及时发现异常...
在Android应用开发中,模拟58同城、美团和赶集网的城市切换功能是一项常见的需求,尤其是在构建本地服务类的应用时。这个功能的核心在于提供用户友好的界面和高效的地理位置处理。以下将详细介绍实现这一功能的关键...