`

前嗅ForeSpider教程:采集58同城数据

 
阅读更多

天小编为大家带来的教程是,采集58同城数据,同样适用于其他类似网站,具体操作如下:

 

第一步:新建任务

①点击左上角“加号”新建任务,如图1:

②在弹窗里填写采集地址,任务名称,如图2:

③点击下一步,选择进行数据抽取还是链接抽取,首先采集58同城·便当分类下的分类列表的链接,所以点击抽取链接,如图3:

④完成后模板抽取配置列表有一个模板,默认模板,如图4:

 

第二步:创建链接抽取,通过定位过滤得到所需链接

①直接点击“默认模板:01”,点击上面“新建链接抽取”按钮,得到链接抽取,如图5。

 

②按住Ctrl+鼠标左键,进行区域选择,按住Shift+鼠标左键,扩大选择区域,点击“确认选区”按钮,如图6:

 

③点击采集预览确认链接是否过滤完全,如图7:

 

 

第三步:创建新模板,并添加链接抽取

①在模板配置,点击“新建模板”按钮,得到新建模板,如图8。

②将模板一过滤得到的任意一条链接,作为模板二的示例地址。如:https://biandang.58.com/cn/shebaoyiliao/, 见图9:

 

③新建数据抽取。直接点击模板二,点击上面“新建数据抽取”按钮,得到数据抽取,如图10。

④关联模板

在软件中模板的关联关系,与网页中链接跳转的关系相同。

根据网页跳转规律,将模板一的“新建链接抽取”关联模板二,如图11

 

第四步:通过定位过滤得到文章列表所需链接

①按住Ctrl+鼠标左键,进行区域选择,按住Shift+鼠标左键,扩大选择区域,点击“确认选区”按钮,如图12:

②鼠标右键点击模板二,模板预览,如图13:

 

③确认链接是否过滤完全,如图14:

 

第五步:创建新的模板,并新建数据抽取

①在模板配置,点击“新建模板”按钮,得到新建模板,重命名为正文数据模板,如图15。

②新建数据抽取。直接点击模板二,点击上面“新建数据抽取”按钮,得到数据抽取,如图16。

 

③将模板二过滤得到的任意一条链接,作为模板三的示例地址。如:https://biandang.58.com/cn/chujingrujing/34968880434256x.shtml, 见图17:

 

④关联模板

在软件中模板的关联关系,与网页中链接跳转的关系相同。

根据网页跳转规律,将模板二“新建链接抽取”关联模板三,如图18。

 

 

第六步:创建/选择表单

在ForeSpider爬虫中,表单是可以复用的,所以可以在数据表单出直接选择之前建过的表单,也可以通过表单ID来进行查找并关联数据表单。此处使用的是方法三。

方法一:通过下拉菜单或表单ID选择已有表单

方法二:点击创建表单进入快速建表页面,新建表单。

方法三:点击“采集配置”-“数据建表”,点击采“采集表单”后面的如图19:

 

 

第七步:配置表单

根据所需内容,配置表单字段(即表头),此处配置了包括网页主键、文章标题、访问量、发布时间、文本内容5个字段,表单如图20:

 

 

第八步:字段取值

取值方法:按住Ctrl+鼠标左键,进行区域选择,按住Shift+鼠标左键,扩大选择区域。点击:“确认选区”按钮,确认操作

tit、read_num、pub_date、text字段,如图21:

 

 

第九步:模板预览

①鼠标右键点击模板三,然后点击“模板预览”,如图22:

②预览结果如图23:

 

 

第十步:采集预览

①点击右上角采集预览,如图24:

②双击任意一条链接,看看是否可以得到和网页对应的规整的数据,如图25、26:

 

分享到:
评论

相关推荐

    58同城数据采集(站长版说明书)

    ### 58同城数据采集(站长版说明书) #### 软件概述 58同城数据采集(站长版)是一款专为网站管理员设计的数据抓取工具,旨在帮助用户高效、准确地从58同城这一国内知名的生活服务平台上获取各类信息。该软件通过...

    58同城数据采集系统(站长版)

    58同城数据采集(站长版)软件特点: 1、数据永久保存 2、精确到58最细分类,精确到每一条街道 3、分类以及信息所有的字段都采集,全部仿真58同城 4、支持图片电话号码识别 5、支持数据发布到站点数据库

    58同城通讯录采集系统 电话 手机

    【58同城通讯录采集系统】是一款专门针对58同城平台设计的数据采集工具,它能够高效地抓取并整理58同城网站上的商家信息,包括电话号码和手机联系方式。这款系统具备以下几个关键特点: 1. **精准定位**:系统能够...

    58同城简历采集

    本篇文章将深入探讨如何有效地进行58同城简历的数据采集,以及这一过程涉及的关键知识点。 首先,我们需要了解的是**网络爬虫技术**。网络爬虫是一种自动浏览互联网并抓取网页内容的程序。在58同城简历采集的场景中...

    制作好的批量58同城二手房页面数据采集,附完整使用手册

    在本案例中,"制作好的批量58同城二手房页面数据采集"项目提供了一套完整的解决方案,帮助用户高效地收集58同城网站上的二手房房源信息。这个压缩包包含了以下几个关键组成部分: 1. **爬虫文件**:这是实现数据...

    58同城数据集.xls

    58同城数据集

    58同城App接口数据电话解密(个人研究学习用)

    58同城App接口数据电话解密,控制台程序,AES,个人学习研究用

    58同城抓取字段

    "58同城抓取字段"这个标题暗示了我们正在探讨如何从58同城这个知名的分类信息网站上获取特定的数据字段。58同城是一个涵盖房产、招聘、二手物品等多个领域的平台,其中"二手房"数据是许多人关注的焦点,这可能涉及到...

    仿58同城分类信息系统 v5.7.rar

    仿58同城分类信息系统简介 仿58同城分类信息系统可在后台自由切换58橙、赶集绿、天猫红色等颜色的界面,默认为分类信息布局支持可切换行业门户和地方门户,总共三种色调三种布局风格;支持城市本地商家、网上商城、...

    仿58同城源代码

    【仿58同城源代码】是一个用于学习和参考的项目,旨在模仿国内知名分类信息服务网站58同城的功能和设计。这个源代码可以帮助开发者理解和构建类似的本地生活服务平台,提供包括但不限于二手物品交易、房屋租赁、招聘...

    58同城搜索页静态html代码爬虫xpath测试demo

    本项目"58同城搜索页静态html代码爬虫xpath测试demo"专注于利用XPath技术从58同城网站的搜索页面中提取静态HTML代码,以获取相关数据。 首先,我们要理解HTML。HTML(HyperText Markup Language)是网页内容的基础...

    仿58同城网站系统绝对可用

    仿58同城网站系统必须遵守网络安全法规,保护用户隐私,防止数据泄露。同时,要防止虚假信息和恶意行为,比如设置举报机制、实名认证等措施。 总结,仿58同城网站系统是一个涉及多方面技术的复杂项目,包括前端交互...

    58同城路演材料PPT.pdf

    1. **市场份额**:58同城是中国最大的分类信息网站,根据艾瑞数据,其市场份额为38%,并且市场正在由线下向线上转移。 2. **货币化前景**:58同城拥有广阔的商业货币化前景,尤其是针对中小企业的在线推广服务。 3...

    仿58同城(PHP+MYSQL)

    58同城是一个提供生活服务、招聘信息、房屋租赁、二手物品交易等多元化信息服务的平台,而这个项目则旨在创建一个类似的系统。 【描述】"真实可用" 表示这个项目不仅是一个概念设计或原型,而是已经完成并可以实际...

    58同城采集模拟登陆

    本教程将聚焦于“58同城采集模拟登陆”的过程,这涉及到模拟POST请求、简历数据抓取、爬虫技术以及C#编程语言的应用。下面我们将深入探讨这些知识点。 首先,58同城是一个大型的分类信息服务网站,包含了丰富的用户...

    58同城防屏蔽脚本

    【58同城防屏蔽脚本】是一个针对58同城平台设计的特殊脚本,主要用于解决在58同城发布信息时可能会遇到的屏蔽问题。在58同城这样的分类信息平台上,由于平台规则和反垃圾信息机制,用户发布的信息有时会被自动过滤或...

    本地宝仿58同城小程序源码下载,前端

    【标题】:“本地宝仿58同城小程序源码下载,前端” 这个标题表明我们讨论的是一个与“本地宝”相似的58同城风格的小程序的前端源码。58同城是一个知名的分类信息网站,涵盖了租房、招聘、二手交易等多个生活服务...

    58同城架构部资深工程师_IT168文库.pdf

    - **日志追踪**:利用Agent进行日志数据的采集,并采用Dat算法进行关键字过滤,提高数据采集效率。 - **主动探测**:通过模拟真实用户行为进行服务可用性测试。 - **进程监控**:监测JVM等进程的状态,及时发现异常...

    高仿58同城,美团,赶集网切换城市

    在Android应用开发中,模拟58同城、美团和赶集网的城市切换功能是一项常见的需求,尤其是在构建本地服务类的应用时。这个功能的核心在于提供用户友好的界面和高效的地理位置处理。以下将详细介绍实现这一功能的关键...

    爬虫采集行业数据_java_爬虫_数据分析_

    【标题】:“爬虫采集行业数据_java_爬虫_数据分析_”揭示了这个主题的核心是使用Java编程语言...这些知识点共同构成了一个完整的数据采集和分析流程,从获取数据到转化信息,再到利用这些信息进行决策支持或业务优化。

Global site tag (gtag.js) - Google Analytics