ForeSpider采集教程：如何采集图片及链接地址 - - ITeye博客

`

qianxiu

浏览: 47104 次

最近访客更多访客>>

wangyy

leimingchao

masuweng

abc123

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

ForeSpider采集教程：如何采集图片及链接地址

博客分类：

阅读更多

一. 网站结构

1. 网站截图说明

采集昵图网某页面中所有图片及链接地址

【昵图网某页面】

2. 采集结果截图

【检索列表链接】

【检索数据结果】

二. 配置模板

1.新建任务

点击【下一步】，需要采集全部检索结果，所以此处需要勾选【链接列表】和【普通翻页】，如图：

【新建采集任务】

2.过滤链接列表

①用定位过滤链接，过滤关键词检索出的列表链接。

【定位过滤列表链接】

②采集预览，看是否过滤成功。

采集预览出现链接均为网页中关键词检索列表中的链接，过滤成功。

【采集预览】

3. 过滤翻页链接

①用定位过滤链接，过滤翻页链接。

【定位过滤翻页链接】

②采集预览，看是否过滤成功

采集预览出现链接均为翻页的链接，过滤成功。

【采集预览】

4.新建数据抽取

5.添加示例地址

6.创建/选择表单

表单创建后可以重复选择使用，如果已有建好的表单，选择对应数据表单即可。如果没有，点击创建表单。

7.配置表单

根据所需内容，配置表单字段，此处配置了包括主键、网页地址、图片三个字段。=>（字段各属性介绍）

方式一：快速建表。（点击【创建表单】出现弹窗。）

【配置表单】

方式二：自由建表。（在【数据建表】界面。）

【字段取值】

8.关联表单

9.字段取值

①f_id：主键字段，自动取值。=>（能够自动取值的字段有哪些？）

②url：当前页面网址，自动取值。

③name1：通过字段定位取值，按ctrl+单击标题，确认选取。

【name1】

④fujian：通过字段定位取值，按ctrl+单击图片，确认选取。

10.关联数据表

先选择对应表单，然后再创建关联数据表，如图所示。

【创建关联数据表】

【定义表名称】

【勾选数据表】

11.模板预览

通过预览，可以了解配置是否能够正确地采集到所需数据。

方式一：点击【采集预览】按钮，可以从入口页逐层预览各个模板的数据。

点击任意一条链接，看看是否可以得到和网页对应的规整的数据。

方式二：右键后选择【模板预览】，可以单独预览某个模板的数据。

【模板预览】

【预览结果】

三.数据采集

1. 运行设置

运行设置处可以设置采集速度、采集策略、任务装载等。

【运行设置】

2. 选择采集任务

在【任务列表】中勾选需要采集的任务，可勾选多个任务，同时采集。

【选择采集任务】

3. 开始采集

点击【开始采集】，系统开始进行采集。剩余任务数为0时，系统自动停止采集。用户也可以自己暂停任务或停止任务（停止任务会释放任务，再次启动时重新装载任务）。

【开始采集】

4.数据浏览

采集一段时间以后，点击【数据浏览】，在数据列表中选中对应的数据表，即可浏览采集到的数据，点击【刷新】按钮可以同步显示数据。

【数据浏览】

5.导出数据

点击【导出】按钮，选择导出文件格式后保存。

【导出数据】

【导出数据】

0
顶

1
踩

分享到：

ForeSpider采集教程：如何采集网页中附件数 ... | ForeSpider采集教程发布（论坛类）：零基础 ...

2019-12-11 14:56
浏览 489
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

forespider数据采集软件: 它的核心优势在于其强大的数据抓取能力，覆盖了网页的多种数据类型，包括文本、图片、链接等。通过预设规则或自定义规则，用户可以定制化地采集所需信息，大大提高了数据采集的效率和准确性。 **二、可视化操作界面...

使用ForeSpider爬虫软件批量采集企业信息公示系统.zip: ForeSpider爬虫工具软件使用教程使用ForeSpider爬虫软件批量采集企业信息公示系统.zip

forespider: 网上的便捷爬虫软件，可直接在许多网站上进行数据爬取

网络爬虫之Spider: **网络爬虫之Spider** 网络爬虫是一种自动化程序，它能按照一定的规则遍历互联网上的网页，抓取所需的信息，并存储在本地或者数据库中。在Java编程语言中，开发网络爬虫可以借助各种库和工具，如Jsoup、Apache ...

weibo_spider_spider_爬取微博_爬取微博评论_微博_weibospider_: 微博是中国最流行的社交媒体平台之一，用户在这里发布、分享和评论各种信息，包括文字、图片、视频等。由于这些数据具有很高的社会价值和研究意义，因此开发一个微博爬虫，即"Weibospider"，对于数据挖掘、舆情分析...

Global site tag (gtag.js) - Google Analytics