一. 网站结构
1. 网站截图说明
采集昵图网某页面中所有图片及链接地址
【昵图网某页面】
2. 采集结果截图
【检索列表链接】
【检索数据结果】
二. 配置模板
1.新建任务
点击【下一步】,需要采集全部检索结果,所以此处需要勾选【链接列表】和【普通翻页】,如图:
【新建采集任务】
2.过滤链接列表
①用定位过滤链接,过滤关键词检索出的列表链接。
【定位过滤列表链接】
②采集预览,看是否过滤成功。
采集预览出现链接均为网页中关键词检索列表中的链接,过滤成功。
【采集预览】
3. 过滤翻页链接
①用定位过滤链接,过滤翻页链接。
【定位过滤翻页链接】
②采集预览,看是否过滤成功
采集预览出现链接均为翻页的链接,过滤成功。
【采集预览】
4.新建数据抽取
5.添加示例地址
6.创建/选择表单
表单创建后可以重复选择使用,如果已有建好的表单,选择对应数据表单即可。如果没有,点击创建表单。
7.配置表单
根据所需内容,配置表单字段,此处配置了包括主键、网页地址、图片三个字段。=>(字段各属性介绍)
方式一:快速建表。(点击【创建表单】出现弹窗。)
【配置表单】
方式二:自由建表。(在【数据建表】界面。)
【字段取值】
8.关联表单
9.字段取值
①f_id:主键字段,自动取值。=>(能够自动取值的字段有哪些?)
②url:当前页面网址,自动取值。
③name1:通过字段定位取值,按ctrl+单击标题,确认选取。
【name1】
④fujian:通过字段定位取值,按ctrl+单击图片,确认选取。
10.关联数据表
先选择对应表单,然后再创建关联数据表,如图所示。
【创建关联数据表】
【定义表名称】
【勾选数据表】
11.模板预览
通过预览,可以了解配置是否能够正确地采集到所需数据。
方式一:点击【采集预览】按钮,可以从入口页逐层预览各个模板的数据。
点击任意一条链接,看看是否可以得到和网页对应的规整的数据。
方式二:右键后选择【模板预览】,可以单独预览某个模板的数据。
【模板预览】
【预览结果】
三.数据采集
1. 运行设置
运行设置处可以设置采集速度、采集策略、任务装载等。
【运行设置】
2. 选择采集任务
在【任务列表】中勾选需要采集的任务,可勾选多个任务,同时采集。
【选择采集任务】
3. 开始采集
点击【开始采集】,系统开始进行采集。剩余任务数为0时,系统自动停止采集。用户也可以自己暂停任务或停止任务(停止任务会释放任务,再次启动时重新装载任务)。
【开始采集】
4.数据浏览
采集一段时间以后,点击【数据浏览】,在数据列表中选中对应的数据表,即可浏览采集到的数据,点击【刷新】按钮可以同步显示数据。
【数据浏览】
5.导出数据
点击【导出】按钮,选择导出文件格式后保存。
【导出数据】
【导出数据】
相关推荐
它的核心优势在于其强大的数据抓取能力,覆盖了网页的多种数据类型,包括文本、图片、链接等。通过预设规则或自定义规则,用户可以定制化地采集所需信息,大大提高了数据采集的效率和准确性。 **二、可视化操作界面...
ForeSpider爬虫工具软件使用教程 使用ForeSpider爬虫软件批量采集企业信息公示系统.zip
网上的便捷爬虫软件,可直接在许多网站上进行数据爬取
**网络爬虫之Spider** 网络爬虫是一种自动化程序,它能按照一定的规则遍历互联网上的网页,抓取所需的信息,并存储在本地或者数据库中。在Java编程语言中,开发网络爬虫可以借助各种库和工具,如Jsoup、Apache ...
微博是中国最流行的社交媒体平台之一,用户在这里发布、分享和评论各种信息,包括文字、图片、视频等。由于这些数据具有很高的社会价值和研究意义,因此开发一个微博爬虫,即"Weibospider",对于数据挖掘、舆情分析...