以采集起点中文小说网中(https://www.qidian.com/)的数据列表的数据为例:
一.网站结构
1.网站截图说明
采集起点中文网中的最近更新数据列表中的数据,如下图所示:
【列表数据页面】
2.采集结果截图
【采集出来的列表数据】
二.配置模板
- 新建任务
点击下一步,由于仅需要采集本页面表格数据,所以勾选【抽选数据】。
2.创建/选择表单
表单创建后可以重复选择使用,如果已有建好的表单,选择对应数据表单即可。如果没有,点击创建表单。
【创建表单】
根据所需内容,配置表单字段,此处配置了id(主键)、fenlei(小说类别)、shuming(小说名称)、zuixin(最新章节)、zuozhe(作者)、shijian(更新时间)等字段。
注意:采集表格/列表数据时,id(主键)设置的时候,选择自增主键。=>(字段各属性介绍)
方式一:快速建表。(点击【创建表单】出现弹窗。)
【配置表单】
方式二:自由建表。(在【数据建表】界面。)
【配置表单】
4.识别列表
选中表单后,chrl+点击表头第一个表格,后shift+点击其他表头扩大选取,直至所有表头均被选中,最后点击识别列表。
【识别列表】
【列表识别成功】
5.字段取值
①fenlei:通过字段定位取值,按ctrl+单击标题,确认选取。
②shuming:通过字段定位取值,按ctrl+单击标题,确认选取。
③其他字段按照同样的方法进行字段取值。
6.关联数据表
先创建一个数据表,如下图所示
再关联表单,勾选数据表。
7.模板预览
点击采集预览,进行预览。
【采集预览】
三.数据采集
- 运行设置
运行设置处可以设置采集速度、采集策略、任务装载等。
【运行设置】
2.选择采集任务
在【任务列表】中勾选需要采集的任务,可勾选多个任务,同时采集。
【选择采集任务】
3.开始采集
点击【开始采集】,系统开始进行采集。剩余任务数为0时,系统自动停止采集。用户也可以自己暂停任务或停止任务(停止任务会释放任务,再次启动时重新装载任务)。
【开始采集】
4.数据浏览
采集一段时间以后,点击【数据浏览】,在数据列表中选中对应的数据表,即可浏览采集到的数据,点击【刷新】按钮可以同步显示数据。
【数据浏览】
5.导出数据
点击【导出】按钮,选择导出文件格式后保存。
【导出数据】
相关推荐
总的来说,前嗅forespider数据采集软件是面向广大非程序员群体的一款实用工具,它降低了数据采集的技术门槛,使得更多人能够参与到大数据的挖掘与分析中来。通过熟练运用这款软件,用户可以高效地获取网络上的信息...
"大数据来源数据采集详情列表图-PPT模板" 大数据来源数据采集详情列表图是大数据架构图的一部分,旨在展示大数据来源的数据采集过程。在这个PPT模板中,我们可以看到大数据来源的各种类型,包括人、设备、状态、视 ...
大数据与数据采集 大数据与数据采集是当前IT行业中最热门的概念之一。大数据技术不仅指获得海量数据,更重要的是通过对海量数据的分析、整合来获得隐藏在数据背后的有价值的信息。在这个主题下,我们将探讨大数据的...
4. 系统架构:该项目的系统架构包括数据采集、数据存储、数据分析和数据可视化等模块,旨在提供一个完整的金融大数据分析和处理系统。 知识点:系统架构是金融大数据分析和处理的基础设施。 5. 虚拟现实可视化平台...
为了更好地管理电网企业的大数据,建立统一有效的大数据采集中心,符合电网企业新的发展战略显得尤为重要。本文将针对电网企业终端传感器采集的数据进行探讨,包括用户行为文本数据、终端图片等图片数据、其他平台的...
在这一背景下,针对大数据主动防御中的数据采集问题,研究人员提出了低损耗数据采集方法。数据采集是主动防御系统的第一步,它需要从大数据环境中高效地提取出必要的数据信息,同时要求不对大数据环境造成过大的负荷...
【大数据的计量数据采集与应用分析】 大数据在当今信息技术和人工智能快速发展的时代,已经成为各行各业不可或缺的重要工具。计量数据采集作为大数据的重要组成部分,尤其在电力、流体能源和物资计量等领域发挥着...
大数据平台架构包括数据采集、数据存储、数据处理、数据分析、数据挖掘和数据可视化等几个组成部分,这些部分相互关联,形成一个完整的系统,支持企业从海量数据中获取洞察和价值。 大数据平台架构的设计思路是指在...
大数据采集及预处理是大数据领域的重要组成部分,涵盖了从数据源头获取到准备数据分析的全过程。通过使用高效的ETL工具,可以有效地管理和处理来自不同来源的大量复杂数据。这些工具不仅提高了数据处理的效率,也为...
本文将围绕大数据开发、数据技术、数据采集方法和数据分析攻击这几个核心知识点展开详细阐述。 首先,大数据开发是指对大规模数据集进行有效管理和分析的一系列活动和工程实践。它不是一个单一的技术,而是覆盖了...
大数据是当今信息技术领域的重要组成部分,它涉及到海量数据的采集、存储、处理和分析,为企业决策提供有力支持。本文将从“大数据中台”、“数据仓库”、“大数据平台”以及“数据治理”四个方面进行深入探讨。 ...
该数据包含了2021年至今广东省江门市城市大数据资源中心平台数据源数据总量统计总信息,指本市行政部门详细记录了江门市城市大数据资源中心平台数据源数据总量统计总信息。并根据相关规则进行数据清洗整理,提高信息...
大数据中台、数据仓库、大数据平台和数据治理是构建高效数据体系的基石。以下是对这些概念的详细解释及其相互关系: 首先,我们要理解“大数据中台”。大数据中台是企业数据管理的一种新架构,它旨在整合和标准化...
大数据技术分享 无线大数据 手机移动端大数据实践 数据采集与分析 共21页.pptx
大数据视角下中国田径竞赛数据采集方法研究 本研究旨在解决中国田径竞赛数据采集的方法问题,通过构建基于竞赛端的以竞赛成绩信息为目标数据的采集方法体系。当前,我国体育数据库存在许多问题,如信息全面多样但...
数字化转型之大数据平台+数据治理+数据管理+数据安全等方案建设PPT大合集,共36份。 城市大数据中心建设方案 大数据安全规划总体方案 大数据对税收和社会保险费征收管理的影响 大数据机房自然通风冷却节能项目计划...
大数据实时数据采集架构
4.2 大数据采集 4.3 大数据预处理 4.4 大数据集成 5.1 hadoop简介之一 5.2 hadoop简介之二 5.3 HDFS的简要介绍 5.4 基于HDFS的数据库之一 5.5 基于HDFS的数据库之二 5.6 基于HDFS的数据库之三 5.7 一种基于Hadoop的...