今天,小编为大家带来的教程是:如何在前嗅ForeSpider中抽取数据。主要内容包括:如何选择表单,如何采集列表/表格数据两大部分。具体内容如下:
一,如何选择表单
在ForeSpider爬虫中,表单是可以复用的表结构,建好的表单可以重复用于多个任务。
【数据表选择页】
1.选择表单
方法一:通过下拉菜单,或填写表单ID,选择已有表单。
方法二:快速建表,点击创建表单,进入快速建表页面,新建表单。(>>详见快速建表)
方法三:自由建表,点击“采集配置”-“数据建表”,点击采“采集表单”后面的。(>>详见自由建表)
【数据建表页】
2.数据存储方式
指的是数据采集时,在数据库里的存储方式。
①插入:默认为插入。如遇到数据库中已存在的重复数据,则不再插入。
②仅更新:如遇到数据库中已存在的重复数据,则用最新采集的数据覆盖掉。
③追加:如字段的属性是运算字段,则可以进行字段运算。
④插入并更新:没有重复的记录则插入,有重复记录则更新。
二,如何采集列表/表格数据
识别列表用于存储表格/列表的数据,将表格/列表的不同列对应存入不同字段,表格/列表的不同行分别存储为数据表的多条记录。以前嗅官网Web服务器(http://www.forenose.com/pannel/prod/server_cen.html)为例。
1.创建表单
根据表格内容,创建一个存储表格数据的表单。在选项卡“数据建表”中,创建一个表单。(>>自由建表)
【识别列表的表结构】
(1)主键
采集表格时,表格的一行作为一条数据。由于整个表格属于同一个网页文档,而文档主键只有一个,因此不能像采集其他内容一样,取值类型选择“网页主键”。
表格的主键的变量类型,根据表格的行数长度,选择“Integer”或者“Long”。取值类型选择“空”。字段属性选择“主键字段”和“自动字段”(选择主键字段后,软件会自动选择“键值唯一”和“索引字段”。)
【主键字段的配置】
(2)其他字段
其他字段的变量类型选择“string”,取值类型选择“选区内全部文本”。(>>字段参数)
【其他字段的配置】
2.创建数据抽取
为数据抽取选择表单
【选择表单】
3.识别多值
点击“默认数据抽取”节点,按Ctrl点击任意某个单元格,按Shift再次点击扩大区域范围。
【定位表格】
点击“识别多值”,选区扩大到整个表格。点击“确认选区”。
【确认多值】
4.字段取值
主键字段不需要配置。存储表格内容的字段需要一一取值。(方法一:标准定位/方法二:特征定位)
点击数据抽取的字段,为其一一配置表格不同列的数据。点击相应字段,按Ctrl点击第一列的任意单元格,点击“保存”。
【多值字段取值】
相关推荐
2020语言与智能技术竞赛:事件抽取任务2020语言与智能技术竞赛:事件抽取任务2020语言与智能技术竞赛:事件抽取任务2020语言与智能技术竞赛:事件抽取任务2020语言与智能技术竞赛:事件抽取任务2020语言与智能技术...
数据抽取是大数据处理和分析中的一个关键步骤,它涉及到从各种源系统中获取并转换数据,以便进行后续的分析和挖掘。在这个过程中,核心问题主要包括数据的获取、清洗、转换和加载,通常简称为ETL(Extract, ...
增量抽取是从源系统中提取自上次抽取以来发生改变的新数据或更新数据,而不是每次全量抽取所有数据,这样可以显著提高效率并减少网络和存储资源的消耗。在这个案例中,我们不依赖时间戳,可能需要用到其他的追踪机制...
在给定的"事件抽取数据集事件抽取数据集事件抽取数据集"标题中,我们可以推断出这个数据集专门用于训练和评估事件抽取模型。通常,这样的数据集包含多个经过人工标注的文本样本,每个样本都有对应的事件类型和事件...
在IT行业中,ETL(Extract, Transform, Load)是一个关键的过程,用于从各种数据源抽取数据,进行转换处理,然后加载到目标系统,如数据仓库或大数据平台。Kettle,又称为Pentaho Data Integration(PDI),是一个...
### ETL中的数据增量抽取机制研究 #### 一、引言 随着大数据时代的到来,数据仓库作为企业数据管理和分析的核心工具,在企业的决策支持系统中扮演着越来越重要的角色。数据仓库的构建过程通常涉及数据的抽取...
### Kettle增量抽取数据知识点详解 #### 一、Kettle简介与重要性 Pentaho Data Integration (PDI),也称为Kettle,是一款开源的数据集成工具,被广泛应用于数据清洗、转换以及ETL(Extract, Transform, Load)过程...
"IREE:投资领域细颗粒度风险事件抽取数据集"提供了一种深入理解和分析投资风险的工具。这个数据集专为金融专家、数据科学家以及对投资风险感兴趣的个人设计,它允许用户从多维度探索和预测可能影响投资回报的风险...
Connotate:Web 数据抽取神器 Connotate 是一家为美联社、路透社、道琼斯等大型公司对全球上千个网站的非结构化数据进行实时分类和分析的公司。其产品功能利用机器学习自动生成的高效代码和辅助配置,将非结构化...
### SQL随机抽取数据知识点 #### 一、SQL Server随机抽取数据方法 在SQL Server中,如果需要从一张表中随机抽取指定数量的数据记录,可以利用`NEWID()`函数结合`ORDER BY`子句来实现这一功能。下面将详细介绍这一...
离线数据处理任务一:数据抽取 在大数据处理中,数据抽取是指从源系统中提取数据并将其转换成目标系统中的过程。这种处理方式可以帮助企业更好地管理和利用数据资源,在数据仓库和商业智能系统等领域具有广泛的应用...
《CCKS2019金融领域篇章级事件主体抽取数据集详解》 在信息技术日益发展的今天,数据已经成为驱动行业进步的重要力量。特别是在金融领域,数据挖掘与分析对于风险控制、决策支持以及业务创新具有不可估量的价值。...
.grib、.grib2、.grb、.grb2、.nc 文件网格数据集抽取工具 命令调用示例: java -jar GribFileCut.jar ***.Grib ***.nc tem,win_u,win_v [70.0,140.0,0.0,60.0] 参数1:.grib、.grib2、.grb、.grb2、.nc 文件等需要...
在本节中,我们将详细介绍 Kettle 数据抽取的全量抽取过程,包括新建抽取转换流、输入控件的选择、输出控件的选择、全量抽取的业务表前处理等内容。 1. 新建抽取转换流 在 Kettle 中,新建一个转换流非常简单,只...
《百度事件抽取数据集DuEE详解》 在信息爆炸的时代,如何从海量的文本数据中抽取出有价值的信息,特别是事件信息,成为了自然语言处理(NLP)领域的重要研究课题。百度事件抽取数据集DuEE正是为此目的而生,它为...
《CCKS2021金融领域事件因果关系抽取数据集——深度剖析与应用》 在信息技术高速发展的今天,自然语言处理(NLP)领域的研究不断深入,其中事件因果关系抽取是关键的一环。CCKS(China Conference on Knowledge ...
标题中的“kettle循环抽取表数据”指的是使用Kettle(也称为Pentaho Data Integration,简称PDI)工具进行的一种数据处理方式。Kettle是一款强大的ETL(提取、转换、加载)工具,常用于大数据环境下的数据整合。在这...
kettle抽取MySQL 增量数据 到 ES中 kettle抽取MySQL 增量数据 到 ES中 kettle抽取MySQL 增量数据 到 ES中 kettle抽取MySQL 增量数据 到 ES中 kettle抽取MySQL 增量数据 到 ES中 kettle抽取MySQL 增量数据 到 ES中 ...
【标题】"Kettle实现多表数据全量抽取"涉及的主要知识点是Kettle(Pentaho Data Integration,简称PDI)工具在数据处理中的应用,尤其是如何进行多表数据的同步与更新。Kettle是一款开源的数据集成工具,以其强大的...
基于python实现中文医学文本实体关系抽取源码+数据集+项目说明.zip 【项目介绍】 CHIP-2020-2中文医学文本实体关系抽取数据集,数据集包含儿科训练语料和百种常见疾病训练语料,儿科训练语料来源于518种儿科疾病,百...