`

前嗅ForeSpider教程:字段的取值与清洗

阅读更多

今天小编为大家带来的教程是:如何在前嗅ForeSpider中进行,字段的取值与清洗。主要内容包括:自动取值字段,取值的两个方法,和字段清洗方式。具体内容如下:

 

一,自动取值的字段包括哪些

 

当字段设置为下列采集内容时,系统会自动为字段赋值。

1.网页地址:自动采集网页的URL地址。

2.网页标题:采集网页的标题。即网页<title>中的内容。

3.网页内文字文本:采集整个页面中所有可见的文字文本。

4. 网页内容:采集网页全部文本,包含html标签等,即整个页面的源代码。

5.网页创建时间:文档创建或网页发布的时间。

6.网页更新时间:文档或网页更新的时间。

7.网页获取时间:ForeSpider采集该网页的时间。

8.当前系统时间:数据采集入库的时间。

9.文档数据大小:采集对象的质量大小[单位:字节]。

10.文档名称:采集对象的文件名,如***.html,***.doc。

11.文档后缀:文档的文件名后缀,如html、pdf等。

12.文档视宽:文档的宽[如果是图片数据则为图片的宽]。

13.文档视高:文档的高[如果是图片数据则为图片的高]。

14.文档层级:自动获取从入口页当当前数据页的跳转层级数目。

15.频道ID:采集当前频道的ID。

16.频道名称:采集当前频道的名称。

 

二,取值方法

 

1.标准定位

(1)标准定位含义

通过在内置浏览器上,定位有所需数据的区域,为字段取值。大多数情况都选择“标准定位”。

(2)定位方法

①选择:按Ctrl点击页面上相应数据的区域。

②扩大选区:按Shift再次点击页面相应区域。

③确认选区:点击“确认选区”按钮,选区生效。

【标准定位】

 

2.特征定位

(1)特征定位含义

当所需数据在不同网页的位置不固定,且数据前后具有特征性文字时,用标准定位容易错位,需要使用特征定位。

举例:对于字符串“作者:***”,采集作者名称时,可用“作者:”作为特征来定位。

 

(2)特征定位的操作方法

 ① 选择:按Ctrl点击页面上所需数据的区域。

 ② 识别特征:点击“识别特征”,出现红框,再次点击,红框移动到特征字符串时确认。

 ③ 点击“确认选区”按钮,选区生效。

 

(3)特征定位的类型

特征定位分为四种方式:

 ① 局部关键词

当页面的数据前有特定的关键词,而各个页面的表格内容、各行次序、行数又各不相同时,采用标准定位的方式就会错乱。可以根据表头特征,采集表格后的数据。与全文关键词的区别是,局部关键词只在选定区域的附近采集。

 ② 全文关键词

根据选定的特征关键词,在全页面采集该特征关键词前后对应的数据,如果出现多个特征关键词,以第一个为主。如果想采集多个的话,可以设定多值。>>查看多值的配置方式

 ③ 大文本

选定大文本区域后,自动识别各页面的大文本,相比标准定位更加精确。

 ④ 特殊标签

采集页面中只出现一次的特殊标签,如标题的<h1>标签等。

 

三,字段清洗方式

 

在采集数据之前,通过使用字段处理,软件可以自动以某种过滤方式,清洗该字段的字符串数据。通过系统自带的或脚本的方式,可以预先清洗不需要的字符串。

【字段处理】

字段清洗的方式如下:

字段处理脚本是字段处理中选择“脚本处理”后,通过脚本进一步把需要的数据清洗干净。具体配置方法需要参考脚本文档。

分享到:
评论

相关推荐

    CAD中的动态文字:字段(field)和动态反应文字.docx

    CAD中的动态文字:字段(field)和动态反应文字docx,CAD中的动态文字:字段(field)和动态反应文字。

    ArcGIS教程:面积制表

    "ArcGIS教程:面积制表" 从给定的文件信息中,我们可以提取出以下知识点: 1. 面积制表的概念:面积制表是指计算两个数据集之间交叉制表的区域并输出表的过程。在这里,我们可以使用ArcGIS软件来实现面积制表操作...

    INFORMATICA 的元数据管理.docx

    该表的结构对做过 INFORMATICA 开发的人来说,应该清楚关键字段都是你在做 MAPPING 是从 SOURCE 按钮下一步一步生成的。 5. OPB_SRC 表 OPB_SRC 表是存储源数据信息的表格。该表的主要字段包括: * SRC_ID:源...

    arcgis自动导入字段:利用模板批量导入字段tbx

    将模板用arcmap打开(注意:要选择内容列表-按绘制顺序列出显示图层),点击此功能,系统自动读取模板的字段(字段属性包括字段名称,字段类型,字段长度,字段精度,保留小数位)存储到选择的txt文件中(自己添加也...

    ArcGIS教程:值提取至点 (空间分析)

    ### ArcGIS教程:值提取至点 (空间分析) #### 知识点概述 在地理信息系统(GIS)领域,特别是利用ArcGIS进行空间数据分析时,“值提取至点”(Extract Values to Points)是一种常用的空间分析技术。它允许用户...

    EXCEL数据透视表系列教程全九讲

    教程名称:EXCEL数据透视表系列教程全九讲课程目录:【】EXCEL的数据透视表第七讲:分组数据【】EXCEL的数据透视表第三讲:显示和隐藏数据项【】EXCEL的数据透视表第九讲:打印【】EXCEL的数据透视表第二讲:字段...

    ES之_source字段详解

    为了更好地理解_source字段与store字段之间的关系,我们通过具体的实例来进行说明。 ##### 实例1: 假设我们有一个索引,其中关闭了_source字段,并且包含2个字段store为true,1个字段store为false。 1. **输入...

    ArcGIS教程:创建面积图

    ### ArcGIS教程:创建面积图 #### 知识点概览 面积图是一种直观的数据可视化方式,它通过绘制一条或多条线并在每条线与x轴之间填充颜色,以展示随时间变化的趋势或者数据间的相对比例。与折线图相比,面积图能够...

    ArcGIS教程:修改格网索引要素图层

    ### ArcGIS教程:修改格网索引要素图层 #### 核心知识点解析 ##### 1. 格网索引要素及其作用 - **定义**:格网索引要素是ArcGIS中一种特殊的要素类型,主要用于定义地图册中的每一个页面的具体特征。这种要素能够...

    ArcGIS教程:分水岭

    ArcGIS 分水岭教程 ArcGIS 分水岭是 ArcGIS 中的一种空间分析工具,用于确定流向栅格中的一组像元之上的汇流区域。该工具可以根据输入栅格中的源值或者要素倾泻点数据,来确定分水岭的值。 ArcGIS 分水岭的工作...

    C-中属性和字段(变量)的区别

    在C#编程语言中,属性和字段(变量)是类成员的重要组成部分,它们各自拥有独特的功能和使用场景,理解它们之间的区别对于编写高效、安全、易于维护的代码至关重要。 ### 属性(Property) 属性在C#中被视为一种...

    Filemaker函数中文版

    - **字段**: 可以是任意相关字段、重复字段或非重复字段集,也可以是返回字段、重复字段或非重复字段集的表达式。花括号 `{}` 中的参数是可选的。 **返回的数据类型**: 数值 **描述**: 此函数返回指定字段中所有...

    SAP ABAP开发系统字段

    在SAP ABAP开发中,系统字段扮演着关键的角色,它们提供了有关系统状态和程序执行信息的便捷途径。这些字段由ABAP运行时环境自动填充,主要用于查询和监控系统状态,大多数情况下是只读的,以确保数据的完整性。下面...

    CR水晶报表判断特殊字符取值

    在水晶报表的公式语言中,可以利用内建的字符串函数和逻辑运算符来判断某字段是否包含特定的特殊字符,并据此进行不同的取值操作。此案例中的公式主要用于判断字段`{˴嵥.zdmc}`是否同时包含“֤”和“ҽ”两个特殊...

    MySQL数据表添加字段

    在实际操作中,我们可以参考以下步骤来添加字段: 1. **创建表**:首先,创建一个简单的表,例如`student`表,包含一些基础字段,如`id`(主键)、`student_id`(学号)和`name`(姓名)。 2. **查看表结构**:...

    ArcGIS教程:存储时态数据的最佳做法

    ### ArcGIS教程:存储时态数据的最佳做法 #### 引言 随着GIS技术的发展,时态数据的应用变得越来越广泛。时态数据不仅包含了空间位置信息,还包含了随时间变化的信息,这对于研究动态过程、趋势分析及历史演变等...

    ArcGIS教程:ArcGIS时态数据展示

    ### ArcGIS时态数据展示教程 #### 一、引言 在地理信息系统(GIS)领域,数据的可视化一直是用户关注的重点。随着技术的发展,时态数据的动态展示成为了提升用户体验的有效手段之一。本文将详细介绍如何在ArcGIS中...

    Odoo货币字段解读.doc

    在实践中,货币字段可以与自动汇率转换功能结合使用,以便进行货币单位的自动转换。例如,在设置产品价格表时,可以使用货币字段来记录不同货币单位的价格信息,并使用自动汇率转换功能来进行价格计算。 Odoo 货币...

    H12-811 HCIA-Datacom 655题新题库

    1. 网络层 protocol 字段取值为 6 时,主机在访问服务器的 web 服务器时是正确的。 命令行接口 2. Error:unrecognized command found at ‘^’ position 的错误信息表明输入命令不明确。 数据包分析 3. 三个...

Global site tag (gtag.js) - Google Analytics