`

前嗅ForeSpider脚本教程:数据抽取脚本

阅读更多

数据抽取脚本与数据过滤并列的脚本,它的作用是对抽取的数据进行过滤。数据处理脚本是数据抽取中的脚本。点击“数据抽取”节点,在“数据脚本”的下拉菜单必须选择“数据抽取脚本”。配置了数据处理脚本,数据的抽取流程将被改变:

1.如果脚本未正确返回dom区域节点,则该数据抽取的规则将完全由该脚本控制。

2.如果脚本返回了一个正确的dom区域节点,则此数据抽取以返回的区域节点为基准,区域外的数据则优先当做垃圾信息处理。

注意:一旦有了数据抽取脚本则数据过滤脚本将失效,即“数据脚本”的下拉菜单必须选择“数据抽取脚本”。

 

一.可用全局对象(只读)

 

EXTRACT: 当前采集引擎[ 对象类型: extractor ]

DATADB: 当前连接的数据库[ 对象类型: dataBase ]

RESULT: 当前结果集对象[ 对象类型: result ]

URL: 当前采集的链接对象[ 对象类型: url ]

URLTEXT : 描述当前链接采集的所有状态及属性的对象[ 对象类型: urltext ]

DOC: 当前采集的文档对象[ 对象类型: grabDoc ]

DOM: 当前采集文档的dom对象[ 对象类型: dom ]

ITEM: 模板区域的dom树节点(如果模板未选择区域则为dom树的根节点)[ 对象类型: domItem ]

TMPL: 当前文档模板对象[ 对象类型: tmplTmpl ]

REC: 当前记录集对象[ 对象类型: record ]

 

二.this对象

 

当前数据抽取[tmplData]对象

 

三.脚本返回值

 

如果欲采集某个特征区域内的数据,则必须返回该区域的dom节点对象( domItem对象); 否则该数据抽取则完全由脚本控制。

 

示例

 

在数据模板表单各字段的区域特征定位无法取值时,就要写数据抽取脚本。

1.数据抽取脚本基本的样式

 

record infoTable;   //一个新的取值记录
infoTable.(字段名)infoTable.hkkey = MD5(URL.urlname);  
infoTable.title = title;、
infoTable.goods_id = itemId;
infoTable.platform = "";
RESULT.AddRec(infoTable, TMPL.fstdoc.schemaid); //输出

2.采集第一个Form表单中的数据

return DOM.FindName("form"); 

分享到:
评论

相关推荐

    Linux Shell脚本教程:30分钟玩转Shell脚本编程 _

    Linux Shell脚本教程:30分钟玩转Shell脚本编程 _

    Installshield 脚本代码:卸载时杀掉进程

    ### Installshield 脚本代码:卸载时杀掉进程 在软件开发和部署过程中,安装程序(如Installshield)的脚本编写是一项重要的技能。本文将深入探讨一个具体的脚本示例,该脚本旨在在卸载软件时终止特定进程。通过...

    Unity3D 2018 最新最全800个脚本教程

    Unity3D教程:制作简单小汽车游戏 OnGUI的视觉化编辑 unity3d角色血条 Unity3D格斗游戏运动特效 MenuItem自定义菜单项 Unity3D脚本:导弹追踪代码 Unity3D教程:UI自动适合屏幕分辨率 中慢动作与加速动作的实现 ...

    经典windows脚本教程

    《经典Windows脚本教程》是一份由微软官方提供的宝贵学习资源,主要涵盖了VBS(Visual Basic Script)和JS(JavaScript)在Windows环境下的脚本编程技术。这些脚本语言在系统自动化、任务调度、网页交互等多个领域都...

    linux下shell脚本实现数据的导出

    首先,让我们分析给出的`backup.sh`脚本: ```bash su - oracle -c " exp cg23/sa tables=exp_table1,exp_table2 file=/home/oracle/exp/exp.dmp" ``` 这个脚本做了以下几件事: 1. `su - oracle`: 切换到`oracle`...

    技术领域+数据抽取+应用工具ES.rar

    在20210803ES这个文件中,可能包含了关于如何使用Elasticsearch进行数据抽取的教程、配置示例、代码片段或者案例研究。可能的内容可能涵盖以下几个方面: 1. **安装与配置**:介绍如何在不同的操作系统上安装...

    FileMaker高级教程 脚本

    ### FileMaker高级教程:脚本 #### 重要性与作用 在FileMaker Pro软件中,脚本是一项极其重要且强大的工具。它使开发者能够创建自动化的任务流程,从而极大地提高工作效率并减少人为错误。通过本章节的学习,我们...

    windows脚本教程 chm

    《Windows脚本教程》是一本全面介绍Windows操作系统中脚本技术的权威指南,主要针对的是批处理脚本(Batch Scripting)和Windows PowerShell脚本。CHM格式是Microsoft的 Compiled HTML Help,通常用于电子手册或文档...

    logstash抽取mongodb 和 mysql 的全套 ruby脚本

    本文将详细介绍如何使用Logstash结合Ruby脚本来从MongoDB和MySQL数据库中抽取数据。 首先,我们来看`mongodb.rb`脚本。这是一个Logstash插件,通常用于定义如何从MongoDB中提取数据。MongoDB是一个流行的NoSQL...

    按键精灵VBS经典脚本教程

    1. 文件下载(无回显)脚本: 使用VBS脚本可以实现文件下载,并且不显示下载过程。 2. 列举进程脚本: 使用VBS脚本可以列举系统中的进程。 3. 终止进程脚本: 使用VBS脚本可以终止系统中的进程。 4. 重启系统...

    Genesis2000、InCAM脚本图文教程

    编写C-shell脚本前,首先需要理解C-shell的脚本文件首行的作用。如果脚本首行以#!开始,后面紧跟一个程序名,系统会用那个程序执行后续的命令。如果首行以#开始,系统会用C-shell执行脚本。如果首行不是以#开始,...

    Kettle实现增量抽取数据

    增量抽取是从源系统中提取自上次抽取以来发生改变的新数据或更新数据,而不是每次全量抽取所有数据,这样可以显著提高效率并减少网络和存储资源的消耗。在这个案例中,我们不依赖时间戳,可能需要用到其他的追踪机制...

    SCDM脚本开发入门教程

    **SCDM概述** SCDM全称为ANSYS SpaceClaim Direct Modeler,是一款基于直接建模理念的3D建模和几何处理软件。它摒弃了传统CAD系统中的历史记录...通过学习和实践SCDM脚本,工程师可以更高效地完成仿真分析前处理工作。

    PADS常用脚本文件

    - 调试脚本:在PADS环境中运行脚本,观察执行结果,根据需要进行调试和优化。 - 整合到工作流程:将脚本整合到设计流程中,例如设置快捷键或者作为批处理任务的一部分。 5. **脚本学习资源**: - 官方文档:PADS...

    BAT脚本编写教程

    BAT脚本,全称为Batch Script,是Windows操作系统中的一种脚本语言,主要用于自动化执行一系列DOS命令。在本文中,我们将深入学习几个基础且常用的BAT脚本命令:echo、@、call、pause以及rem。 首先,`echo`命令...

    sqlserver表数据生成insertsql脚本(导出成insertsql脚本).pdf

    SQL Server表数据生成INSERT SQL脚本 SQL Server是一种强大的关系数据库管理系统,提供了多种方式来生成INSERT SQL脚本,以便将数据导出到其他数据库或系统中。在本文中,我们将介绍如何使用SQL Server 2008中文版...

    流行病毒免疫脚本 出自:死性不改's Blog~

    3. **备份数据**:在运行脚本前,最好备份重要的个人数据,以防意外发生。 4. **监控进程**:在运行脚本时,观察系统资源使用情况,如果发现异常,应立即停止脚本执行。 5. **更新与维护**:病毒和恶意软件不断进化...

    LoadRunner创建测试脚本教程.docx

    2. 录制脚本:使用 LoadRunner 的 Visual User Generator 工具,录制用户的操作,并生成测试脚本。录制过程中,用户需要遵循录制原则,包括提高脚本执行效率、录制具有代表性的功能、选择具有影响的事务等。 3. ...

    PhotoShop脚本教程及生成所有图层坐标的案例

    Photoshop脚本教程是针对Adobe Photoshop的编程接口——Scripting API进行的学习资源,它允许用户通过编写脚本来自动化复杂的图像处理任务,提高工作效率。在这款专业图像编辑软件中,脚本功能尤其对设计师和摄影师...

    测试数据生成脚本

    测试数据生成脚本是软件测试过程中至关重要的一环。在软件开发和质量保证中,测试数据是用来验证系统功能、性能和安全性的输入数据。一个精心设计的测试数据生成脚本能够帮助我们快速创建大量且多样化的数据,模拟...

Global site tag (gtag.js) - Google Analytics