`
文章列表
数据过滤脚本与数据抽取脚本并列的脚本,它的作用是对抽取的数据进行过滤。   注意:一旦有了数据过滤脚本则数据抽取脚本将失效,即“数据处理” 下拉菜单必须选择“数据过滤脚本”。       一.可用全局对象(只读 ...
数据抽取脚本与数据过滤并列的脚本,它的作用是对抽取的数据进行过滤。数据处理脚本是数据抽取中的脚本。点击“数据抽取”节点,在“数据脚本”的下拉菜单必须选择“数据抽取脚本”。配置了数据处理脚本,数据的抽取流程将被改变: 1.如果脚本未正确返回dom区域节点,则该数据抽取的规则将完全由该脚本控制。 2.如果脚本返回了一个正确的dom区域节点,则此数据抽取以返回的区域节点为基准,区域外的数据则优先当做垃圾信息处理。 注意:一旦有了数据抽取脚本则数据过滤脚本将失效,即“数据脚本”的下拉菜单必须选择“数据抽取脚本”。   一.可用全局对象(只读)   EXTRACT: 当前采集引擎[ 对象类 ...
链接过滤脚本是地址和标题过滤中的脚本, 过滤类型必须选择脚本过滤时过滤脚本才能生效,过滤脚本用于处理复杂的链接或标题过滤需求。   一.可用全局对象(只读)   EXTRACT: 当前采集引擎[ 对象类型: extractor ] DATADB: ...
链接脚本是链接抽取中的脚本。配置了链接脚本,链接的抽取流程将被改变: 1.如果脚本未正确返回dom区域节点,则该链接抽取的规则将完全由该脚本控制。 2.如果脚本返回了一个正确的dom区域节点,则此链接抽取以返回的区域节点为基准,区域外的链接将被过滤掉。   一.可用全局对象(只读) EXTRACT: 当前采集引擎[ 对象类型: extractor ] DATADB: 当前连接的数据库[ 对象类型: dataBase ] RESULT: 当前结果集对象[ 对象类型: result ] URL: 当前采集的链接对象[ 对象类型: url ] URLTEXT : 描述当前链接采集的 ...
链接脚本是频道的模板中的脚本。配置了模板脚本,模板的处理流程将被改变: 1.如果脚本未正确返回dom区域节点,则该模板的采集则完全由该脚本控制。 2.如果脚本返回了一个正确的dom区域节点,则该模板的所有流程(链接抽取或数据抽取)都以该区域节点为基准,区域外的信息和数据将优先作为垃圾数据处理。   一.可用全局对象(只读)   EXTRACT: 当前采集引擎[ 对象类型: extractor ] DATADB: 当前连接的数据库[ 对象类型: dataBase ] RESULT: 当前结果集对象[ 对象类型: result ] URL: 当前采集的链接对象[ 对象类型: ur ...
今天,小编主要为大家介绍一下:前嗅ForeSpider脚本中的频道脚本。   频道脚本是频道配置中的脚本, 如果配置了频道脚本,该频道的所有采集流程将被配置的脚本所接管。   一.可用全局对象(只读)   EXTRACT:当前采集引擎[ 对象类型: extractor ] DATADB:当前连接的数据库[ 对象类型: dataBase ] RESULT:当前结果集对象[ 对象类型: result ]   二.this指针   当前频道节点[channel ]对象   三.脚本返回值   无 示例一:   用脚本创建一个采集源列表   1.以下脚本将生成 ...
今天,小编主要为大家介绍一下:前嗅ForeSpider脚本中的扩展对象:链接抽取类tmplLink,链接过滤类tmplFilter,数据抽取类tmplData,模板字段类tmplVal。具体内容如下:       一.链接抽取类tmplLink   tmplLink 类为ForeSpider模板的链接抽取操作类。用于控制模板的链接抽取操作。   1.类成员:         2.成员方法:         二.链接过滤类tmplFilter       tmplFilter 类为链接采集过滤操作类,其只有一个方法:Test。用于测试一个字符串 ...
今天,小编主要为大家介绍一下:前嗅ForeSpider脚本中的扩展对象:表单操作类schema,采集管理类extractor,采集频道类channel,以及频道模板类tmplTmpl。具体内容如下:   一.表单操作类schema schema 类为表单操作类。 1.类成员: ​   2.成员方法: ​   二.采集管理类extractor   extractor 类为采集引擎操作类,管理当前的采集入口,采集属性配置. 1.类成员:无   2.成员方法:
今天,小编主要为大家介绍一下:前嗅ForeSpider脚本中的标准对象:采集文档类grabDoc,采集记录集类result,JavaScript操作类jScript、KeyForm操作类KeyForm,html标签属性类domAttr以及keySearch操作类keySearch。具体内容如下:   一.采集文档类grabDoc grabDoc 类为ForeSpider网页(或文件)的采集文档类, 定义了一个当前的采集文档。。   1.类成员:无   2.成员方法: ​   二.采集记录集类result   grabDoc 类为ForeSpider网页(或文件)的采集文 ...
今天,小编主要为大家介绍一下:前嗅ForeSpider脚本中的基础对象,主要内容包括:记录类record,记录集类records,数据表类dataTable,dataInRet类。具体内容如下:   一.记录类record   record 类为数据记录类。   1.类成员: ​   2.成员方法: ​   二.记录集类records   records 类为数据记录集类,是数据记录的集合。   1.类成员:
今天,小编给大家介绍一下:前嗅ForeSpider脚本中的基础对象,主要内容有:数组类array、键值对类hash、文件类file、字段操作类field。具体内容如下:   一.数组类array   array 类为数组类。   1.类成员 ​   2.成员方法 ​   3.脚本应用 如果在导航栏的采集预览中找到多个栏目,我们需要的个别栏目在爬虫的链接过滤中很难得到的时候。那就可以在网页源码中找到需要的链接和栏目标题,用如下脚本 示例: array city;//定义一个数组 city = [{name:"北京",url:"/zha ...
今天,小编为大家介绍一下:前嗅ForeSpider脚本中的基础对象。主要内容有:基础对象var、字符串string、数字类number、时间类time。具体内容如下:   一.基础对象var   var 类为基本类,任何一个变量或常量都是var类,任何其他的对象类都派生域var类。   1.类成员 ​   2.成员方法 ​   二.字符串string   string 类为基础类,一个用双引号或单引号引用的字符串自动初始化为一个string类。   1.类成员
今天小编为大家介绍的是:前嗅ForeSpider脚本中的运算符和运算顺序,具体内容有:脚本支持的运算符、运算顺序、运算级别以及默认类型转换顺序。   一.ForeSpider脚本支持的运算符   1.一般运算符: ​ 2.比较运算符: ​   3.赋值运算: ​   4.自增自减运算:
今天,小编主要为大家介绍一下:前嗅ForeSpider脚本中的基本语句。内容包括:顺序语句,条件语句,循环语句,开关语句和返回语句。   1.顺序语句   ForeSpider脚本语法规则类似JavaScript、C++等标准语言,每一条语句用分号隔开,例如: x = 1; y =2; z=x+y; 或者,一行一条语句,例如: x=1 y=2 z = x+y 多个变量声明之间可以用逗号,例如: var x=0,y='hello'; 中间的通常为语句块,例如: if(true) {echo("true");}   2.条件语句[if else ...
本教程主要对前嗅ForeSpider脚本做了详细的介绍。主要内容包括:脚本结构,脚本与可视化配置的关系,各节点脚本之间的关系,以及脚本编辑区。具体内容如下:   一.ForeSpider脚本结构   ForeSpider脚本是前嗅自主研发的爬虫 ...
Global site tag (gtag.js) - Google Analytics