- 浏览: 45663 次
最新评论
文章列表
数据过滤脚本与数据抽取脚本并列的脚本,它的作用是对抽取的数据进行过滤。
注意:一旦有了数据过滤脚本则数据抽取脚本将失效,即“数据处理” 下拉菜单必须选择“数据过滤脚本”。
一.可用全局对象(只读 ...
数据抽取脚本与数据过滤并列的脚本,它的作用是对抽取的数据进行过滤。数据处理脚本是数据抽取中的脚本。点击“数据抽取”节点,在“数据脚本”的下拉菜单必须选择“数据抽取脚本”。配置了数据处理脚本,数据的抽取流程将被改变:
1.如果脚本未正确返回dom区域节点,则该数据抽取的规则将完全由该脚本控制。
2.如果脚本返回了一个正确的dom区域节点,则此数据抽取以返回的区域节点为基准,区域外的数据则优先当做垃圾信息处理。
注意:一旦有了数据抽取脚本则数据过滤脚本将失效,即“数据脚本”的下拉菜单必须选择“数据抽取脚本”。
一.可用全局对象(只读)
EXTRACT: 当前采集引擎[ 对象类 ...
链接过滤脚本是地址和标题过滤中的脚本, 过滤类型必须选择脚本过滤时过滤脚本才能生效,过滤脚本用于处理复杂的链接或标题过滤需求。
一.可用全局对象(只读)
EXTRACT: 当前采集引擎[ 对象类型: extractor ]
DATADB: ...
链接脚本是链接抽取中的脚本。配置了链接脚本,链接的抽取流程将被改变:
1.如果脚本未正确返回dom区域节点,则该链接抽取的规则将完全由该脚本控制。
2.如果脚本返回了一个正确的dom区域节点,则此链接抽取以返回的区域节点为基准,区域外的链接将被过滤掉。
一.可用全局对象(只读)
EXTRACT: 当前采集引擎[ 对象类型: extractor ]
DATADB: 当前连接的数据库[ 对象类型: dataBase ]
RESULT: 当前结果集对象[ 对象类型: result ]
URL: 当前采集的链接对象[ 对象类型: url ]
URLTEXT : 描述当前链接采集的 ...
链接脚本是频道的模板中的脚本。配置了模板脚本,模板的处理流程将被改变:
1.如果脚本未正确返回dom区域节点,则该模板的采集则完全由该脚本控制。
2.如果脚本返回了一个正确的dom区域节点,则该模板的所有流程(链接抽取或数据抽取)都以该区域节点为基准,区域外的信息和数据将优先作为垃圾数据处理。
一.可用全局对象(只读)
EXTRACT: 当前采集引擎[ 对象类型: extractor ]
DATADB: 当前连接的数据库[ 对象类型: dataBase ]
RESULT: 当前结果集对象[ 对象类型: result ]
URL: 当前采集的链接对象[ 对象类型: ur ...
今天,小编主要为大家介绍一下:前嗅ForeSpider脚本中的频道脚本。
频道脚本是频道配置中的脚本, 如果配置了频道脚本,该频道的所有采集流程将被配置的脚本所接管。
一.可用全局对象(只读)
EXTRACT:当前采集引擎[ 对象类型: extractor ]
DATADB:当前连接的数据库[ 对象类型: dataBase ]
RESULT:当前结果集对象[ 对象类型: result ]
二.this指针
当前频道节点[channel ]对象
三.脚本返回值
无
示例一:
用脚本创建一个采集源列表
1.以下脚本将生成 ...
今天,小编主要为大家介绍一下:前嗅ForeSpider脚本中的扩展对象:链接抽取类tmplLink,链接过滤类tmplFilter,数据抽取类tmplData,模板字段类tmplVal。具体内容如下:
一.链接抽取类tmplLink
tmplLink 类为ForeSpider模板的链接抽取操作类。用于控制模板的链接抽取操作。
1.类成员:
2.成员方法:
二.链接过滤类tmplFilter
tmplFilter 类为链接采集过滤操作类,其只有一个方法:Test。用于测试一个字符串 ...
今天,小编主要为大家介绍一下:前嗅ForeSpider脚本中的扩展对象:表单操作类schema,采集管理类extractor,采集频道类channel,以及频道模板类tmplTmpl。具体内容如下:
一.表单操作类schema
schema 类为表单操作类。
1.类成员:
2.成员方法:
二.采集管理类extractor
extractor 类为采集引擎操作类,管理当前的采集入口,采集属性配置.
1.类成员:无
2.成员方法:
今天,小编主要为大家介绍一下:前嗅ForeSpider脚本中的标准对象:采集文档类grabDoc,采集记录集类result,JavaScript操作类jScript、KeyForm操作类KeyForm,html标签属性类domAttr以及keySearch操作类keySearch。具体内容如下:
一.采集文档类grabDoc
grabDoc 类为ForeSpider网页(或文件)的采集文档类, 定义了一个当前的采集文档。。
1.类成员:无
2.成员方法:
二.采集记录集类result
grabDoc 类为ForeSpider网页(或文件)的采集文 ...
今天,小编主要为大家介绍一下:前嗅ForeSpider脚本中的基础对象,主要内容包括:记录类record,记录集类records,数据表类dataTable,dataInRet类。具体内容如下:
一.记录类record
record 类为数据记录类。
1.类成员:
2.成员方法:
二.记录集类records
records 类为数据记录集类,是数据记录的集合。
1.类成员:
今天,小编给大家介绍一下:前嗅ForeSpider脚本中的基础对象,主要内容有:数组类array、键值对类hash、文件类file、字段操作类field。具体内容如下:
一.数组类array
array 类为数组类。
1.类成员
2.成员方法
3.脚本应用
如果在导航栏的采集预览中找到多个栏目,我们需要的个别栏目在爬虫的链接过滤中很难得到的时候。那就可以在网页源码中找到需要的链接和栏目标题,用如下脚本
示例:
array city;//定义一个数组
city = [{name:"北京",url:"/zha ...
今天,小编为大家介绍一下:前嗅ForeSpider脚本中的基础对象。主要内容有:基础对象var、字符串string、数字类number、时间类time。具体内容如下:
一.基础对象var
var 类为基本类,任何一个变量或常量都是var类,任何其他的对象类都派生域var类。
1.类成员
2.成员方法
二.字符串string
string 类为基础类,一个用双引号或单引号引用的字符串自动初始化为一个string类。
1.类成员
今天小编为大家介绍的是:前嗅ForeSpider脚本中的运算符和运算顺序,具体内容有:脚本支持的运算符、运算顺序、运算级别以及默认类型转换顺序。
一.ForeSpider脚本支持的运算符
1.一般运算符:
2.比较运算符:
3.赋值运算:
4.自增自减运算:
今天,小编主要为大家介绍一下:前嗅ForeSpider脚本中的基本语句。内容包括:顺序语句,条件语句,循环语句,开关语句和返回语句。
1.顺序语句
ForeSpider脚本语法规则类似JavaScript、C++等标准语言,每一条语句用分号隔开,例如:
x = 1; y =2; z=x+y;
或者,一行一条语句,例如:
x=1
y=2
z = x+y
多个变量声明之间可以用逗号,例如:
var x=0,y='hello';
中间的通常为语句块,例如:
if(true)
{echo("true");}
2.条件语句[if else ...
本教程主要对前嗅ForeSpider脚本做了详细的介绍。主要内容包括:脚本结构,脚本与可视化配置的关系,各节点脚本之间的关系,以及脚本编辑区。具体内容如下:
一.ForeSpider脚本结构
ForeSpider脚本是前嗅自主研发的爬虫 ...