本教程主要对前嗅ForeSpider脚本做了详细的介绍。主要内容包括:脚本结构,脚本与可视化配置的关系,各节点脚本之间的关系,以及脚本编辑区。具体内容如下:
一.ForeSpider脚本结构
ForeSpider脚本是前嗅自主研发的爬虫脚本语言,风格类似于JavaScript。ForeSpider脚本语言属于轻量级的脚本语言,为支持高级数据采集的规则补充,它支持对象操作,函数,数组及对象定义,借助内置的采集及系统对象几乎能够完成所有的采集任务,以及灵活的采集控制,同时让采集引擎有更强的灵活性和扩展性。
1.频道
包括“频道脚本”。
2.模板
(1)模板配置
包括“模板脚本”。
(2)链接部分
包括“链接抽取脚本”、“链接过滤脚本”。
(3)数据部分
包括“数据抽取脚本”。
(4)字段部分
包括“字段取值脚本”、“字段处理脚本”。
二.脚本与可视化配置的关系
1.各部分配置可以完全使用脚本编写,不进行可视化操作;
2.同一步骤既进行了可视化操作的配置,又编写了脚本,则由脚本接管,可视化配置失效;
3.各步骤可以一部分使用脚本编写,一部分使用可视化操作,不重复的配置都有效,重复的配置以脚本优先接管。
三.各节点脚本之间的关系
1.上一操作层级的脚本配置区域可以编写涵盖其下面所有操作层级功能的脚本;
2.如果各层级之间的脚本有重复,以其中高层级步骤的脚本优先生效;
3.可以将脚本分散于各操作层级编写,也可以直接在最高操作层级(频道脚本)编写。
四.脚本编辑区介绍
第一级:频道配置-脚本配置
在“频道配置”时,通过使用系统内置的脚本语言对频道进行配置。
①选中该频道;
②点击“脚本窗口”,使其变为“浏览器窗口”;
③点击“新建”图标,即可创建频道脚本。
【频道脚本】
第二级:模板脚本
模板脚本可以编写整个模板配置的脚本。
①选中该模板;
②点击“脚本窗口”,使其变为“浏览器窗口”;
③点击“新建”图标,即可创建模板脚本。
【模板脚本】
第三级:链接/数据抽取脚本
1.链接文本
链接脚本可以编写整个链接抽取的脚本。
①选中该链接抽取;
②点击“脚本窗口”,使其变为“浏览器窗口”;
③点击“新建”图标,即可创建链接脚本。
【链接脚本】
2.数据抽取脚本
数据抽取脚本可以编写整个数据抽取的脚本。
①选中该数据抽取;
②点击“脚本窗口”,使其变为“浏览器窗口”;
③点击“新建”图标,选择“数据抽取脚本/数据过滤脚本”按钮,即可生成相应的代码区。
【选择数据抽取脚本】
【数据抽取脚本】
第四级:链接过滤、字段取值/清洗脚本
1.链接过滤脚本
链接过滤脚本可以编写链接地址或链接标题过滤的脚本。
①选中该链接抽取;
②勾选“地址过滤/标题过滤”复选框,并选择“脚本过滤”;
③可自动生成相应的“地址过滤/标题脚本"区。
【地址过滤脚本】
【标题过滤脚本】
2.字段取值脚本
字段取值脚本可以编写该字段取值的脚本。
①选中该字段;
②在“采集内容”处,勾选“高级取值->脚本过滤”;
③可自动生成相应的字段取值脚本区。
【字段取值脚本】
3.字段处理脚本
字段处理脚本可以编写该字段数据处理的脚本。
①选中该字段;
②在“数据清洗”处,勾选“脚本处理”;
③可自动生成相应的字段处理脚本区。
【选择字段处理脚本】
【字段处理脚本】
相关推荐
Linux Shell脚本教程:30分钟玩转Shell脚本编程 _
TCL脚本实例:检查IP的脚本 TCL脚本实例:检查IP的脚本是一种使用TCL语言编写的脚本,用于检查指定的IP地址是否可以ping通。本脚本可以根据配置文件中的IP地址列表,自动执行ping操作,并输出ping结果。 知识点: ...
本Bash脚本用于自动化管理Java JAR应用的启动、停止及监控。首先检查JAR进程是否在运行,如在运行则安全终止。随后,使用预设的Java参数启动JAR文件,并将输出和错误日志重定向至日志文件。启动后,脚本持续监控JAR...
本Bash脚本用于自动化管理Java JAR应用的启动、停止及监控。首先检查JAR进程是否在运行,如在运行则安全终止。随后,使用预设的Java参数启动JAR文件,并将输出和错误日志重定向至日志文件。启动后,脚本持续监控JAR...
本Bash脚本用于自动化管理Java JAR应用的启动、停止及监控。首先检查JAR进程是否在运行,如在运行则安全终止。随后,使用预设的Java参数启动JAR文件,并将输出和错误日志重定向至日志文件。启动后,脚本持续监控JAR...
### Installshield 脚本代码:卸载时杀掉进程 在软件开发和部署过程中,安装程序(如Installshield)的脚本编写是一项重要的技能。本文将深入探讨一个具体的脚本示例,该脚本旨在在卸载软件时终止特定进程。通过...
Unity3D教程:制作简单小汽车游戏 OnGUI的视觉化编辑 unity3d角色血条 Unity3D格斗游戏运动特效 MenuItem自定义菜单项 Unity3D脚本:导弹追踪代码 Unity3D教程:UI自动适合屏幕分辨率 中慢动作与加速动作的实现 ...
### ArcGIS教程:脚本环境 #### 知识点概览 1. **脚本工具中的环境设置原理** 2. **环境值的应用机制** 3. **脚本内环境设置覆盖方法** 4. **ArcPy环境处理函数介绍** 5. **独立脚本与被调用脚本的环境设置** ####...
python项目练习python自动化脚本:12306-火车票购票python项目练习python自动化脚本:12306-火车票购票python项目练习python自动化脚本:12306-火车票购票python项目练习python自动化脚本:12306-火车票购票python...
《经典Windows脚本教程》是一份由微软官方提供的宝贵学习资源,主要涵盖了VBS(Visual Basic Script)和JS(JavaScript)在Windows环境下的脚本编程技术。这些脚本语言在系统自动化、任务调度、网页交互等多个领域都...
中文脚本教程针对的是那些希望在RouterOS环境中使用中文进行脚本编程和系统管理的用户。本教程旨在帮助这些用户理解和掌握RouterOS中的命令行接口(CLI)以及其内置的脚本语言—— RouterOS Scripting Language(RSC...
云控系统脚本源码:批量化控制与自动化脚本源码 #Autojs.pdf
在这个“Unity3D教程:如何使用脚本进行控制”中,我们将探讨如何通过编写JavaScript脚本来控制游戏对象的行为,尤其是立方体的移动和旋转。 首先,教程创建了一个立方体GameObject作为游戏对象。为了使立方体受到...
1. 文件下载(无回显)脚本: 使用VBS脚本可以实现文件下载,并且不显示下载过程。 2. 列举进程脚本: 使用VBS脚本可以列举系统中的进程。 3. 终止进程脚本: 使用VBS脚本可以终止系统中的进程。 4. 重启系统...
面向设计师的编程设计知识系统ArcGIS下的Python编程
**SCDM概述** SCDM全称为ANSYS SpaceClaim Direct Modeler,是一款基于直接建模理念的3D建模和几何处理软件。它摒弃了传统CAD系统中的历史记录建模方式,提供了一种更为直观和灵活的方法来创建和修改几何模型。SCDM...
在“Shell脚本学习教程PDF版”中,你将深入理解Shell脚本的基本概念、语法结构以及高级特性。 首先,Shell脚本的基础包括变量、条件语句、循环结构和函数。变量是存储数据的地方,可以是文本、数字或者其他类型。在...
《Windows脚本教程》是一本全面介绍Windows操作系统中脚本技术的权威指南,主要针对的是批处理脚本(Batch Scripting)和Windows PowerShell脚本。CHM格式是Microsoft的 Compiled HTML Help,通常用于电子手册或文档...
**C语言中文网shell脚本教程** 这是一份关于Shell脚本编程的离线学习资料,包含了一系列HTML文件,旨在帮助用户深入理解并掌握Linux Shell脚本编程技术。以下是其中涉及的一些关键知识点: 1. **Shell命令的本质**...