链接脚本是链接抽取中的脚本。配置了链接脚本,链接的抽取流程将被改变:
1.如果脚本未正确返回dom区域节点,则该链接抽取的规则将完全由该脚本控制。
2.如果脚本返回了一个正确的dom区域节点,则此链接抽取以返回的区域节点为基准,区域外的链接将被过滤掉。
一.可用全局对象(只读)
EXTRACT: 当前采集引擎[ 对象类型: extractor ]
DATADB: 当前连接的数据库[ 对象类型: dataBase ]
RESULT: 当前结果集对象[ 对象类型: result ]
URL: 当前采集的链接对象[ 对象类型: url ]
URLTEXT : 描述当前链接采集的所有状态及属性的对象[ 对象类型: urltext ]
DOC: 当前采集的文档对象[ 对象类型: grabDoc ]
DOM: 当前采集文档的dom对象[ 对象类型: dom ]
ITEM: 模板区域的dom树节点(如果模板未选择区域则为dom树的根节点)[ 对象类型: domItem ]
TMPL: 当前文档模板对象[ 对象类型: tmplTmpl ]
二.this对象
当前链接抽取[tmplLink]对象。
三.脚本返回值
如果要采集某个特征区域内的链接,则必须返回该区域的dom节点( domItem对象)。 否则该链接抽取则完全由脚本控制。
示例
示例:采集第一个Form表单中的链接。
在链接模板需要的链接无法用爬虫过滤得到,就要写链接脚本。
下面是每个链接脚本必有的
相关推荐
Linux Shell脚本教程:30分钟玩转Shell脚本编程 _
TCL脚本实例:检查IP的脚本 TCL脚本实例:检查IP的脚本是一种使用TCL语言编写的脚本,用于检查指定的IP地址是否可以ping通。本脚本可以根据配置文件中的IP地址列表,自动执行ping操作,并输出ping结果。 知识点: ...
本Bash脚本用于自动化管理Java JAR应用的启动、停止及监控。首先检查JAR进程是否在运行,如在运行则安全终止。随后,使用预设的Java参数启动JAR文件,并将输出和错误日志重定向至日志文件。启动后,脚本持续监控JAR...
本Bash脚本用于自动化管理Java JAR应用的启动、停止及监控。首先检查JAR进程是否在运行,如在运行则安全终止。随后,使用预设的Java参数启动JAR文件,并将输出和错误日志重定向至日志文件。启动后,脚本持续监控JAR...
本Bash脚本用于自动化管理Java JAR应用的启动、停止及监控。首先检查JAR进程是否在运行,如在运行则安全终止。随后,使用预设的Java参数启动JAR文件,并将输出和错误日志重定向至日志文件。启动后,脚本持续监控JAR...
### Installshield 脚本代码:卸载时杀掉进程 在软件开发和部署过程中,安装程序(如Installshield)的脚本编写是一项重要的技能。本文将深入探讨一个具体的脚本示例,该脚本旨在在卸载软件时终止特定进程。通过...
11. 暗含的连接脚本:链接器有默认的内置链接脚本,但也可以通过-T选项指定自己的链接脚本文件,或者使用隐含的连接脚本来增加自定义的链接命令。 了解链接脚本的基本概念和格式是进行嵌入式Linux系统开发的基础。...
Unity3D教程:制作简单小汽车游戏 OnGUI的视觉化编辑 unity3d角色血条 Unity3D格斗游戏运动特效 MenuItem自定义菜单项 Unity3D脚本:导弹追踪代码 Unity3D教程:UI自动适合屏幕分辨率 中慢动作与加速动作的实现 ...
### ArcGIS教程:脚本环境 #### 知识点概览 1. **脚本工具中的环境设置原理** 2. **环境值的应用机制** 3. **脚本内环境设置覆盖方法** 4. **ArcPy环境处理函数介绍** 5. **独立脚本与被调用脚本的环境设置** ####...
python项目练习python自动化脚本:12306-火车票购票python项目练习python自动化脚本:12306-火车票购票python项目练习python自动化脚本:12306-火车票购票python项目练习python自动化脚本:12306-火车票购票python...
《经典Windows脚本教程》是一份由微软官方提供的宝贵学习资源,主要涵盖了VBS(Visual Basic Script)和JS(JavaScript)在Windows环境下的脚本编程技术。这些脚本语言在系统自动化、任务调度、网页交互等多个领域都...
中文脚本教程针对的是那些希望在RouterOS环境中使用中文进行脚本编程和系统管理的用户。本教程旨在帮助这些用户理解和掌握RouterOS中的命令行接口(CLI)以及其内置的脚本语言—— RouterOS Scripting Language(RSC...
GCC链接脚本是控制GCC连接器(ld)如何组织输入文件中的section并形成输出文件(通常是目标文件或可执行文件)的重要工具。本文档详细介绍了链接脚本的基本编写规则,并通过实例帮助读者深入理解其工作原理。 链接...
在这个“Unity3D教程:如何使用脚本进行控制”中,我们将探讨如何通过编写JavaScript脚本来控制游戏对象的行为,尤其是立方体的移动和旋转。 首先,教程创建了一个立方体GameObject作为游戏对象。为了使立方体受到...
云控系统脚本源码:批量化控制与自动化脚本源码 #Autojs
《Windows脚本教程》是一本全面介绍Windows操作系统中脚本技术的权威指南,主要针对的是批处理脚本(Batch Scripting)和Windows PowerShell脚本。CHM格式是Microsoft的 Compiled HTML Help,通常用于电子手册或文档...
Linux下的链接脚本(Linker Script,简称lds)是一种控制链接器行为的脚本语言,用于指定程序各段(sections)在最终生成的可执行文件中的布局。了解lds链接脚本对于定制可执行文件的结构和优化程序内存使用至关重要...
面向设计师的编程设计知识系统ArcGIS下的Python编程