`

前嗅ForeSpider脚本教程-链接抽取:应用场景及链接在源码的html标签里写脚本

阅读更多

今天,小编给大家带来的教程为:前嗅ForeSpider脚本教程中,链接抽取的应用场景,以及链接在源码的html标签里写脚本的实战教程。具体内容如下:

一.应用场景

当需要手动添加链接时,可添加链接脚本。

在“链接脚本处”,可能用到的类为extractor 、result、url、grabDoc、dom。

二.链接在源码的html标签里

链接地址可在源码中查找到。在目标网页右键,选择“查看源代码”,键盘点击“ctrl+F”,查找目标链接所在位置。目标链接存在于标签中。

1.链接需要循环

场景:比如翻页等规律相同的一系列目标链接,存在于一个大的ul标签或者div标签里。

示例:获取CSDN首页文章列表链接。

 

在该网页右键选择“查看源文件”,查找第一条链接的链接地址,定位目标数据位置。

 

将该源码粘贴到notepad++中,选择语言为html,搜索目标数据的所在位置“ul”标签的id值。

由图可知,列表页文章链接位于每个li中的a标签的href中。

脚本实例:暂无。

2.链接不循环

场景:获取更多链接,链接不像翻页那页具有自增性的规律。

示例:获取该网站更多的招标公告信息。

 

 

获取更多的招标公告信息,需要点击“更多”按钮。在该网页右键选择“查看源文件”,定位链接所在位置。

因<a>标签名,和父级<div>的class属性都在多处存在,因此需要再向上查找节点,直到id为tab2-list的<div>。

脚本实例:

 

​​​​​​​var div = DOM.FindId("tab2-list");//先查找div

var a = DOM.FindClass("more","a",div );//从上一行找到的div开始查找,class属性为more的a标签。

url u;

u.urlname = "http://www.bgpc.gov.cn"+a.href;//拼接完整的链接地址

u.title = "更多";//填写title

u.entryId = CHANN.id;

u.tmplId = 2;

RESULT.AddLink(u);

 

分享到:
评论

相关推荐

    Java项目实战-基于网络爬虫技术的网络新闻分析(附源码,部署说明).zip

    - 数据模型:新闻实体可能包括标题、内容、链接、发布日期、来源网站等字段,这些字段在数据库中会被合理地组织和存储。 3. **数据处理与分析** - 文本清洗:去除HTML标签、标点符号、停用词等,使文本更适合...

    asp在线考试系统源码

    【ASP在线考试系统源码详解】 ASP(Active Server Pages)是一种经典的服务器端脚本语言,由微软开发,常用于构建动态网页应用。本系统利用ASP技术实现了一个在线考试平台,旨在提供一个便捷、高效的测试环境,使...

    JSP源码JSP考试管理系统(源代码+论文)

    ### JSP源码JSP考试管理系统(源代码+论文) #### 概述 JSP(Java Server Pages)是一种基于Java的服务器端脚本技术,它主要用于动态网页开发。本资源提供了一个完整的JSP考试管理系统项目,包括源代码及相关的论文...

    GNU Coreutils Cheat Sheet (v1.00)

    - chcon:改变文件的安全上下文,这在SELinux环境下特别有用,用于设置文件的安全标签。 - chgrp:更改文件的组所有权,使得文件可以被一组特定的用户访问。 - chmod:更改文件或目录的访问权限。权限设置可以控制谁...

    API.md

    - **-uniapp**:表示这是一个面向小程序及应用的前端工程,可能同时支持小程序和原生应用。 - **-backend**:表示这是一个后端工程,通常不直接面向用户界面。 - **-cloud**:表示该工程适用于微服务、分布式架构、...

    web-scraper::spider_web:网络刮板

    在现代互联网时代,数据无处不在,而如何高效地从海量网页中提取所需信息成为了一项重要的技能。这就是网络刮板(Web Scraper)的作用,它能自动化地从网页中抽取结构化数据。"web-scraper::spider_web" 是一个专门...

    算法源码-分类与判别:随机森林应用于分类问题代码.rar

    这里我们将深入探讨随机森林算法在分类问题中的应用及其源码实现。 1. **随机森林的基本概念** - **决策树**:随机森林的基础单元,通过一系列特征测试对数据进行分类。 - **随机性**:随机森林在构建过程中引入...

    Spring Boot整合ElasticSearch和Mysql 附案例源码.docx

    在现代软件开发中,特别是Web应用领域,高效的数据检索变得越来越重要。ElasticSearch作为一种高性能的搜索和分析引擎,常被用于实现复杂且高效的全文检索功能。本项目旨在通过Spring Boot框架整合ElasticSearch与...

    基于springboot的疫情打卡健康评测系统源码数据库.doc

    ### 基于SpringBoot的疫情打卡健康评测系统知识点解析 #### 一、项目背景及意义 当前,全球范围内新冠疫情的防控工作仍然是一项长期...未来随着技术的进步,该系统还可以不断迭代升级,满足更多样化的应用场景需求。

    随机不重复抽签源码下载

    本资源提供了一个"随机不重复抽签"的源码下载,主要涉及的是JavaScript编程语言,这也是互联网应用中广泛使用的脚本语言。下面我们将详细探讨这个主题及其相关知识点。 首先,我们要理解“随机不重复抽签”的概念。...

    HTMLparser

    例如,你可以使用HTMLparser来获取网页上的所有链接、图片、表格数据,甚至是嵌入的脚本和样式。 HTMLparser的工作原理通常包括以下步骤: 1. 解析HTML文档:HTMLparser首先读取HTML源代码,并按照HTML的语法规则...

    2012-11月最新ffmpeg源码抽取h264解码器

    在本文中,我们将深入探讨如何从FFmpeg源码中抽取H264解码器,并在Visual Studio 2008环境下进行编译。 首先,H264是一种高效能的视频编码标准,广泛应用于高清视频、网络流媒体和蓝光光盘等场景。FFmpeg中的H264...

    java 在线考试系统源码(含数据库脚本).rar

    前言:我们在学习了Java各种基础知识之后,最需要做的就是学会应用,开发一些项目把所学的知识应用起来,下面的这个《校园在线考试系统》实战项目就是比较好的练手教程。 业务描述:根据前面所做的需求分析及用户的...

    Kettle体系结构与源码分析

    ### Kettle体系结构与源码分析 #### 一、Kettle概述 Kettle是一款非常流行的开源ETL(数据抽取、转换、装载)工具,广泛应用于数据仓库构建与维护过程中。Kettle支持两种主要类型的脚本文件:**Transformation** ...

    2010最新解析html开源项目jsoup源码及api下载及jsoup.jar

    **应用场景** jsoup适用于多种场景,如: 1. **数据抓取**:从网页中抽取特定信息,如新闻标题、评论、价格等。 2. **网站自动化**:自动填写表单、点击按钮,实现自动化测试或爬虫。 3. **内容过滤**:清除HTML中...

    asp职称考试模拟系统的设计与实现(源代码+论文).rar

    在本项目"asp职称考试模拟系统的设计与实现(源代码+论文)"中,我们可以深入学习和理解ASP技术在实际应用中的运用,以及如何构建一个功能完备的在线考试模拟系统。 1. ASP基础: ASP是基于HTTP协议的服务器端脚本...

    jsoup-1.8.1.jar

    【jsoup-1.8.1.jar】是一个Java库,主要设计用于处理HTML文档,它在Web抓取和网页解析领域具有广泛的应用。这个库的名字"jsoup"来源于JavaScript和soup的结合,寓意其功能是将HTML代码如同煮汤一样“煮”成易于理解...

    NLP实验python源码_实现命名实体识别+关系抽取+事件抽取+语义匹配.zip

    NLP实验python源码_实现命名实体识别+关系抽取+事件抽取+语义匹配.zip 【资源说明】 该项目是个人毕设项目源码,评审分达到95分,都经过严格调试,确保可以运行!放心下载使用。 该项目资源主要针对计算机、自动化等...

    大数据开发&Java开发工程师简历.doc

    简历中的工程师具有丰富的经验和广泛的技术栈,特别是在大数据处理、分析和系统开发方面。 1. **大数据Spark研发工程师**: - 工作职责:在图吧导航担任数据分析研发工程师期间,负责需求调研、分析、功能模块设计...

    genesis2000脚本编写4 Genesis内部变量

    Genesis2000是一款广泛应用于电子制造行业的PCB设计软件,提供了强大的脚本编写能力,以实现自动化处理任务。本文将详细讨论在Genesis2000脚本编程中,如何利用软件内部已经定义好的变量,以及这些变量如何配合不同...

Global site tag (gtag.js) - Google Analytics