今天,小编为大家带来的是:在前嗅ForeSpider采集过程中,链接抽取操作中的一系列知识点,主要内容有:如何关联模板,如何判断模板关联是否正确,选择链接类型以及过滤的三种方式。具体内容如下:
一,如何关联模板
“链接抽取”抽出链接后,需要采集这些链接所在的页面。我们从这些链接中,选择其中一个作为下一层模板的示例地址,通过关联模板,可以将两个模板连接起来,实现页面的跳转。
在软件中模板的关联关系,与网页中链接跳转的关系相同,因此可以完整的采集数据。
关联方式如下:
①自动关联:软件会根据用户创建模板的情况,帮助用户自动关联。
②手动关联:用户可在链接抽取节点进行手动关联。
【关联模板】
二,如何判断模板关联是否正确
①在软件中模板的关联关系,与网页中链接跳转的关系相同。如模板一的示例地址为:http://news.ifeng.com/o/dynpage/64-/1/plist.shtml
【关联模板】
②通过模板一示例地址,点击模板一中任意一条链接,进入需要采集数据的页面,该页面链接即为模板二的示例地址。
【模板一地址】
③所以此时模板一中的链接抽取,需要关联模板二。
【模板二地址】
三,如何选择链接类型
链接类型可分为href和src两种。
1. href
默认选项。适用于超链接、按钮、CSS文件。
2. src
适用于图片/视频/音频/资源文件/JS文件等。
四,过滤方法
过滤方式一:智能过滤
智能过滤可以一键过滤出,链接地址规律相同的链接。适用于大多数情况,如过滤的不正确,可以使用方式三:地址/标题过滤。
操作方法如下:
①在链接抽取节点,按Ctrl+鼠标左键,在内置浏览器上点击所需获取的链接,点击“智能过滤”按钮。
②点击软件右上角“采集预览”按钮,查看是否过滤完全。
过滤方式二:定位过滤
定位过滤是通过内置浏览器定位,适用于所需链接都集中在一小片区域的情况。
操作方法如下:
①在链接抽取节点,按Ctrl在内置浏览器上点击(扩大选区按Shift),选中所需链接的区域,点击“确认选区”按钮。
②点击软件右上角“采集预览”按钮,查看是否过滤完全。
过滤方式三:地址/标题过滤
为了在抽取的链接中去除无关链接,有两种过滤方式,配置方式相同。
(1)地址过滤:通过url地址的规律,过滤无关链接。
(2)标题过滤:通过链接标题的规律,过滤无关链接。
① 地址(标题)过滤节点的配置内容
② 过滤串规则说明
相关推荐
2020语言与智能技术竞赛:事件抽取任务2020语言与智能技术竞赛:事件抽取任务2020语言与智能技术竞赛:事件抽取任务2020语言与智能技术竞赛:事件抽取任务2020语言与智能技术竞赛:事件抽取任务2020语言与智能技术...
这篇博文链接(https://xuan0506.iteye.com/blog/1040352)虽然无法在当前环境中直接访问,但我们可以根据通常的数据抽取实践来深入讨论这个主题。 1. 数据获取(Extract):这是数据抽取的第一步,涉及到识别数据...
"Fluent轴流风机数值模拟详解:从流道抽取到后处理全流程(共9节视频教程)","深入解析fluent轴流风机数值模拟:从流道抽取到后处理全流程详解(共9节视频教程)",fluent轴流风机数值模拟---自己录制(9节视频) ...
2020语言与智能技术竞赛:事件抽取任务.zip
读书笔记:数据抽取组件用来从HTML、JSON、XML等原始数据中按照自定义的规则抽取想要的数据
【标题】中的“百度2020语言与智能技术竞赛:事件抽取赛道方案代码”表明这是一个关于自然语言处理(NLP)领域的比赛,具体聚焦在事件抽取任务上。事件抽取是NLP的一个重要子领域,它涉及到从文本中识别和提取出事件...
在写入数据到Hive表中时,我们使用了create table语句来创建一个静态分区的表,分区字段为etl_date,类型为String,且值为当前日期的前一天日期(格式为yyyyMMdd)。然后,我们使用insert into语句将数据写入到Hive...
【Java源码:网页抽取工具Krabber】 在IT领域,网页抽取,也称为网络爬虫或网页抓取,是一项重要的技术,用于自动化地从互联网上获取大量信息。Krabber是一个基于Java编写的网页抽取工具,它允许开发者有效地提取和...
3. **资格审查**:在抽取专家前,系统会自动进行资格审查,检查专家是否符合招标项目的专业要求、是否有利益冲突等。这一步骤旨在确保被选中的专家能够胜任评标工作。 4. **抽取记录与审计**:每次抽取操作都会被...
2. 社交媒体事件抽取:事件抽取系统可以用于自动抽取社交媒体事件信息,供市场营销和公关人员使用。 3. 客户反馈事件抽取:事件抽取系统可以用于自动抽取客户反馈事件信息,供客服和市场营销人员使用。 4. 智能...
知识图谱的概念与技术在构建智能系统和大数据分析中扮演着关键角色,而关系抽取作为其核心组成部分,旨在从非结构化的文本中提取出实体之间的语义关系。本章主要探讨了关系抽取的不同方法和面临的挑战,以及常用的...
清华大学刘知远老师和学生韩旭、高天宇所写的关于知识图谱相关的介绍。 机器之心获授权转载,此文为.md笔记...沿着实体关系抽取需要进一步探索的四个主要方向,介绍这四个方面的发展现状和挑战,以及 一些思考和努力。
计算机类竞赛源码
### 抽取与内插:多速率系统的理解与应用 #### 多速率系统概览 在数字信号处理(DSP)领域中,多速率系统是指包含了多个不同采样率的信号处理系统。这些系统的设计和应用涉及到一系列关键的概念和技术,如抽取、内...
### ETL数据抽取方案知识点详解 #### 一、ETL体系结构概述 ETL(Extract, Transform, Load)是一种常用的数据处理流程,主要用于从不同来源提取数据,转换为统一格式,然后加载到目的地数据源中。典型的ETL体系结构...
在互联网飞速发展的当下,Web链接抽取技术正逐渐成为一项至关重要的信息处理技术,尤其在海量网页内容的管理和信息检索领域扮演着举足轻重的角色。本文将探讨基于机器学习的Web链接抽取技术,分析其应用背景、核心...
可随机抽取题目的不重复PPT课件.pptx 这是一份PPT课件,主要用于随机抽取题目的教学活动。通过这份课件,教师可以快速生成随机题目,从而提高教学效率和互动性。 知识点1:PPT课件的应用 PPT课件是当前最流行的...
基于Python的中文信息实体抽取、关系抽取、事件抽取源码+数据集+训练好的模型+项目说明.zip 数据、预训练模型、训练好的模型下载地址: 链接:https://pan.baidu.com/s/1TdJOF7vjLw4caE1SkZEZGA?pwd=gdpq 提取码...