聚焦爬虫,又称主题爬虫(或专业爬虫),是“面向特定主题”的一种网络爬虫程序。它与我们通常所说的爬虫(通用爬虫)的区别之处就在于,聚焦爬虫在实施网页抓取时要进行主题筛选。它尽量保证只抓取与主题相关的网页信息。
聚焦爬虫的研究核心,集中在以下两点:
(一) 主题相关度计算:即计算当前已经抓下来的页面的主题相关程度。对主题相关度超过某一规定阈值的,即与主题相关的网页,将其保存到网页库;不相关的,则抛弃不管。
(二) 主题相关度预测:主题相关度预测是针对待抓URL的。也就是我们在分析当前已下载网页时所分离出来的哪些URLS。我们要通过计算它们的主题预测值来决定接下来是否对该URL所对应的网页进行抓取。
针对以上两个问题,研究聚焦爬虫的学者们大体提出了如下思路和方法来进行该课题的研究:
(一) 基于网络拓扑结构的研究方法:网络的拓扑结构表征了网页间的一种链接关系,而大部分互相链接的网页间还是有一定的主题关联性的。比方说,一个介绍“计算机学科知识”的网站首页上可能会出现“数据库”、“操作系统”等相关子学科的链接。这种链接本身就体现了一种主题上的关联性。再者,了解PageRank和HITS算法的朋友都知道,网页间的链接关系还能反映网页的重要程度,越是重要的网页被别的网页链接到的机会便越大。而比较重要的网页往往聚集了最上层的主题,它的主题可以反馈到它所链接的所有网页中。
(二) 基于网页内容的分析算法:基于网页内容的分析算法指的是利用网页内容(文本、数据等资源)特征进行的网页评价算法。它包括纯文本的分类与聚类算法和超文本的分类聚类算法。纯文本即网页上的文字内容,分析它的主题相关度主要从两个方面入手,一个是它主题词出现的频率(词频),再者就是主题词出现的位置,我们知道在网页标题中出现的词汇往往更能反映网页的主题信息。超文本,就是网页连接上的文字信息。它一方面可以作为当前页面主题相关度的一个判别标准,更主要的,它被用作主题预测值的计算,即判断该URL所对应的网页的主题相关性。
(三) 基于URL的分析:主要还是用于主题预测。从三个方面进行考虑:
1 URL串自身所携带的信息。对于以下两个链接的分析:
URL1:http://beijing.koubei.com/fang
URL2:http://beijing.koubei.com/lvyoupiaowu/lvyou
我们很容易知道URL1是有关北京(beijing)的与“房(fang)”的话题,而URL2则是有关北京(beijing)方面与旅游(lvyou)有关,并且会涉及到旅游票务(lvyoupiaowu)的网页。
2 URL可分为三个部分 前面部分的主题信息可以反馈到后面的子目录中;
一个URL分成三个部分(去掉http协议部分):host,path,query。其中,path由一系列directory组成,query由一系列键值对组成。比如http://www.sdust.edu.cn/news_show.php?id=15 ,其host为www.sdust.edu.cn;path为/news_show.php;query为id=15,组成该query的键值对为(id,15)。URL的host往往说明的一个大的主题,如www.sdust.edu.cn所对应的是“山东科技大学”的网站,他的大主题就是“山东科技大学”;而其后的path则表征了有关与“山东科技大学”有关的子类主题信息,比如时事新闻、科研建设、校园活动等等;query项所对应的是最为具体的信息,该实例中id=15对应的就是“山东科技大学 — 信息中心 -- 科学研究”目录下的“科研概况”信息。
3 URL锚文本所体现的信息。
锚文本也叫链接文本,指超链接的文本内容,一般认为,锚文本代表了网页作者对超链接所指向网页的评价和描述。因此,锚文本可能不会为网页自身的主题预测提供有用的信息,但是它极有可能为它的目标网页的主题预测提供非常重要的信息。比如对于<a href=”hyperlink”>聚焦爬虫</a>,所代表的网页主题很可能是聚焦爬虫方面的。
扩展锚文本指锚文本和锚文本附近文本的组合。引入扩展锚文本的概念是为了更准确地预测目标网页的主题相关度。在有些情况锚下,文本仅仅是“点击这里”、“详细信息”等较抽象的描述,这个时候扩展锚文本比锚文本身更具有描述能力。
说了一大堆关于主题爬虫研究方面的东西,不知道有没有说清楚。希望感兴趣的朋友能对聚焦爬虫的研究发表自己的看法,提出一些计算主题相关度和进行页面主题相关性预测的办法。以对我有所启发,万分感谢!
相关推荐
本项目是一个基于Java的网页爬虫1.5版本,主要关注聚焦爬虫的设计和实现,旨在高效地抽取特定主题的网页内容。 聚焦爬虫与通用爬虫不同,它的目标不是无差别地抓取整个互联网,而是针对某一特定领域或主题,如科技...
JavaSpider 1.6是一款基于Java实现的网页爬虫软件,专为聚焦爬虫设计,旨在从互联网上抓取特定网站的源代码内容并进行存储。这个1.6版本是多个版本的集合,包含了从1.1到1.6的所有更新和改进,使得爬虫功能更加完善...
聚焦爬虫则是更为特定的一种爬虫,它不是无目的地爬取整个互联网,而是根据预设的规则或策略,有针对性地抓取与特定主题相关的信息。JavaSpider 1.4版本是一款基于Java开发的聚焦爬虫工具,专门设计用于高效、定向地...
### Focused Crawler (聚焦爬虫):一种基于本体的聚焦爬虫方法 #### 摘要 本文介绍了一种新型的聚焦爬虫构建方法。聚焦爬虫的主要目标是有效地识别与预定义主题相关的网页,并下载这些页面,而不考虑它们在网络中...
针对单一价值评价的聚焦爬虫搜索策略存在主题漂移等问题进行了研究, 充分利用量子进化算法所具有的智能性, 提出一种新的聚焦爬虫爬行算法。该算法充分结合网页在互联网上的分布特点, 利用立即价值和未来价值两类评价...
介绍了一种垂直搜索引擎的爬虫设计方案,这是主题搜索引擎的核心部分。
### 聚焦爬虫概论 随着互联网的迅速发展,海量的信息被不断地创造与更新,如何有效地组织、检索这些信息成为了重要的课题。在这样的背景下,聚焦爬虫作为一种高效的网络信息采集工具,得到了广泛的关注与应用。本文...
本案例分享将带你深入理解Python爬虫的基本原理,并通过实践操作,掌握如何利用requests模块抓取网页内容,同时探讨聚焦爬虫和反扒技术,如UA伪装的应用。 首先,Python中的requests模块是进行HTTP请求的常用工具,...
聚焦爬虫不同于通用爬虫,它不遍历整个互联网,而是专注于某一特定主题或领域。在这个1.5版本的爬虫中,它的目标是根据预定义的规则或策略,对特定网页进行数据抽取。这通常涉及到对网页内容的深入分析,识别与主题...
【标题】:“基于虚拟化技术优化深层网络聚焦爬虫数据源发现的方法” 【摘要】:本文针对深层网络(Deep Web)数据源发现的挑战,提出了一种利用虚拟化技术改进Deep Web聚焦爬虫框架结构的方法。通过服务器虚拟化,...
基于聚焦爬虫的web信息采集技术研究 门户网站的建设中,自动的信息采集可以极大的提高效率,还可以用于个性化信息获取、链接分析和辅助决策等,基于聚焦爬虫的主题信息采集研究具有广泛的现实意义和实用价值。
基于链接结构和内容相似度的聚焦爬虫系统.pdf
聚焦爬虫通用框架 ###项目描述: 本项目旨在通过使用JAVA语言实现一个基于目标网页特征(网页内容特征和URL正则特征)和广度优先搜索策略的多线程聚焦爬虫程序框架。通过使用此框架可以简单、高效地完成具备个性化...
从商品评论抽取算法出发,使用开放应用编程接口调用和链接跟踪的方法,分别设计了基于通用爬虫原理和开放应用编程接口(OpenAPI)的商品评论聚焦爬虫算法。在此基础上实现了淘宝网和京东网商品评论收集程序。最后将两者...
基于语义相似度向量空间模型的改进型聚焦爬虫是针对特定主题的网络爬虫,它能够从互联网上选择性地收集与给定主题相关的网页。在传统的方法中,向量空间模型(Vector Space Model, VSM)和语义相似度检索模型...
ACHE 聚焦爬虫 介绍 ACHE 是一种聚焦爬虫的实现。 聚焦爬虫是一种网络爬虫,它通过仔细确定爬行边界的优先级并管理超链接探索过程来收集满足某些特定属性的网页。 安装 使用 Conda 下载 您可以通过运行以下命令从 ...
论文《可定制的聚焦网络爬虫》,和大家分享~