`
jimmee
  • 浏览: 538706 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

垂直搜索-爬虫部分

阅读更多

垂直搜索与通用搜索不同之处在于,通用搜索不需要理会网站哪些资源是需要的,哪些是不需要的,一并抓取并将其文本部分做索引。而垂直搜索里,我们的目标网站往往在某一领域具有其专业性,其整体网站的结构相当规范,并且垂直搜索往往只需要其中一部分具有垂直性的资源,所以垂直爬虫相比通用爬虫更加精确。

垂直爬虫抓取数据分成三个步骤:list-crawling(列表url抓取)detail-crawling(详情url抓取)data-extract and store (数据抽取和存储),其实原理上并不复杂,以下是整体垂直搜索的架构及流程图:



 

1.  首先运营人员会选定需要抓取的目标网站,录入数据库的站源表sitelist,即这些url作为爬虫的seed。同时,开发人员会在爬虫规则库中增加相应网站的规则解析。

2crawler读取种子url,根据事先制定的规则(一般是正则表达式规则),从种子url中进行列表页url的抽取,并提取出来保存到数据库中(实际工作中,直接抽取出来放到调度队列中,继续抓取)。需要注意的是,很多网站的列表页的url都是通过js的方式处理的,因此制定规则时,需要懂得js分析。

3.  进行列表页url的请求,之后抽取出详情页的url列表

       4.  进行详情页url的请求,之后抽取出具体的数据。

 

       其他一些点补充:

       1. url会做去重处理,不会重复调度同样的url

 

       2. 抽取数据的过程中,一般都是使用xpath处理。

  • 大小: 19.3 KB
分享到:
评论

相关推荐

    垂直搜索引擎聚焦爬虫技术研究

    介绍了一种垂直搜索引擎的爬虫设计方案,这是主题搜索引擎的核心部分。

    垂直搜索引擎爬虫系统的研究与实现

    爬虫系统是垂直搜索引擎的重要组成部分,主要用于自动地抓取和收集网络上的信息。核心技术包括: - **链接追踪**:通过网页的链接地址寻找并读取新的网页,这一过程可以递归进行,直至抓取完所有相关网页。 - **...

    垂直搜索引擎网络爬虫的研究与实现.pdf

    网络爬虫技术是垂直搜索引擎的核心组成部分,负责从互联网上自动搜集数据,并对其进行处理和存储。一个典型的网络爬虫系统通常包括以下几个部分: 1. **URL管理器**:用于管理和维护待抓取的URL列表。 2. **下载器*...

    三种垂直搜索爬虫的比较

    ### 三种垂直搜索爬虫的比较 随着互联网的迅速发展,网络上充斥着大量有用的信息资源,但由于其动态且无结构化的特性,使得这些资源难以被有效地定位与利用。传统意义上的搜索引擎虽然能在一定程度上帮助用户查找...

    基于强化学习的垂直搜索引擎网络爬虫的研究与实现

    网络爬虫是垂直搜索引擎的关键组成部分之一,其性能直接影响到搜索结果的质量。 #### 强化学习在垂直搜索引擎中的应用 强化学习(Reinforcement Learning, RL)是一种机器学习的方法,它的目标是让智能体(Agent)...

    lucene-网络爬虫

    垂直搜索引擎是相对于通用搜索引擎的一种搜索服务模式,它针对特定领域、特定人群或特定需求,提供更加专注、具体和深入的信息检索服务。垂直搜索引擎的特点是“专、精、深”,与通用搜索引擎相比,它更能满足用户...

    新闻垂直搜索引擎_Part1爬虫及分类

    综上所述,新闻垂直搜索引擎的爬虫部分通过Webmagic框架高效抓取新闻网站数据,而分类部分则利用Classifier4j进行文本分类,确保新闻内容能准确地按类别组织,提升用户体验。这两个环节的协同工作,使得搜索引擎能够...

    垂直搜索引擎中分布式网络爬虫.rar

    在这个名为“垂直搜索引擎中分布式网络爬虫.rar”的压缩包文件中,我们很可能会找到关于这两部分的源码和实现细节。 首先,让我们深入理解垂直搜索引擎。传统的搜索引擎如Google或Bing旨在为用户提供广泛的信息,...

    人工智能-项目实践-搜索引擎-基本的垂直搜索引擎,实现了基本的网络爬虫功能以及用Luence实现检索

    《构建垂直搜索引擎:从爬虫到Lucene检索》 在当今信息爆炸的时代,搜索引擎成为了我们获取知识、解决问题的重要工具。本项目实践旨在介绍如何构建一个基础的垂直搜索引擎,该搜索引擎专注于某一特定领域的信息检索...

    电子书垂直搜索引擎-web

    总的来说,电子书垂直搜索引擎是一个综合运用了网络爬虫、文本处理、信息检索和人工智能技术的复杂系统。在Python的支持下,我们可以构建出高效、智能的电子书搜索平台,满足用户对海量电子书资源的高效查找需求。

    网络爬虫-Python数据分析

    网络爬虫的用途非常广泛,既可以作为通用搜索引擎的网页收集器,也可以作为专门的垂直搜索引擎,例如,针对特定领域的招聘信息搜索引擎。科学研究领域中,网络爬虫可以收集必要的数据以进行在线人类行为、在线社群...

    论文研究-基于图书搜索引擎爬虫系统的关键技术研究和实现 .pdf

    本文的研究重点是基于图书领域的垂直搜索引擎爬虫系统,整合了学校图书馆的图书搜索服务,提出了一个集中的图书搜索入口。网络爬虫作为搜索引擎的基础,对于搜集互联网上的图书信息至关重要。本文深入探讨了设计和...

    网络爬虫-Python和数据分析

    网络爬虫的主要用途包括作为通用搜索引擎的数据收集工具,构建垂直搜索引擎,辅助科学研究,以及一些不当行为如窃取隐私和发送垃圾邮件等。网络爬虫通常分为通用爬虫和聚焦爬虫。通用爬虫用于遍历整个互联网,而聚焦...

    基于网络爬虫的垂直搜索引擎设计与实现.pdf

    总结来说,这个基于网络爬虫的垂直搜索引擎设计与实现项目,通过创新的算法和定制化的爬虫技术,实现了对人工智能领域信息的精准采集和处理,建立高效索引,提供了专业化的搜索服务。同时,系统的用户管理和后台管理...

    网络爬虫搜索系统.net(带蜘蛛)

    网络爬虫搜索是一款基于 Microsoft .NET 2.0 开发的垂直搜索引擎。系统有着强大的文件和数据库引索能力,支持中英文分词,文件相似度分析排序,文件数据时实监控与更新,恐龙级的引索速度和毫秒级的搜索速度,搜索...

    基于Java的垂直搜索引擎的设计与实现.pdf

    Lucene提供了丰富的API接口,允许开发者根据具体需求定制索引和搜索逻辑,是构建垂直搜索引擎的重要组成部分。 - **Heritrix与Lucene的结合**:Heritrix可以用来抓取特定领域内的网页,而Lucene则负责对抓取回来的...

    人工智能-项目实践-搜索引擎-基于react和django的面向电子书籍的垂直搜索引擎

    在本项目实践中,我们探索了如何构建一个基于人工智能技术的垂直搜索引擎,专注于处理电子书籍的检索。这个项目采用现代Web开发框架React和Django来实现,利用JavaScript进行前端交互,结合了人工智能的智能搜索功能...

Global site tag (gtag.js) - Google Analytics