`
tjc
  • 浏览: 67424 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

垂直搜索引擎行业应用技术探讨

阅读更多

 

在简单过滤之后,选择研究apache nutch来进行数据爬取。

在深入了解和学习之后,发现
Nutch 实现网页爬取,通过plugin机制可以自定义相应的规则和数据处理逻辑,结合hadoop实现数据的分布式存储。

nutch可以定制,针对不同的数据源实现特定的爬取和数据分析规则。但如何实现nutch的分布式,比如多机部署?还是单机?如何提高nutch的爬取速度?

nutch爬取下来的数据可以存放在hadoop里,通过建立索引命令可以让solr来为数据进行索引。但是存在一个问题,solr建立的索引是存放在solr配置的目录里的,可是这样不就存在数据冗余存放的问题吗?这里有一篇文章  solr是如何存储索引的  http://p-x1984.iteye.com/blog/1149980 

通过solr搜索后如何建立搜索结果数据和nutch爬取后存放在hadoop中的数据的关联?比如通过nutch爬取网页信息后,可以通过设置solr中schema.xml 来对content字段进行存储和索引,content存放的是网页爬取下来的内容信息。如果通过设置,将scheme中定义的所有字段都进行存储和索引,那么nutch存储的数据是不是就没有用处可以删除了呢? 


对于获取到的数据,除了提供查询搜索功能外,还有很多值得挖掘的信息,那如何有效的对数据进行挖掘? mahout ?

大家对Nutch+hadoop+solr的行业应用前景如何看?







分享到:
评论

相关推荐

    垂直搜索引擎与旅游行业探讨借鉴.pdf

    本文主要探讨了垂直搜索引擎在旅游行业的应用现状、存在的问题以及未来的发展策略。 首先,垂直搜索引擎是针对特定领域的专业化搜索工具,如旅游垂直搜索专门服务于旅游者,提供精准的旅游信息和产品对比。这类搜索...

    垂直搜索引擎网络爬虫的研究与实现.pdf

    《垂直搜索引擎网络爬虫的研究与实现》是一篇由苏州大学计算机应用技术专业的硕士研究生刘忠撰写的硕士学位论文,指导教师为刘全教授。该论文主要研究了基于强化学习的垂直搜索引擎网络爬虫的设计与实现方法。 ####...

    垂直搜索引擎的研究与设计

    本文将重点探讨垂直搜索引擎中的关键技术,并介绍一个具体的垂直搜索引擎设计案例。 #### 二、垂直搜索引擎的关键技术 ##### 2.1 网络爬虫 网络爬虫(Web Spider)是垂直搜索引擎的核心组件之一,其主要功能是从...

    前程无忧垂直搜索引擎项目实战

    《前程无忧垂直搜索引擎项目实战》是一门深度探讨如何构建高效、针对性强的搜索引擎的实践课程。本项目主要聚焦在Java技术栈上,利用DWR(Direct Web Remoting)进行前后端交互,同时结合了Lucene和Heritrix这两款...

    基于Lucene和Heritrix的职位垂直搜索引擎的设计与实现

    《基于Lucene和Heritrix的职位垂直搜索引擎的设计与实现》是一篇深入探讨搜索引擎技术在特定领域的应用的优秀研究生毕业论文。这篇论文的核心是利用开源工具Lucene和Heritrix来构建一个针对职位信息的垂直搜索引擎,...

    人工智能-搜索引擎-面向时间敏感对象的垂直搜索引擎关键技术研究吴羽.pdf

    在当前的信息时代,搜索引擎已经成为获取信息的关键工具。随着人工智能的发展,搜索引擎正...这些技术的应用有助于构建更高效、更及时、更个性化的垂直搜索引擎,对于推动人工智能在搜索引擎领域的应用具有重要意义。

    基于Lucene与Heritrix的图书垂直搜索引擎的研究与实现.pdf

    根据给定文件的标题、描述、标签以及部分内容,本文旨在探讨如何通过结合Lucene与Heritrix技术构建一个专门针对图书信息的垂直搜索引擎系统。以下是对该知识点的详细阐述: ### 1. 垂直搜索引擎简介 垂直搜索引擎...

    人工智能-搜索引擎-面向图书的垂直搜索引擎的研究与实现.pdf

    《人工智能-搜索引擎-面向图书的垂直搜索引擎的研究与实现》这篇论文深入探讨了人工智能在搜索引擎领域的应用,特别是针对图书资源的垂直搜索引擎。垂直搜索引擎是相对于通用搜索引擎的一种优化,它专注于特定领域或...

    网博垂直搜索引擎完全开源版_搜索链接应用程序.rar

    《网博垂直搜索引擎完全开源版:深度解析与应用探索》 在互联网的海量信息中,搜索引擎扮演着至关重要的角色,帮助用户快速定位所需内容。网博垂直搜索引擎完全开源版,作为一个专门为特定领域定制的搜索解决方案,...

    基于Heritrix体系结构的垂直搜索引擎研究

    本文主要探讨了Heritrix体系结构在垂直搜索引擎中的应用,并对其关键技术进行了深入分析。 #### Heritrix体系结构概述 Heritrix是一种开源的网络爬虫工具,由Internet Archive开发,主要用于构建数字档案和创建...

    垂直搜索引擎的架构与实现终版.pdf

    《垂直搜索引擎的架构与实现》是一篇由许忠学撰写并由王爱民教授指导的硕士学位论文,专注于探讨和分析垂直搜索引擎的相关技术和实践。垂直搜索引擎是相对于通用搜索引擎而言的,它们针对特定领域或主题,如科技、...

    电子书垂直搜索引擎-web

    本文将深入探讨电子书垂直搜索引擎的相关知识点,包括搜索引擎的基本原理、电子书数据获取、文本处理、索引构建、查询处理以及相关技术的应用。 首先,我们来看看搜索引擎的基本原理。搜索引擎主要由三大部分组成:...

    基于主题词库的垂直搜索引擎系统设计与实现(20210809124050).pdf

    根据以上信息,我们可以推断这份文档将详细探讨如何设计和实现一个基于主题词库的垂直搜索引擎系统,包括主题词库的构建,垂直搜索引擎的核心技术,以及在数据采集、处理、存储、查询及结果展示等方面的具体实现策略...

    基于主题词库的垂直搜索引擎系统设计与实现.pdf

    在文档《基于主题词库的垂直搜索引擎系统设计与实现.pdf》中,虽然内容由于OCR扫描存在一定的识别错误,我们还是可以推测文章将详细探讨上述垂直搜索引擎系统的设计与实现的具体方法、技术和面临的挑战。这可能包括...

    基于Heritrix与Lucene的垂直搜索引擎研究

    在这种背景下,垂直搜索引擎应运而生,其专注于某一特定领域或行业的信息检索,为用户提供更加精确和专业的搜索结果。 #### 2. 垂直搜索引擎关键技术 垂直搜索引擎的核心技术主要包括网页爬虫(Web Crawler)、网页...

Global site tag (gtag.js) - Google Analytics