`

nutch 分布式搜索-cluster-hdfs index

 
阅读更多

此过程也很简单,步骤是:

a.put the indexes to hdfs respectively;

b.let search server three xml files related with hdfs,core,mapred -site.xml be same with the hadoop-slave's respectively;

c.retrieve the path of index in hdfs,then use them start the search server one by each;

d.start web container

 


note:

有人说用了分布式搜索后,每次查询都生成一个mr,性能会很差...

 

我觉得这些人没弄懂hadoop的动作机制,真是的胡说八道。

client通过 rpc向search-servers請求,然后交由servers来做真正的搜索任务,当然还是用到lucene的功能来实现。而hadoop向lucene提供了透明的文件流存取 ,根本 不会开mr来实现!

如果还不相信,可以只开启start-dfs.sh便得以验证。

 

Nutch search RPC 调用原理

1.client端先获取 一个RPCSearchBean proxy,然后在调用search(Query)时,由先将query中的参数及名字等转换为RPC.Invocation,然后对它 封送(serialized parameters),然后通过 socket传送到由search-server.txt定义好了第一台server(remote)中;

2.remote端启动一个驻守thread:DistributedSearch$Server,用于处理client的requests.过程是:

  a。通过 消费者模式产生listener,hander(s),responser.其中handler(s)负责将calls去调用本地的NutchBean相应 方法,当然 了。这个过程需要在bytestream中对参数deserialized 为Invocation,然后根据其中的class name,method name等参数进行local invoke。

3.responer将上述 的結果反封送为byte stream并送给client,然后由proxy deserialized为真正方法的返回object。

4.根据 search-servers.txt重复其它的servers

5.对所有的結果进行整合。完毕

 

 

 

see

cluster-local

hdfs data flow-part reading

分享到:
评论

相关推荐

    apache-nutch-2.3.1-src.tar.gz

    8. **索引存储**:Nutch 可以将抓取的网页数据存储在各种后端,如 HDFS 或者本地文件系统,索引可以被 Elasticsearch 或者 Solr 等搜索引擎读取。 9. **爬虫调度**:Nutch 使用一个调度器(如 FairScheduler 或 ...

    单元5--分布式文件系统HDFS.pptx

    Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。...HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。

    apache-nutch-1.4-bin.tar.gz

    Apache Nutch 是一款高度可扩展的开源搜索引擎,它主要用于网络数据的抓取和索引。Nutch 的设计目的是为了提供一种高效、可靠且易于维护的解决方案,尤其适用于大数据量的互联网内容处理。在这个"apache-nutch-1.4-...

    Linux下Nutch分布式配置和使用

    Linux下Nutch分布式配置 使用:分布式爬虫、索引、Nutch搜索本地数据、Nutch搜索HDFS数据。

    nutch分布式搜索索引热替换程序

    Nutch是一种开源的全文搜索引擎,它提供了从网络抓取数据、解析HTML、抽取链接、建立索引以及执行搜索等一系列功能。在大型系统中,为了处理海量数据,...理解并掌握这一技术对于运维大规模Nutch搜索系统至关重要。

    apache-nutch-1.3-src.tar.gz_nutch_nutch-1.3.tar.gz

    Apache Nutch 是一个开源的网络爬虫项目,用于抓取互联网上的网页并建立索引,以便进行全文搜索。Nutch 1.3 是该项目的一个稳定版本,提供了许多关键功能和改进。这个源码包 "apache-nutch-1.3-src.tar.gz" 和 ...

    nutch配置nutch-default.xml

    nutch配置nutch-default.xml

    apache-nutch-1.5.1-bin.tar.gz

    Nutch是一款刚刚诞生的完整的开源搜索引擎系统,可以结合数据库进行索引,能快速构建所需系统。Nutch 是基于Lucene的,Lucene为 Nutch 提供了文本索引和搜索的API,所以它使用Lucene作为索引和检索的模块。Nutch的...

    apach-nutch-1.9-bin.tar.gz

    Apache Nutch 是一个开源的网络爬虫框架,用于构建大规模的全文搜索引擎。Nutch 1.9 是一个较旧但稳定的版本,相比2.x系列,它不需要依赖像HBase这样的非关系型数据库,因此在部署和维护上可能更加简单。这个压缩包 ...

    apache-nutch-1.4-src.tar.gz_nutch_搜索引擎

    4. **存储系统(Storage System)**:Nutch 使用Hadoop分布式文件系统(HDFS)存储抓取的网页和索引数据。Hadoop允许Nutch在大规模集群上处理数据,提供高可用性和容错性。 5. **搜索接口(Search Interface)**:...

    apache-nutch-2.3.1-src

    apache-nutch-2.3.1-src.tar ,网络爬虫的源码, 用ivy2管理, ant runtime 编译 apache-nutch-2.3.1-src.tar ,网络爬虫的源码, 用ivy2管理, ant runtime 编译

    apache-nutch-1.7-src.tar.gz

    Apache Nutch是一个强大的开源搜索引擎项目,它主要用于网络爬虫和数据索引。Nutch是由Apache软件基金会开发并维护的,其目标是提供一种可扩展、可靠的全网搜索解决方案。Nutch 1.7是该项目的其中一个稳定版本,包含...

    apache-nutch-1.4-bin.tar.gz.part2

    apache-nutch-1.4-bin.tar.gz.part2

    nutch-1.0-dev.jar

    nutch-1.0-dev.jar nutch devlope

    apache-nutch-1.4-bin.part2

    apache-nutch-1.4-bin.part2

    apache-nutch-1.4-bin.part1

    apache-nutch-1.4-bin.part1

    apache-nutch-1.6-src.tar.gz

    Apache Nutch 是一个开源的网络爬虫项目,用于抓取互联网上的网页并建立索引,以便于搜索引擎进行高效的信息检索。Nutch 1.6 是该项目的一个稳定版本,提供了丰富的功能和良好的性能。这个`apache-nutch-1.6-src.tar...

    Nutch-1.0分布式安装手册.rar

    Hadoop则是Nutch处理大数据的核心框架,提供了分布式存储(HDFS)和计算(MapReduce)的能力。确保正确安装并配置了这两个组件是成功安装Nutch的前提。 接着,手册将引导用户下载Nutch源码,并通过Apache Maven进行...

Global site tag (gtag.js) - Google Analytics