此过程也很简单,步骤是:
a.put the indexes to hdfs respectively;
b.let search server three xml files related with hdfs,core,mapred -site.xml be same with the hadoop-slave's respectively;
c.retrieve the path of index in hdfs,then use them start the search server one by each;
d.start web container
note:
有人说用了分布式搜索后,每次查询都生成一个mr,性能会很差...
我觉得这些人没弄懂hadoop的动作机制,真是的胡说八道。
client通过 rpc向search-servers請求,然后交由servers来做真正的搜索任务,当然还是用到lucene的功能来实现。而hadoop向lucene提供了透明的文件流存取
,根本 不会开mr来实现!
如果还不相信,可以只开启start-dfs.sh便得以验证。
Nutch search RPC 调用原理
1.client端先获取 一个RPCSearchBean proxy,然后在调用search(Query)时,由先将query中的参数及名字等转换为RPC.Invocation,然后对它 封送(serialized parameters),然后通过 socket传送到由search-server.txt定义好了第一台server(remote)中;
2.remote端启动一个驻守thread:DistributedSearch$Server,用于处理client的requests.过程是:
a。通过 消费者模式产生listener,hander(s),responser.其中handler(s)负责将calls去调用本地的NutchBean相应 方法,当然 了。这个过程需要在bytestream中对参数deserialized 为Invocation,然后根据其中的class name,method name等参数进行local invoke。
3.responer将上述 的結果反封送为byte stream并送给client,然后由proxy deserialized为真正方法的返回object。
4.根据 search-servers.txt重复其它的servers
5.对所有的結果进行整合。完毕
see
cluster-local
分享到:
相关推荐
8. **索引存储**:Nutch 可以将抓取的网页数据存储在各种后端,如 HDFS 或者本地文件系统,索引可以被 Elasticsearch 或者 Solr 等搜索引擎读取。 9. **爬虫调度**:Nutch 使用一个调度器(如 FairScheduler 或 ...
Linux下Nutch分布式配置 使用:分布式爬虫、索引、Nutch搜索本地数据、Nutch搜索HDFS数据。
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。...HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。
Apache Nutch 是一款高度可扩展的开源搜索引擎,它主要用于网络数据的抓取和索引。Nutch 的设计目的是为了提供一种高效、可靠且易于维护的解决方案,尤其适用于大数据量的互联网内容处理。在这个"apache-nutch-1.4-...
Nutch是一种开源的全文搜索引擎,它提供了从网络抓取数据、解析HTML、抽取链接、建立索引以及执行搜索等一系列功能。在大型系统中,为了处理海量数据,...理解并掌握这一技术对于运维大规模Nutch搜索系统至关重要。
Apache Nutch 是一个开源的网络爬虫项目,用于抓取互联网上的网页并建立索引,以便进行全文搜索。Nutch 1.3 是该项目的一个稳定版本,提供了许多关键功能和改进。这个源码包 "apache-nutch-1.3-src.tar.gz" 和 ...
nutch配置nutch-default.xml
Nutch是一款刚刚诞生的完整的开源搜索引擎系统,可以结合数据库进行索引,能快速构建所需系统。Nutch 是基于Lucene的,Lucene为 Nutch 提供了文本索引和搜索的API,所以它使用Lucene作为索引和检索的模块。Nutch的...
Apache Nutch 是一个开源的网络爬虫框架,用于构建大规模的全文搜索引擎。Nutch 1.9 是一个较旧但稳定的版本,相比2.x系列,它不需要依赖像HBase这样的非关系型数据库,因此在部署和维护上可能更加简单。这个压缩包 ...
4. **存储系统(Storage System)**:Nutch 使用Hadoop分布式文件系统(HDFS)存储抓取的网页和索引数据。Hadoop允许Nutch在大规模集群上处理数据,提供高可用性和容错性。 5. **搜索接口(Search Interface)**:...
apache-nutch-2.3.1-src.tar ,网络爬虫的源码, 用ivy2管理, ant runtime 编译 apache-nutch-2.3.1-src.tar ,网络爬虫的源码, 用ivy2管理, ant runtime 编译
Apache Nutch是一个强大的开源搜索引擎项目,它主要用于网络爬虫和数据索引。Nutch是由Apache软件基金会开发并维护的,其目标是提供一种可扩展、可靠的全网搜索解决方案。Nutch 1.7是该项目的其中一个稳定版本,包含...
apache-nutch-1.4-bin.tar.gz.part2
nutch-1.0-dev.jar nutch devlope
apache-nutch-1.4-bin.part2
apache-nutch-1.4-bin.part1
Apache Nutch 是一个开源的网络爬虫项目,用于抓取互联网上的网页并建立索引,以便于搜索引擎进行高效的信息检索。Nutch 1.6 是该项目的一个稳定版本,提供了丰富的功能和良好的性能。这个`apache-nutch-1.6-src.tar...
Hadoop则是Nutch处理大数据的核心框架,提供了分布式存储(HDFS)和计算(MapReduce)的能力。确保正确安装并配置了这两个组件是成功安装Nutch的前提。 接着,手册将引导用户下载Nutch源码,并通过Apache Maven进行...