`

nutch 搜索流程 2-distributed search

阅读更多

了解了local search ,那么进行distributed search也是相当简单的。只涉及几台机器的搜索,归并服务而已。

 


图中虚线表示采用local fs情况,即每台机器放自己的index,segmenets(注意它也也是可以分布式)

 

 

 

 

 

 

 

 

 

references:

nutch1.0分布查询

 

 

 

 

 

 

 

 

  • 大小: 27.1 KB
分享到:
评论

相关推荐

    Nutch配置[汇编].pdf

    This directory is searched (in order) for either the file search-servers.txt, containing a list of distributed search servers, or the directory "index" containing the local search index. ``` ####...

    nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据

    6. **存储与检索**:Nutch 支持多种存储和检索机制,如Hadoop的HDFS(Hadoop Distributed File System)用于存储爬取的数据,Solr或Elasticsearch用于提供全文检索服务。 7. **配置与优化**:Nutch 的性能可以通过...

    Nutch design and tutorial

    1. **数据存储**:Nutch使用Apache Hadoop作为底层的数据处理框架,将数据分布式存储在HDFS(Hadoop Distributed File System)上。这种设计使得Nutch能处理海量数据,并且具备高可用性和容错性。 2. **抓取模块**...

    test(nutch)

    在实际应用中,Nutch通常与其他工具和框架集成,例如与HBase用于存储原始网页,与Solr或Elasticsearch用于提供搜索服务,以及与Gora或Avro用于数据持久化。 【压缩包子文件的文件名称列表】:尽管列表中只有一个名...

    apache nutch 2.2 linux

    6. **搜索服务**: 通过 Solr 或 Elasticsearch 提供搜索服务,用户可以查询抓取的数据。 四、高级特性 1. **插件体系**: Nutch 支持丰富的插件,包括自定义爬取策略、解析器、分析器等,方便扩展功能。 2. **URL ...

    存储数据资料2

    同时,Nutch的索引可以与Apache Solr或Elasticsearch集成,提供高效的全文搜索功能。 在"存储数据资料2"中,可能会详细讲解如何配置和运行Nutch爬虫,如何设置存储策略,以及如何利用Hadoop生态对抓取的数据进行...

Global site tag (gtag.js) - Google Analytics