`

nutch-1.x分布式索引指定

 
阅读更多

1、nutch-1.x中在crawl.java中。最后有这么一句话。

 indexer.index(indexes, crawlDb, linkDb, Arrays.asList(HadoopFSUtil.getPaths(fstats)));

它会把crawldb,linkdb以及segments,进行建立索引。生成文件 indexes,里面包含了part-00000,.....根据自己的depth而定。

2、

dedup.dedup(new Path[] { indexes });
fstats = fs.listStatus(indexes, HadoopFSUtil.getPassDirectoriesFilter(fs));
merger.merge(HadoopFSUtil.getPaths(fstats), index, tmpDir);

主要是对刚才生成的indexes索引部分进行合并(MD5)。删除重复的索引。根据自己的业务可以适量的修改。

2、分布式索引在指定时也可以指定 indexes部分,也可以指定index部分,两者的区别应该知道了吧!

分享到:
评论

相关推荐

    apache-nutch-2.3.1-src.tar.gz

    1. **网络爬虫架构**:Nutch 采用模块化设计,包括爬取(Fetcher)、解析(Parser)、分割(Segmenter)、索引(Indexer)和搜索(Searcher)等模块。 2. **Hadoop 集成**:Nutch 与 Hadoop 深度集成,利用 Hadoop ...

    apache-nutch-1.7-src.tar.gz

    Apache Nutch是一个强大的开源搜索引擎项目,它主要用于网络爬虫和数据索引。Nutch是由Apache软件基金会开发并维护的,其目标是提供一种可扩展、可靠的全网搜索解决方案。Nutch 1.7是该项目的其中一个稳定版本,包含...

    apache-nutch-1.3-src.tar.gz_nutch_nutch-1.3.tar.gz

    1. **Hadoop 集成**: Nutch 1.3 与 Hadoop 深度集成,利用其分布式计算能力处理大量数据。 2. **改进的抓取策略**: 采用更加智能的抓取策略,如基于 PageRank 的优先级排序,提高抓取效率。 3. **多语言支持**: 支持...

    apache-nutch-1.4-bin.tar.gz

    Apache Nutch 是一款高度可扩展的开源搜索引擎,它主要用于网络数据的抓取和索引。Nutch 的设计目的是为了提供一种高效、可靠且易于维护的解决方案,尤其适用于大数据量的互联网内容处理。在这个"apache-nutch-1.4-...

    apache-nutch-1.16.rar 已编译好的版本,可以直接导入eclipse、idea

    Nutch使用了一个分布式爬虫框架,可以在大规模集群上运行,处理海量网页。 2. **分词与索引**:Nutch使用Apache Lucene库进行文本分析和索引。分词是将网页内容分解成独立的词汇,而索引则是将这些词汇与网页相关联...

    apach-nutch-1.9-bin.tar.gz

    Nutch 1.9 是一个较旧但稳定的版本,相比2.x系列,它不需要依赖像HBase这样的非关系型数据库,因此在部署和维护上可能更加简单。这个压缩包 "apach-nutch-1.9-bin.tar.gz" 包含了运行Nutch所需的全部二进制文件和...

    apache-nutch-1.6-src.tar.gz

    1. **源代码目录**:包含了所有Nutch项目的Java源代码,这些代码负责爬虫的各个模块,如爬行策略、URL过滤、网页解析、索引生成等。主要的源代码文件位于`src/java`目录下,按照包结构组织,例如`org.apache.nutch....

    rtf-parse.jar、jid3lib-0.5.4.jar

    1. `rtf-parse.jar`: 如果`Nutch`在抓取过程中遇到了RTF格式的网页,这个库可以帮助解析RTF内容,将其转换为可索引的文本形式,以便于搜索引擎理解并建立索引。 2. `jid3lib-0.5.4.jar`: 当`Nutch`抓取到包含ID3标签...

    Nutch-1.0分布式安装手册.rar

    Nutch-1.0分布式安装手册是一份详细指导如何在多台计算机上部署和配置Apache Nutch的文档。Apache Nutch是一款开源的网络爬虫软件,用于抓取互联网上的网页并进行索引,是大数据领域中搜索引擎构建的重要工具。这份...

    Hadoop-2.4.0+Hbase-0.94.18+Nutch-2.3集群爬虫配置攻略

    如果要在分布式模式下运行,需确保Hadoop和Hbase集群都在运行,并在Nutch配置中指定正确的集群设置。 总结来说,配置Hadoop-2.4.0+Hbase-0.94.18+Nutch-2.3集群爬虫涉及多个步骤,包括安装和编译软件、配置相关参数...

    apache-nutch-2.3-src.zip

    1. **基于Hadoop的分布式爬虫**:Nutch 2.3充分利用了Hadoop的分布式计算框架,能够处理海量网页数据,将爬虫任务分散到多台机器上进行,大大提高了爬取速度和处理能力。 2. **高效的URL管理**:Nutch 使用一个称为...

    apache-nutch-1.13-src.zip_nutch_网络爬虫

    2. **下载**:Nutch 可以下载抓取到的网页,并存储在本地文件系统中,通常采用分布式存储系统如 HDFS(Hadoop 分布式文件系统)。 3. **解析**:Nutch 使用 HTML 解析器将网页内容转化为结构化的文本,以便后续处理...

    Nutch-2.3-src.tar.gz

    它还集成了 Solr 或 Elasticsearch 作为可选的分布式索引和搜索服务。 7. **配置和插件**:Nutch 具有强大的配置系统,允许用户根据需求调整各种参数。此外,它的插件架构允许扩展其功能,例如添加新的数据源、解析...

    apache-nutch-1.4-src.tar.gz_nutch_搜索引擎

    4. **存储系统(Storage System)**:Nutch 使用Hadoop分布式文件系统(HDFS)存储抓取的网页和索引数据。Hadoop允许Nutch在大规模集群上处理数据,提供高可用性和容错性。 5. **搜索接口(Search Interface)**:...

    Nutch入门.rar

    7. nutch分布式文件系统........41 2007-8-26 北京邮电大学-李阳 Nutch入门学习 7.1 概述...41 7.2 MapReduce.......41 7.3 文件系统语法......42 7.4 文件系统设计......42 7.5 系统的可用性......43 7.6 ...

    Linux下Nutch分布式配置和使用

    Linux下Nutch分布式配置 使用:分布式爬虫、索引、Nutch搜索本地数据、Nutch搜索HDFS数据。

    apache-nutch-1.4

    - **分布式存储**:Nutch 1.4使用Hadoop的HDFS(Hadoop Distributed File System)存储抓取的网页和索引数据。 - **MapReduce**:Nutch的大部分处理任务都是通过Hadoop的MapReduce模型执行的,实现了并行处理和...

    nutch 初学文档教材

    7. nutch分布式文件系统........41 2007-8-26 北京邮电大学-李阳 Nutch入门学习 7.1 概述...41 7.2 MapReduce.......41 7.3 文件系统语法......42 7.4 文件系统设计......42 7.5 系统的可用性......43 7.6 Nutch...

    nutch-1.9 源码

    1. **爬虫框架**:Nutch是一个基于Java的爬虫框架,它提供了完整的爬取、解析、存储和索引网页的功能。其设计灵感来自于Google的Puffin项目,能够处理大规模的互联网数据。 2. **分块机制**:Nutch采用了分块...

    apache-nutch-1.5.1

    1. **网络爬虫**:Nutch 使用一种分布式爬虫策略,它可以自动发现新的网页并通过HTTP协议下载它们。它能遵循HTML中的链接,遍历整个互联网,不断抓取新的内容。 2. **URL管理**:Nutch 包含一个URL管理器,用于存储...

Global site tag (gtag.js) - Google Analytics