nutch-1.x分布式索引指定 - 心如大海 - ITeye博客

`

p_x1984

浏览: 1192595 次
性别:
来自: 北京

最近访客更多访客>>

u012363178

清风_秋雨

sun80264629

shaoaj

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

pandaball：支持一下，心如大海
做有气质的男人
recall992：山东分公司的风格[color=brown]岁的法国电视[/co ...
solr是如何存储索引的
zhangsasa： -services "services-config ...
flex中endpoint的作用是什么？
来利强：非常感谢
java使用json所需要的几个包
zhanglian520：有参考价值。
hadoop部署错误之一：java.lang.IllegalArgumentException: Wrong FS

nutch-1.x分布式索引指定

博客分类：

nutch

阅读更多

1、nutch-1.x中在crawl.java中。最后有这么一句话。

indexer.index(indexes, crawlDb, linkDb, Arrays.asList(HadoopFSUtil.getPaths(fstats)));

它会把crawldb，linkdb以及segments，进行建立索引。生成文件 indexes,里面包含了part-00000,.....根据自己的depth而定。

2、

dedup.dedup(new Path[] { indexes });
fstats = fs.listStatus(indexes, HadoopFSUtil.getPassDirectoriesFilter(fs));
merger.merge(HadoopFSUtil.getPaths(fstats), index, tmpDir);

主要是对刚才生成的indexes索引部分进行合并（MD5）。删除重复的索引。根据自己的业务可以适量的修改。

2、分布式索引在指定时也可以指定 indexes部分，也可以指定index部分，两者的区别应该知道了吧！

分享到：

hadoop知识点整理 | 喜欢hadoop的同学们值得一看

2011-07-04 17:15
浏览 1298
评论(0)
论坛回复 / 浏览 (0 / 1376)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

apache-nutch-2.3.1-src.tar.gz: 1. **网络爬虫架构**：Nutch 采用模块化设计，包括爬取（Fetcher）、解析（Parser）、分割（Segmenter）、索引（Indexer）和搜索（Searcher）等模块。 2. **Hadoop 集成**：Nutch 与 Hadoop 深度集成，利用 Hadoop ...

apache-nutch-1.7-src.tar.gz: Apache Nutch是一个强大的开源搜索引擎项目，它主要用于网络爬虫和数据索引。Nutch是由Apache软件基金会开发并维护的，其目标是提供一种可扩展、可靠的全网搜索解决方案。Nutch 1.7是该项目的其中一个稳定版本，包含...

apache-nutch-1.3-src.tar.gz_nutch_nutch-1.3.tar.gz: 1. **Hadoop 集成**: Nutch 1.3 与 Hadoop 深度集成，利用其分布式计算能力处理大量数据。 2. **改进的抓取策略**: 采用更加智能的抓取策略，如基于 PageRank 的优先级排序，提高抓取效率。 3. **多语言支持**: 支持...

apache-nutch-1.4-bin.tar.gz: Apache Nutch 是一款高度可扩展的开源搜索引擎，它主要用于网络数据的抓取和索引。Nutch 的设计目的是为了提供一种高效、可靠且易于维护的解决方案，尤其适用于大数据量的互联网内容处理。在这个"apache-nutch-1.4-...

apache-nutch-1.16.rar 已编译好的版本，可以直接导入eclipse、idea: Nutch使用了一个分布式爬虫框架，可以在大规模集群上运行，处理海量网页。 2. **分词与索引**：Nutch使用Apache Lucene库进行文本分析和索引。分词是将网页内容分解成独立的词汇，而索引则是将这些词汇与网页相关联...

apach-nutch-1.9-bin.tar.gz: Nutch 1.9 是一个较旧但稳定的版本，相比2.x系列，它不需要依赖像HBase这样的非关系型数据库，因此在部署和维护上可能更加简单。这个压缩包 "apach-nutch-1.9-bin.tar.gz" 包含了运行Nutch所需的全部二进制文件和...

apache-nutch-1.6-src.tar.gz: 1. **源代码目录**：包含了所有Nutch项目的Java源代码，这些代码负责爬虫的各个模块，如爬行策略、URL过滤、网页解析、索引生成等。主要的源代码文件位于`src/java`目录下，按照包结构组织，例如`org.apache.nutch....

Nutch-1.0分布式安装手册.rar: Nutch-1.0分布式安装手册是一份详细指导如何在多台计算机上部署和配置Apache Nutch的文档。Apache Nutch是一款开源的网络爬虫软件，用于抓取互联网上的网页并进行索引，是大数据领域中搜索引擎构建的重要工具。这份...

rtf-parse.jar、jid3lib-0.5.4.jar: 1. `rtf-parse.jar`: 如果`Nutch`在抓取过程中遇到了RTF格式的网页，这个库可以帮助解析RTF内容，将其转换为可索引的文本形式，以便于搜索引擎理解并建立索引。 2. `jid3lib-0.5.4.jar`: 当`Nutch`抓取到包含ID3标签...

Hadoop-2.4.0+Hbase-0.94.18+Nutch-2.3集群爬虫配置攻略: 如果要在分布式模式下运行，需确保Hadoop和Hbase集群都在运行，并在Nutch配置中指定正确的集群设置。总结来说，配置Hadoop-2.4.0+Hbase-0.94.18+Nutch-2.3集群爬虫涉及多个步骤，包括安装和编译软件、配置相关参数...

apache-nutch-2.3-src.zip: 1. **基于Hadoop的分布式爬虫**：Nutch 2.3充分利用了Hadoop的分布式计算框架，能够处理海量网页数据，将爬虫任务分散到多台机器上进行，大大提高了爬取速度和处理能力。 2. **高效的URL管理**：Nutch 使用一个称为...

apache-nutch-1.13-src.zip_nutch_网络爬虫: 2. **下载**：Nutch 可以下载抓取到的网页，并存储在本地文件系统中，通常采用分布式存储系统如 HDFS（Hadoop 分布式文件系统）。 3. **解析**：Nutch 使用 HTML 解析器将网页内容转化为结构化的文本，以便后续处理...

Nutch-2.3-src.tar.gz: 它还集成了 Solr 或 Elasticsearch 作为可选的分布式索引和搜索服务。 7. **配置和插件**：Nutch 具有强大的配置系统，允许用户根据需求调整各种参数。此外，它的插件架构允许扩展其功能，例如添加新的数据源、解析...

apache-nutch-1.4-src.tar.gz_nutch_搜索引擎: 4. **存储系统（Storage System）**：Nutch 使用Hadoop分布式文件系统（HDFS）存储抓取的网页和索引数据。Hadoop允许Nutch在大规模集群上处理数据，提供高可用性和容错性。 5. **搜索接口（Search Interface）**：...

Nutch入门.rar: 7. nutch分布式文件系统........41 2007-8-26 北京邮电大学－李阳 Nutch入门学习 7.1 概述...41 7.2 MapReduce.......41 7.3 文件系统语法......42 7.4 文件系统设计......42 7.5 系统的可用性......43 7.6 ...

Linux下Nutch分布式配置和使用: Linux下Nutch分布式配置使用:分布式爬虫、索引、Nutch搜索本地数据、Nutch搜索HDFS数据。

apache-nutch-1.4: - **分布式存储**：Nutch 1.4使用Hadoop的HDFS（Hadoop Distributed File System）存储抓取的网页和索引数据。 - **MapReduce**：Nutch的大部分处理任务都是通过Hadoop的MapReduce模型执行的，实现了并行处理和...

nutch 初学文档教材: 7. nutch分布式文件系统........41 2007-8-26 北京邮电大学－李阳 Nutch入门学习 7.1 概述...41 7.2 MapReduce.......41 7.3 文件系统语法......42 7.4 文件系统设计......42 7.5 系统的可用性......43 7.6 Nutch...

nutch-1.9 源码: 1. **爬虫框架**：Nutch是一个基于Java的爬虫框架，它提供了完整的爬取、解析、存储和索引网页的功能。其设计灵感来自于Google的Puffin项目，能够处理大规模的互联网数据。 2. **分块机制**：Nutch采用了分块...

apache-nutch-1.5.1: 1. **网络爬虫**：Nutch 使用一种分布式爬虫策略，它可以自动发现新的网页并通过HTTP协议下载它们。它能遵循HTML中的链接，遍历整个互联网，不断抓取新的内容。 2. **URL管理**：Nutch 包含一个URL管理器，用于存储...

Global site tag (gtag.js) - Google Analytics