以上是Hadoop的基本流程,如果需要详细连接可以登入http://hadoop.apache.org阅读更加详细地资料。这里我对其先介绍下简要地。等下结合nutch里如何使用这些实现并行计算地。
Hadoop主要分为2个部分,一个是分布式文件系统,一个是MapReduce的编程模型或者说一个框架。MapReduce相信大家都会了解一点(http://labs.google.com/papers/mapreduce.html).以上就是Hadoop提供地MapReduce的编程模型。首先把输入的每个大文件,利用InputFormatter提供地getSplites()把一个大文件拆分成小块,再利用InputFormatter提供的RecordReader的格式进行读取把一个InputSplits转为init Key-value pairs.启动一个Mapper Task把输入的Init Key-value Pairs进行相应的处理,转化为Intermediate Key-value paris,这个时候Hadoop的框架会协助这些产生值进行Group,以及按照提供的Partiion Class对结果进行分区,那么分区的个数就是以后Reduce Task的个数。(当然还可以提供Combine Class对本机局部的输出信息进行预处理,这样减少了Reduce过程读入的信息量).Mapper Task的结果一般保存在SequenceFile Class里。如果没有定义Reduce Class 那么默认就吧Mapper Class的中间Key-values按照提供的OutputFormatter进行输出。如果有定义了Reduce Task,那么就会先执行Reduce Task,过程是:首先从分布在各个Servers上的相关Key的所有Partition数据都Copy到本机Local的文件系统中,再新建一个文件用与存储,同时对于这些Key-values进行Merge,Sort操作。接下来就是简单地通过遍历这个文件,One Key- One Iterator,进行遍历,利用提供的OutputFormatter将结果输出到文件系统。(^-^我的理解就是上面这样咯.如果有什么不对的地方,希望大家指出来).
下面就是具体结合这个fetcher过程里的并行计算代码,来具体领悟下吧。
首先来下下Fetcher.fetch()这个crawl main()里调用的方法吧。
Mapper方法:
publicclass Fetcher extends ToolBase implements MapRunnable {
publicvoid fetch(Path segment, int threads)
throws IOException {
JobConf job = new NutchJob(getConf());//通过Configuration新建一个JobConf
job.setJobName("fetch " + segment);//命名JobName
job.setInputPath(new Path(segment, CrawlDatum.GENERATE_DIR_NAME));//输入Map-Reduce的Input路径
job.setInputFormat(InputFormat.class);//设置InputFormat提供RecordReader以及InputSplits,对照之前的图
job.setMapRunnerClass(Fetcher.class);//设置Mapper Class
job.setOutputPath(segment);//设置Mapper-Reduce Output输出路径
job.setOutputFormat(FetcherOutputFormat.class);//设置OuptFormater提供ReportWriter进行输出
job.setOutputKeyClass(Text.class);//输出的Key Class
job.setOutputValueClass(FetcherOutput.class);//输出的 Value Class
JobClient.runJob(job);//执行Hadoop Map-Reduce Task,calling run(RecordReader,OutputCollectort,Reporter)
}
. . .
publicvoid run(RecordReader input, OutputCollector output,
Reporter reporter) throws IOException {
//执行已经经过InputFormat的处理,提供了RecordReader,reporter,output,进行Mapper Task .设置这些使得在FectcherThead内部线程里,可以使用input.next()读取Mapper Input
this.input = input;
this.output = output;
this.reporter = reporter;//底下是启动一个FetcherThread的,具体内容之前的1,2已经提及
}
在以上的Mapper Task执行完之后,由于没有指定Reduce方法所以默认把Mapper Intermediate Key-value作为输出.具体地可以看FetcherOutputFormat类,里面提供了ReportWriter对结果进行输出。
这个就是Hadoop执行这个Fetcher的具体流程了。当然有一些map-reduce Task并没有使用实现这个MapRunnbale的方法,而是使用Mapper这个接口,通过写里面的map(WritableComparable, Writable, OutputCollector, Reporter)方法,来对输入的key-value进行相应地处理。比如默认地CrawlDb.createJob(Configuration, Path)里设置地默认的Mapper类CrawlDBFilter这个mapper类。具体大概地执行流程也是之前那样地。
介绍到这里,希望大家了解了Map-Reduce在Hadoop里怎么使用地,然后可以更好地看懂Nutch代码哈哈。
^-^有问题,或者我有什么理解不对的地方,欢迎批评指点。Nutch学习笔记待续~~~~
分享到:
相关推荐
`apache-nutch-2.3.1-src.tar.gz` 是 Apache Nutch 的源代码包,版本号为 2.3.1,以 tar.gz 格式压缩。 这个压缩包中包含的主要文件和目录结构如下: 1. **src**: 这是 Nutch 的源代码存放位置,分为多个子目录,...
在研究和使用Nutch-2.1源代码时,你可以深入了解搜索引擎的各个组成部分,如爬虫的实现、索引过程的细节、查询处理的算法等,这对于提升自己的搜索引擎技术知识非常有帮助。同时,Nutch也是研究搜索引擎优化(SEO)...
Nutch 的源代码解析对于深入理解搜索引擎的工作原理以及自定义搜索引擎的实现非常有帮助。下面我们将详细探讨 Nutch 的注入(Injector)过程,这是整个爬取流程的第一步。 Injector 类在 Nutch 中的作用是将输入的 ...
这个`apache-nutch-1.6-src.tar.gz`文件包含了Nutch 1.6的源代码,允许开发者深入研究其内部机制,定制自己的爬虫需求,或者为项目贡献代码。 源代码包`apache-nutch-1.6`中通常包含以下几个关键部分: 1. **源...
在这个"apache-nutch-1.4-bin.tar.gz"压缩包中,包含了运行 Nutch 的所有必要组件和配置文件,适合初学者和开发者快速部署和实验。 **Nutch 的核心组成部分:** 1. **爬虫(Spider)**:Nutch 的爬虫负责在网络中...
这个源码包 "apache-nutch-1.3-src.tar.gz" 和 "nutch-1.3.tar.gz" 包含了 Nutch 1.3 的源代码和编译后的二进制文件,对于开发者和研究者来说是非常有价值的资源。 **Nutch 概述** Nutch 是基于 Java 开发的,遵循 ...
在“apache-nutch-1.7-src.tar.gz”这个压缩包中,你将获得Nutch 1.7的源代码,这使得开发者可以深入了解其工作原理,并对其进行定制和扩展。解压后的文件夹“apache-nutch-1.7”包含了所有必要的组件和配置文件。 ...
nutch配置nutch-default.xml
Nutch是一款刚刚诞生的完整的开源搜索引擎系统,可以结合数据库进行索引,能快速...Nutch的开放源代码方便任何人去查看Nutch排序算法的工作流程。因此Nutch就可以更好的发展,为那些爱好搜索引擎的人们提供了一个平台。
4. **配置与部署**:解压 "apache-nutch-1.9" 文件后,需要根据你的环境配置`conf/nutch-site.xml`文件,设置包括抓取间隔、并发度、存储路径等参数。同时,可能还需要配置`conf/regex-urlfilter.txt`和`conf/...
相对于那些商用的搜索引擎, Nutch作为开放源代码 搜索引擎将会更加透明, 从而更值得大家信赖. 现在所有主要的搜索引擎都采用私有的排序算法, 而不会解释为什么一个网页会排在一个特定的位置. 除此之外, 有的搜索...
nutch不用安装,是个应用程序,下载后为nutch-1.6.tar.gz,双击桌面上的cygwin快捷方式;执行以下命令: $ cd D:/Downloads/Soft $ tar zxvf nutch-1.0.tar.gz 在e盘下面出现nutch-0.9文件夹说明解压成功了.然后环境...
apache-nutch-2.3.1-src.tar ,网络爬虫的源码, 用ivy2管理, ant runtime 编译 apache-nutch-2.3.1-src.tar ,网络爬虫的源码, 用ivy2管理, ant runtime 编译
在实际操作中,开发者可能需要查看Nutch的源代码,特别是`org.apache.nutch.parse`包下的类,如`Parser`、`ParserFactory`等,来了解如何集成自定义的MP3解析功能。 总之,将MP3文件信息解析集成到Nutch中,可以...
apache-nutch-1.4-bin.tar.gz.part2
在 `apache-nutch-1.13` 的源代码中,你可以看到以下关键组件和目录结构: - `src/java`:包含 Nutch 的核心 Java 类库,如爬虫逻辑、索引和搜索模块。 - `src/conf`:存放配置文件,如 `nutch-site.xml`,用于设置...
在`apache-nutch-1.5.1`这个压缩包中,你将找到源代码、构建脚本、文档、配置文件以及示例数据。通过对这些内容的阅读和实践,你可以深入了解搜索引擎的运作机制,进一步提升你的Java编程和分布式系统技能。同时,...
nutch-1.0-dev.jar nutch devlope