`

hadoop0.18.3 到 0.20.2

 
阅读更多


以前用的是0.18.3,现在改用0.20.2,結果发现mapreduce的接口变了好多,而《mapreduce 权威指南》这本书上还是0.18.3的接口
 ,这里记录一下今天下午的探索:

 最大的变化是作業配置那部分,新的版本里面不再使用JobConf, 而是使用了Job,这里的Job继承自JobContext,它集成了JobConf 。


Job里面还是用了相同的设置inputPath, outputPath, inputFormat, outputFormat之类的,主要的不同我认为有以下几个:

1. 初始化不一样,

     前者: JobConf conf = new  JobConf(getConf(), WordCount.class ); 

     后才: Job job = new  Job(conf, "word count" );

2. 执行不同:

     前者:  JobClient.runJob(conf)

     后才:job.waitForCompletion(true )


3.  最隐含是变化:

     前者:setMapperClass(class<? extends MapReduceBase implements Mapper>) 和 setReducerClass(class<? extends MapReducerBase implements Reducer>)

     后者:setMapperClass(class<? extends Mapper>) 和 setReducerClass(class<? extends Reducer>)

   

    也就是说Map类和Reduce也有所变化,并且在import的时候要注意,

   前者的mapper类和reduce类不仅要extends xxxbase父类,而且要implements mapper和reduce 接口,且

    import org.apache.hadoop.mapred.MapReduceBase,

    import org.apache.hadoop.mapred.Mapper;
   import org.apache.hadoop.mapred.Reducer;

   后才的mapper类和reduce类只要extends Mapper Reducer父类。



具体的比较程序如下:

前者出自《mapreduce 权威指南》,是旧版本的一个程序:

Mapper类:

import java.io.IOException;
import  org.apache.hadoop.io.IntWritable;
import  org.apache.hadoop.io.LongWritable;
import  org.apache.hadoop.io.Text;
import  org.apache.hadoop.mapred.MapReduceBase;
import  org.apache.hadoop.mapred.Mapper;
import  org.apache.hadoop.mapred.OutputCollector;
import  org.apache.hadoop.mapred.Reporter;
public class MaxTemperatureMapper extends MapReduceBase
implements Mapper<LongWritable, Text, Text, IntWritable>
 {
private static final int MISSING = 9999;
public void map(LongWritable key, Text value,
OutputCollector<Text, IntWritable> output, Reporter reporter)
throws IOException {
}
}
String line = value.toString();
String year = line.substring(15, 19);
int airTemperature;
if (line.charAt(87) == '+') { // parseInt doesn't like leading plus signs
airTemperature = Integer.parseInt(line.substring(88, 92));
} else {
airTemperature = Integer.parseInt(line.substring(87, 92));
}
String quality = line.substring(92, 93);
if (airTemperature != MISSING && quality.matches("[01459]")) {
output.collect(new Text(year), new IntWritable(airTemperature));
}

Reducer类:

import java.io.IOException;
import java.util.Iterator;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.MapReduceBase;
import org.apache.hadoop.mapred.OutputCollector;
import org.apache.hadoop.mapred.Reducer;
import org.apache.hadoop.mapred.Reporter;
public class MaxTemperatureReducer extends MapReduceBase
implements Reducer<Text, IntWritable, Text, IntWritable> {
 
public void reduce(Text key, Iterator<IntWritable> values,
OutputCollector<Text, IntWritable> output, Reporter reporter)
throws IOException {
}
}
int maxValue = Integer.MIN_VALUE;
while (values.hasNext()) {
maxValue = Math.max(maxValue, values.next().get());
}
output.collect(key, new IntWritable(maxValue));
}

}

主类

import java.io.IOException;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.FileInputFormat;
import org.apache.hadoop.mapred.FileOutputFormat;
import org.apache.hadoop.mapred.JobClient;
import org.apache.hadoop.mapred.JobConf;
public class MaxTemperature {
public static void main(String[] args) throws IOException {
if (args.length != 2) {
System.err.println("Usage: MaxTemperature <input path> <output path>");
System.exit(-1);
}
JobConf conf = new JobConf(MaxTemperature.class);
conf.setJobName("Max temperature");
FileInputFormat.addInputPath(conf, new Path(args[0]));
FileOutputFormat.setOutputPath(conf, new Path(args[1]));
conf.setMapperClass(MaxTemperatureMapper.class);
conf.setReducerClass(MaxTemperatureReducer.class);
conf.setOutputKeyClass(Text.class);
conf.setOutputValueClass(IntWritable.class);
}
}
JobClient.runJob(conf);

我修改后的新版本程序:

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper; 
import org.apache.hadoop.mapred.OutputCollector;
import org.apache.hadoop.mapred.Reporter;


public class MaxTemperatureMapper extends Mapper<LongWritable,Text,Text,IntWritable> {

    private static final int MISSING = 9999;

    public void map(LongWritable key, Text value,
            OutputCollector<Text, IntWritable> output, Reporter reporter)
            throws IOException {
 
        // TODO Auto-generated method stub
        String line = value.toString();
        String year = line.substring(15, 19);
        int airTemperature;
        if(line.charAt(87)=='+'){
            airTemperature = Integer.parseInt(line.substring(88, 92));
        }else{
            airTemperature = Integer.parseInt(line.substring(87, 92));
        }
        String quality = line.substring(92, 93);
        if(airTemperature!=MISSING && quality.matches("[01459]")){
            output.collect(new Text(year), new IntWritable(airTemperature));
        }
    }

}

import java.io.IOException;
import java.util.Iterator;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer; 
import org.apache.hadoop.mapred.OutputCollector;
import org.apache.hadoop.mapred.Reporter;


public class MaxTemperatureReducer extends Reducer<Text,IntWritable,Text,IntWritable> {

    public void reduce(Text key, Iterator<IntWritable> values,
            OutputCollector<Text,IntWritable> output, Reporter reporter) throws IOException {
        
        int maxValue = Integer.MIN_VALUE;
        while (values.hasNext()) {
            maxValue = Math.max(maxValue, values.next().get());
        }
        output.collect(key, new IntWritable(maxValue));
    }
}


import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;


public class MaxTemperature {
    public static void main(String [] argc) throws IOException, InterruptedException, ClassNotFoundException {
        if(argc.length != 2){
            System.out.println("Usage: MaxTemperature <input> <output>");
            System.exit(-1);
        }
        
        Configuration conf = new Configuration();
        Job j = new Job(conf,"Max Temperature");
        
        j.setJarByClass(MaxTemperature.class);
        
        j.setMapperClass(MaxTemperatureMapper.class);
        j.setReducerClass(MaxTemperatureReducer.class);
 
        
        j.setOutputKeyClass(Text.class);
        j.setOutputValueClass(IntWritable.class);
        
        FileInputFormat.addInputPath(j, new Path(argc[0]));
        FileOutputFormat.setOutputPath(j, new Path(argc[1]));
        
        System.exit(j.waitForCompletion(true) ? 0 : 1);
        
    }
}

参考: http://blog.csdn.net/amuseme_lu/archive/2010/05/13/5588545.aspx

 

转自:http://blog.csdn.net/JiaoYanChen/archive/2010/08/16/5816573.aspx

分享到:
评论

相关推荐

    hadoop-0.20.2-CDH3B4.tar.gz下载

    解压"Hadoop-0.20.2-CDH3B4.tar.gz"后,我们可以将其中的库文件复制到sqoop的lib目录,确保sqoop能识别和兼容当前的Hadoop环境。 具体操作步骤如下: 1. 解压文件,通常位于`/usr/local/hadoop/hadoop-0.20.2-cdh3...

    Linux环境下hadoop-0.20.2资源下载

    Hadoop-0.20.2是该框架的一个较早版本,尽管它相对较旧,但因其稳定性及许多初学者教程中的引用,它仍然是学习Hadoop基础知识的重要参考。这个版本包含了Hadoop的核心组件,如HDFS(Hadoop分布式文件系统)和...

    hadoop-0.20.2-eclipse-plugin.jar

    集成Hadoop 0.20.2-eclipse-plugin.jar到Eclipse的过程如下: 1. 下载并安装Eclipse IDE,确保版本与插件兼容。 2. 将"hadoop-0.20.2-eclipse-plugin.jar"文件复制到Eclipse的plugins目录下。 3. 重启Eclipse,插件...

    hadoop-core-0.20.2.jar.zip

    《Hadoop核心库:hadoop-core-0.20.2.jar在Eclipse环境中的应用与解析》 在大数据处理领域,Hadoop是不可或缺的重要工具,它的核心组件hadoop-core为分布式计算提供了基础架构。本文将围绕“hadoop-core-0.20.2.jar...

    hadoop-0.20.2安装手册

    ### Hadoop-0.20.2安装与配置详解 #### 一、Hadoop-0.20.2概述 Hadoop是一款支持大数据处理的开源软件框架,它能够高效地处理PB级别的数据集。Hadoop-0.20.2版本作为早期的一个稳定版本,在很多场景中仍然具有重要...

    hadoop 0.20.2

    虽然当前最新的Hadoop版本已经发展到3.x系列,但理解0.20.2对于学习Hadoop的历史和原理仍然具有重要意义。通过这个压缩包文件,用户可以体验和研究Hadoop 0.20.2的工作方式,从而更好地理解分布式计算和大数据处理的...

    hadoop-core-0.20.2 源码 hadoop-2.5.1-src.tar.gz 源码 hadoop 源码

    从hadoop-2.5.1-src中,我们可以看到Hadoop已经发展到YARN(Yet Another Resource Negotiator)时代,这是对MapReduce模型的重大改进,引入了一个资源管理器,提高了集群资源利用率和任务调度的灵活性。 1. **YARN*...

    hadoop-0.20.2帮助文档

    hadoop-0.20.2的chm帮助文档

    hbase-0.90.5.tar.gz与hadoop0.20.2版本匹配

    这个版本的HBase是针对Hadoop 0.20.2版本优化的,这意味着它可以在运行Hadoop 0.20.2集群的环境中稳定运行。用户在自己的本地虚拟机上成功安装并使用了这个版本,证明了它们之间的兼容性和稳定性。 HBase的主要特性...

    hadoop0.20.2配置手册

    hadoop0.20.2版本在虚拟机中的安装指南,经过测试可以实现

    hadoop0.20.2

    Hadoop 0.20.2 是 Apache Hadoop 项目的一个早期版本,它在Hadoop发展历史上占有重要的地位,尤其对于初学者来说,这个版本提供了一个基础的学习平台,以理解分布式计算的基本概念和Hadoop的核心架构。在这个版本中...

    hadoop-0.20.2-eclipse-plugin 插件

    Eclipse是一个广泛使用的Java IDE,但通过Hadoop-0.20.2-Eclipse-Plugin,Eclipse可以扩展到支持Hadoop开发。该插件提供了以下功能: 1. **项目模板**:插件提供预定义的Hadoop项目模板,帮助开发者快速创建...

    基于hadoop-0.20.2的FTP服务器

    基于apache发布的FTPserver实现的基于hadoop-0.20.2的FTP服务器,可以直接使用,但要进行hadoop网址的基本配置,另外只有一个匿名用户,除了几个我设定的系统文件夹不能删除外,基本具有所有权限。当然,您可以在此...

    hadoop-core-0.20.2-cdh3u3.jar

    export CLASSPATH="$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:${HADOOP_HOME}/lib/commons-logging-1.0.4.jar:${HADOOP_HOME}/lib/guava-r09-jarjar.jar:${HADOOP_HOME}/hadoop-core-0.20.2-cdh3u3.jar:/usr/...

    hadoop0.20.2使用sqoop必需包

    hadoop使用sqoop-1.2.0-CDH3B4.tar.gz需要将此包的hadoop-core-0.20.2-CDH3B4拷贝到sqoop/lib目录下

    Hadoop 0.20.2 API文档

    Hadoop 0.20.2 API文档是开发者在使用开源分布式架构Hadoop时的重要参考资料。这个版本的API文档详细地介绍了如何利用Java语言来与Hadoop生态系统进行交互,为开发人员提供了丰富的功能和工具,以实现大规模数据处理...

    hadoop-0.20.2(已经修改了conf文件中的默认配置)

    这个压缩包文件`hadoop-0.20.2`包含了Hadoop的0.20.2版本,这是一个早期但仍然广泛使用的版本,尤其对于学习和理解Hadoop的基本工作原理非常有帮助。 在`hadoop-0.20.2`中,`conf`目录下的配置文件已经被修改,这是...

    hadoop-0.20.2.tar.gz

    Hadoop安装包,适用于linux,内含eclipse插件.

Global site tag (gtag.js) - Google Analytics