`

《hadoop权威指南》第二章的例子(修改已可用)

阅读更多

额,我看了一下1990年气象数据的格式,已经和书上有很大出入了,新的数据已经格式化了,后面附件里有,我用的时候把第一行的名称都删掉了。而且也不是int的了,我用的是double

 

MaxTemperatureMapper

 

 

package com.eryk.hadoop.weather;

import java.io.IOException;

import org.apache.hadoop.io.DoubleWritable;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.MapReduceBase;
import org.apache.hadoop.mapred.Mapper;
import org.apache.hadoop.mapred.OutputCollector;
import org.apache.hadoop.mapred.Reporter;

public class MaxTemperatureMapper extends MapReduceBase implements
		Mapper<LongWritable, Text, Text, DoubleWritable> {
	private static final double MISSING = 99.9;
	public void map(LongWritable key, Text value,
			OutputCollector<Text, DoubleWritable> output, Reporter reporter)
			throws IOException {
		String line = value.toString();
		String year = line.substring(14,18);
		double airTemperature;
			airTemperature = Double.parseDouble(line.substring(104,108));
		if(airTemperature != MISSING){
			output.collect(new Text(year), new DoubleWritable(airTemperature));
		}
	}

}

 

MaxTemperatureReducer

 

package com.eryk.hadoop.weather;

import java.io.IOException;
import java.util.Iterator;

import org.apache.hadoop.io.DoubleWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.MapReduceBase;
import org.apache.hadoop.mapred.OutputCollector;
import org.apache.hadoop.mapred.Reducer;
import org.apache.hadoop.mapred.Reporter;

public class MaxTemperatureReducer extends MapReduceBase implements
		Reducer<Text, DoubleWritable, Text, DoubleWritable> {

	public void reduce(Text key, Iterator<DoubleWritable> values,
			OutputCollector<Text, DoubleWritable> output, Reporter reporter)
			throws IOException {
		double maxValue = Double.MIN_VALUE;
		while(values.hasNext()){
			maxValue = Math.max(maxValue, values.next().get());
		}
		output.collect(key, new DoubleWritable(maxValue));
	}

}

 

MaxTemperature

 

package com.eryk.hadoop.weather;

import java.io.IOException;

import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.DoubleWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.FileInputFormat;
import org.apache.hadoop.mapred.FileOutputFormat;
import org.apache.hadoop.mapred.JobClient;
import org.apache.hadoop.mapred.JobConf;

public class MaxTemperature {
	public static void main(String[] args) throws IOException {
		if(args.length !=2){
			System.err.println("参数错误");
			System.exit(-1);
		}
		JobConf conf = new JobConf(MaxTemperature.class);
		conf.setJobName("eryk Max temperature");
		
		FileInputFormat.addInputPath(conf, new Path(args[0]));
		FileOutputFormat.setOutputPath(conf, new Path(args[1]));
		
		conf.setMapperClass(MaxTemperatureMapper.class);
		conf.setReducerClass(MaxTemperatureReducer.class);

		conf.setOutputKeyClass(Text.class);
		conf.setOutputValueClass(DoubleWritable.class);
		
		JobClient.runJob(conf);
	}
}
 

 

分享到:
评论
4 楼 xxjjyy2008 2011-12-07  
我怎么不能运行哦,还有错
3 楼 xxjjyy2008 2011-12-07  
楼主QQ留一下。。。
2 楼 eryk 2010-12-21  
weishens 写道
其他数据楼主有吗

http://bbs.hadoopor.com/ 这个论坛里有个网址可以下载所有数据,你找找
1 楼 weishens 2010-12-20  
其他数据楼主有吗

相关推荐

    Hadoop权威指南 第二版(中文版)

    第1章 初识Hadoop  数据!数据!  数据存储与分析  与其他系统相比  关系型数据库管理系统  网格计算  志愿计算  1.3.4 Hadoop 发展简史  Apache Hadoop和Hadoop生态圈 第2章 关于MapReduce  一个气象数据...

    hadoop权威指南第三版 中文 pdf

    《Hadoop权威指南》第三版是一本深度剖析Hadoop生态系统的经典著作,旨在帮助读者从基础知识到高级技术全面掌握这个大数据处理平台。Hadoop作为开源的分布式计算框架,以其高可扩展性和容错性,成为了大数据时代的...

    Hadoop权威指南第四版和第二版

    第二版的《Hadoop权威指南》主要覆盖了Hadoop 1.x的时代,这是Hadoop发展的初期阶段。在这一版本中,作者详细介绍了Hadoop的基本架构,包括HDFS(Hadoop分布式文件系统)和MapReduce。HDFS是Hadoop的核心组件,用于...

    hadoop权威指南第四版高清 pdf下载

    《Hadoop权威指南》第四版是Hadoop领域的经典著作,由Tom White撰写,该书深入浅出地介绍了Hadoop生态系统的核心技术和应用场景。这本书对于想要理解、学习和掌握Hadoop技术的人来说,具有极高的参考价值。 Hadoop...

    Hadoop权威指南第四版中文版

    本文带来的资源是hadoop权威指南第四版中文版,适合hadoop深入学习

    hadoop权威指南第三版完整版

    ### Hadoop权威指南第三版知识点总结 #### 一、Hadoop概述 - **定义与背景**:Hadoop是一个能够对大量数据进行分布式处理的软件框架。它由Apache基金会开发维护,旨在提供高可靠性、高效性及可扩展性的数据处理...

    Hadoop权威指南 第四版 大数据 中文版 pdf

    绝对第四版!绝对中文!绝对完整!绝对第四版!绝对中文!绝对完整! Hadoop权威指南 大数据 第四版 修订版&升级版 中文版 pdf格式。Tom White 著,王海 等译,清华大学出版社,最新第4版。

    hadoop权威指南4和源码

    《Hadoop权威指南4》是Hadoop领域的一本经典著作,深入浅出地介绍了这个分布式计算框架的核心概念、设计原理以及实际操作。这本书是许多开发者和数据工程师学习Hadoop的首选资料,而附带的源码则为读者提供了更直观...

    Hadoop权威指南,hadoop权威指南pdf,Hadoop

    《Hadoop权威指南》是大数据领域的一本经典著作,它深入浅出地介绍了Apache Hadoop这一开源分布式计算框架。Hadoop是由Doug Cutting和Mike Cafarella共同创建,最初是为了支持Google的MapReduce计算模型和Google ...

    Hadoop权威指南中文版(完全版)

    《Hadoop权威指南》中文版是全面了解和深入学习Hadoop技术的重要参考资料,它涵盖了Hadoop生态系统中的核心组件以及相关的分布式计算概念。这本书详细解析了Hadoop的设计原理、架构、安装配置、操作维护以及实际应用...

    Hadoop权威指南_第四版_中文版

    Hadoop权威指南 第四版 修订版&升级版 中文版 pdf格式。大家放心,绝对是中文版,不骗人。原文件很大,稍压缩了一下,页面依然非常清晰。无水印。共732页。 Tom White 著,王海 等译,清华大学出版社,2017年7月第4...

    高清中文PDf附带目录标签《Hadoop权威指南》

    《Hadoop权威指南》是一本深入探讨大数据处理和分布式计算技术的经典著作,尤其对Hadoop生态系统的核心组件进行了详尽的阐述。这本书对于理解Hadoop集群、MapReduce编程模型以及HBase分布式数据库有着极大的帮助。接...

    Hadoop权威指南_第四版_中文版(附源码))

    Hadoop权威指南第四版中文版,高清扫描版,有源码 本文带来的资源是hadoop权威指南第四版中文版以及配套的源码,内容以Hadoop2.x为主,包含一些hadoop的stable版本的新特性,与之前 的版本相比增加了介绍YARN , ...

    Hadoop权威指南----读书笔记.pdf

    Hadoop权威指南----读书笔记

    《Hadoop权威指南(第四版)》中-英文pdf+源码

    《Hadoop权威指南(第四版)》是一本深入解析Hadoop生态系统的经典著作,适合对大数据处理感兴趣的读者,包括开发者、架构师以及数据分析师。这本书详尽地介绍了Hadoop的核心概念、架构以及实际应用,旨在帮助读者...

    hadoop权威指南第三版

    hadoop权威指南第3版是一本非常专业的Hadoop参考学习用书,该书系统阐述了Hadoop发展现状和应用,知识体系完善,内容丰富全面,对Hadoop感兴趣的朋友可以学习学习。

    【免费】Hadoop权威指南(第3版) 修订版(带目录书签) 中文高清晰PDF

    《Hadoop权威指南》(第3版) 修订版是一本专门为那些想要深入理解Hadoop技术的读者准备的专业书籍。Hadoop是当前大数据处理领域的重要工具,它基于分布式计算模型,能够处理和存储海量数据。这本书以其详尽的介绍和...

    Hadoop权威指南(第二版) 中文版指南和源码

    《Hadoop权威指南(第二版)》是一本深入解析Hadoop生态系统的经典著作,中文版的发布为国内的Hadoop开发者提供了便利的学习资源。这本书详细介绍了Hadoop的核心组件,包括HDFS(分布式文件系统)、MapReduce(分布式...

Global site tag (gtag.js) - Google Analytics