- 浏览: 583397 次
- 性别:
- 来自: 北京
文章分类
最新评论
-
maleking:
太感谢了。新手搭建hadoop集群环境,dat ...
启动hadoop后没有datanodes的问题 -
system_mush:
NoClassDefFoundError: com/google/common/collect/Maps -
di1984HIT:
呵呵,我学习一下。
Katta源码分析 -
di1984HIT:
呵呵, 不管怎么说,挺好的。
zookeeper3.3学习笔记2:配置参数介绍 -
zoezhang:
谢谢了,可以解决
maven2报cannot be cast to javax.servlet.Filter错误解决
额,我看了一下1990年气象数据的格式,已经和书上有很大出入了,新的数据已经格式化了,后面附件里有,我用的时候把第一行的名称都删掉了。而且也不是int的了,我用的是double
MaxTemperatureMapper
package com.eryk.hadoop.weather; import java.io.IOException; import org.apache.hadoop.io.DoubleWritable; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapred.MapReduceBase; import org.apache.hadoop.mapred.Mapper; import org.apache.hadoop.mapred.OutputCollector; import org.apache.hadoop.mapred.Reporter; public class MaxTemperatureMapper extends MapReduceBase implements Mapper<LongWritable, Text, Text, DoubleWritable> { private static final double MISSING = 99.9; public void map(LongWritable key, Text value, OutputCollector<Text, DoubleWritable> output, Reporter reporter) throws IOException { String line = value.toString(); String year = line.substring(14,18); double airTemperature; airTemperature = Double.parseDouble(line.substring(104,108)); if(airTemperature != MISSING){ output.collect(new Text(year), new DoubleWritable(airTemperature)); } } }
MaxTemperatureReducer
package com.eryk.hadoop.weather; import java.io.IOException; import java.util.Iterator; import org.apache.hadoop.io.DoubleWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapred.MapReduceBase; import org.apache.hadoop.mapred.OutputCollector; import org.apache.hadoop.mapred.Reducer; import org.apache.hadoop.mapred.Reporter; public class MaxTemperatureReducer extends MapReduceBase implements Reducer<Text, DoubleWritable, Text, DoubleWritable> { public void reduce(Text key, Iterator<DoubleWritable> values, OutputCollector<Text, DoubleWritable> output, Reporter reporter) throws IOException { double maxValue = Double.MIN_VALUE; while(values.hasNext()){ maxValue = Math.max(maxValue, values.next().get()); } output.collect(key, new DoubleWritable(maxValue)); } }
MaxTemperature
package com.eryk.hadoop.weather; import java.io.IOException; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.DoubleWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapred.FileInputFormat; import org.apache.hadoop.mapred.FileOutputFormat; import org.apache.hadoop.mapred.JobClient; import org.apache.hadoop.mapred.JobConf; public class MaxTemperature { public static void main(String[] args) throws IOException { if(args.length !=2){ System.err.println("参数错误"); System.exit(-1); } JobConf conf = new JobConf(MaxTemperature.class); conf.setJobName("eryk Max temperature"); FileInputFormat.addInputPath(conf, new Path(args[0])); FileOutputFormat.setOutputPath(conf, new Path(args[1])); conf.setMapperClass(MaxTemperatureMapper.class); conf.setReducerClass(MaxTemperatureReducer.class); conf.setOutputKeyClass(Text.class); conf.setOutputValueClass(DoubleWritable.class); JobClient.runJob(conf); } }
- 010010-99999-1990.op.gz (10.4 KB)
- 下载次数: 100
评论
4 楼
xxjjyy2008
2011-12-07
我怎么不能运行哦,还有错
3 楼
xxjjyy2008
2011-12-07
楼主QQ留一下。。。
2 楼
eryk
2010-12-21
weishens 写道
其他数据楼主有吗
http://bbs.hadoopor.com/ 这个论坛里有个网址可以下载所有数据,你找找
1 楼
weishens
2010-12-20
其他数据楼主有吗
发表评论
-
apache hadoop 2
2012-06-14 00:54 1167apache hadoop 2.x 是在1.x版本上做了重 ... -
hadoop乱码
2011-12-12 14:36 2034文件存入hadoop出现乱码,尤其是在windows下的c ... -
Partitioner, SortComparator and GroupingComparator in Hadoop
2011-12-12 14:15 1318hadoop 0.20.2 api里面,作业被重新定义 ... -
HDFS Federation设计动机与基本原理
2011-12-06 10:50 1288HDFS Federation是Hadoop最新发布版本H ... -
Apache Hadoop 0.23 MapReduce 2.0 (MRv2 or YARN) 介绍
2011-12-05 15:27 2705MapReduce 在hadoop 0.23版本中经历了一次大 ... -
Apache Hadoop 0.23 HDFS Federation介绍
2011-12-04 23:31 2857HDFS Federation 为了 ... -
读hadoop0.23源码(1):Job
2011-11-23 10:47 1217每次配置job的时候,最后一步总是 System.ex ... -
MapReduce名词解释
2011-11-08 10:23 1487在网上收集了一些mapreduce中常用的一些名词的解释, ... -
hadoop问题汇总
2011-11-02 09:39 11051.系统时钟。zookeeper会根据系统时钟判断两台机器多久 ... -
进程间通信IPC、LPC、RPC
2011-09-06 11:20 982进程间通信(IPC,I ... -
hadoop的一个恶心错误
2011-09-02 10:17 916今早机器被网管重启了,启动hadoop发现节点都启动不了 s ... -
Hadoop的配置类 Configuration
2011-08-04 14:11 1968Hadoop的配置类是由资源指定 ... -
hadoop错误:"failed to report status for 600 seconds"
2011-07-19 14:39 2692<property> <name ... -
hadoop/mapred 优化方法
2011-07-14 08:30 1163从三个方面着手优化 : 1. hadoop配置 2. ... -
Hadoop传递参数的方法总结
2011-07-07 14:39 3208写MapReduce程序通常要传递各种各样的参数,选择合 ... -
hadoop hdfs的一些用法
2011-07-04 09:25 1462Example 3-1. Displaying files f ... -
Changes of Hadoop 0.20笔记
2011-07-01 13:21 1109最近学习hadoop 0.20.1,网上找到一篇文章《Wh ... -
hadoop0.18.3 到 0.20.2
2011-07-01 13:10 1804以前用的是0.18.3,现在改用0.20.2,結果发现ma ... -
自定义hadoop map/reduce输入文件切割InputFormat
2011-07-01 11:17 2480hadoop会 ... -
Hadoop开发常用的InputFormat和OutputFormat
2011-07-01 11:02 1518Hadoop中的Map Reduce框架依赖InputFo ...
相关推荐
第1章 初识Hadoop 数据!数据! 数据存储与分析 与其他系统相比 关系型数据库管理系统 网格计算 志愿计算 1.3.4 Hadoop 发展简史 Apache Hadoop和Hadoop生态圈 第2章 关于MapReduce 一个气象数据...
《Hadoop权威指南》第三版是一本深度剖析Hadoop生态系统的经典著作,旨在帮助读者从基础知识到高级技术全面掌握这个大数据处理平台。Hadoop作为开源的分布式计算框架,以其高可扩展性和容错性,成为了大数据时代的...
第二版的《Hadoop权威指南》主要覆盖了Hadoop 1.x的时代,这是Hadoop发展的初期阶段。在这一版本中,作者详细介绍了Hadoop的基本架构,包括HDFS(Hadoop分布式文件系统)和MapReduce。HDFS是Hadoop的核心组件,用于...
本文带来的资源是hadoop权威指南第四版中文版,适合hadoop深入学习
《Hadoop权威指南》第四版是Hadoop领域的经典著作,由Tom White撰写,该书深入浅出地介绍了Hadoop生态系统的核心技术和应用场景。这本书对于想要理解、学习和掌握Hadoop技术的人来说,具有极高的参考价值。 Hadoop...
### Hadoop权威指南第三版知识点总结 #### 一、Hadoop概述 - **定义与背景**:Hadoop是一个能够对大量数据进行分布式处理的软件框架。它由Apache基金会开发维护,旨在提供高可靠性、高效性及可扩展性的数据处理...
绝对第四版!绝对中文!绝对完整!绝对第四版!绝对中文!绝对完整! Hadoop权威指南 大数据 第四版 修订版&升级版 中文版 pdf格式。Tom White 著,王海 等译,清华大学出版社,最新第4版。
《Hadoop权威指南4》是Hadoop领域的一本经典著作,深入浅出地介绍了这个分布式计算框架的核心概念、设计原理以及实际操作。这本书是许多开发者和数据工程师学习Hadoop的首选资料,而附带的源码则为读者提供了更直观...
《Hadoop权威指南》是大数据领域的一本经典著作,它深入浅出地介绍了Apache Hadoop这一开源分布式计算框架。Hadoop是由Doug Cutting和Mike Cafarella共同创建,最初是为了支持Google的MapReduce计算模型和Google ...
《Hadoop权威指南》中文版是全面了解和深入学习Hadoop技术的重要参考资料,它涵盖了Hadoop生态系统中的核心组件以及相关的分布式计算概念。这本书详细解析了Hadoop的设计原理、架构、安装配置、操作维护以及实际应用...
《Hadoop权威指南》是一本深入探讨大数据处理和分布式计算技术的经典著作,尤其对Hadoop生态系统的核心组件进行了详尽的阐述。这本书对于理解Hadoop集群、MapReduce编程模型以及HBase分布式数据库有着极大的帮助。接...
Hadoop权威指南 第四版 修订版&升级版 中文版 pdf格式。大家放心,绝对是中文版,不骗人。原文件很大,稍压缩了一下,页面依然非常清晰。无水印。共732页。 Tom White 著,王海 等译,清华大学出版社,2017年7月第4...
Hadoop权威指南第四版中文版,高清扫描版,有源码 本文带来的资源是hadoop权威指南第四版中文版以及配套的源码,内容以Hadoop2.x为主,包含一些hadoop的stable版本的新特性,与之前 的版本相比增加了介绍YARN , ...
Hadoop权威指南----读书笔记
在《Hadoop权威指南(第四版)》中文PDF中,读者可以了解到关于Hadoop的基础知识,如HDFS的架构、数据块的管理、NameNode和DataNode的角色以及如何进行数据读写操作。此外,书中还会详细解析MapReduce的工作原理,...
hadoop权威指南第3版是一本非常专业的Hadoop参考学习用书,该书系统阐述了Hadoop发展现状和应用,知识体系完善,内容丰富全面,对Hadoop感兴趣的朋友可以学习学习。
《Hadoop权威指南(第四版)》是一本深入解析Hadoop生态系统的经典著作,适合对大数据处理感兴趣的读者,包括开发者、架构师以及数据分析师。这本书详尽地介绍了Hadoop的核心概念、架构以及实际应用,旨在帮助读者...
《Hadoop权威指南》(第3版) 修订版是一本专门为那些想要深入理解Hadoop技术的读者准备的专业书籍。Hadoop是当前大数据处理领域的重要工具,它基于分布式计算模型,能够处理和存储海量数据。这本书以其详尽的介绍和...