第一个MapreducerDriver跑起来 -

awenhaowenchao

浏览: 72153 次
性别:
来自: 北京

最近访客更多访客>>

c_kh_zfb

maochong2009

vanber

belllab

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

第一个MapreducerDriver跑起来

博客分类：

hadoop

Hadoop Mapreduce lucene 搜索引擎 Apache

注：由Hadoop权威指南开始的

MapReducer的用途是数据的存储和分析，就像lucene一样要想有个完整的可以运行起来的搜索引擎肯定要构建索引，然后根据client端的需求进行数据分析一样。

1，Mapper

这里Mapper是一个泛型类，前两位参数为输入类型，后两位参数为输出类型(与reducer的输入类型必须对应)。当前temperatureMapper的输入Key，value的类型分别为LongWritable, Text，输出key,value类型分别为Text, IntWritable。在这里需要主义的是通过符合特定业务的逻辑对数据进行有选择的采集筛选

public class MaxTemperatureMapper extends MapReduceBase implements Mapper<LongWritable, Text, Text, IntWritable>{

@Override
public void map(LongWritable key, Text value,
OutputCollector<Text, IntWritable> output, Reporter reporter)
throws IOException {
// TODO Auto-generated method stub
String line = value.toString();
String year = line.substring(15,19);
int airTemperature = Integer.parseInt(line.substring(88,92));
System.err.println("text=" + year + " intWritable=" + airTemperature);
output.collect(new Text(year), new IntWritable(airTemperature));
}

}

2，reducer
   这里reducer的参数与上面的解释相似，这里需要对数据进行分析，也就是说于业务相关了。

public class MaxTemperatureReducer extends MapReduceBase
implements Reducer<Text, IntWritable, Text, IntWritable>{

@Override
public void reduce(Text key, Iterator<IntWritable> values,
OutputCollector<Text, IntWritable> output, Reporter reporter)
throws IOException {
// TODO Auto-generated method stub
int maxValue = Integer.MIN_VALUE;
while(values.hasNext()){
maxValue = Math.max(maxValue, values.next().get());
}
System.err.println("key= " + key + " maxValue=" + maxValue);
output.collect(key, new IntWritable(maxValue));

}

}

3，driver
public int run(String[] args) throws Exception {
// TODO Auto-generated method stub
if(args.length != 2){
System.err.printf("Usage: %s[generic options] <input> <output>\n", getClass().getSimpleName());
}
JobConf conf = new JobConf(this.getConf(), this.getClass());
                //必须为目录，文件系统会到相应的目录读取数据，但是目录不能递归
FileInputFormat.addInputPath(conf, new Path(args[0]));
                //必须为目录，且不能存在由hadoop生成，recuder声称的数据会保存在特定规则文件中
FileOutputFormat.setOutputPath(conf, new Path(args[1]));

conf.setOutputKeyClass(Text.class);
conf.setOutputValueClass(IntWritable.class);

conf.setMapperClass(MaxTemperatureMapper.class);
conf.setCombinerClass(MaxTemperatureReducer.class);
conf.setReducerClass(MaxTemperatureReducer.class);

JobClient.runJob(conf);

return 0;
}

public static void main(String [] args)throws Exception{
int exitCode = ToolRunner.run(new MaxTemperatureDriver(), args);
System.exit(exitCode);
}

运行的时候将class文件拷贝到hadoop_home目录下，然后在命令行运行
$hadoop ***.***.Map*Driver -fs fs:/// -jt local in out
以上表示在本地文件系统（当然使用HDFS也是可以的）模式下，运行Mpa*Driver，读取目录in中的文件，将结果数据保存到out（out目录由hadoop生成，否则会报告fileExist错误）目录中

hadoop com.awen.mapreduce.MaxTemperatureDriver -fs file:/// -jt local in out
当然以上命令也可以有另一种形式：就是通过hadoop *** -conf ***命令覆盖configuration

out目录存在的话：
Exception in thread "main" org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory file:/opt/hadoop-0.20.2/out already exists

下面将文件系统修改为hdfs文件系统
首先从本地文件系统中将数据拷贝到hdfs系统中的当前用户下的in目下的temperature文件中
hadoop fs -copyFromLocal /opt/hadoop*/in/temperature in/temperature

运行
hadoop com.awen.mapreduce.MaxTemperatureDriver in out

这次会发现在本地伪分布式的模式下用hdfs文件系统的速度运行起来比本地文件系统要满很多很多……那么这个问题只能在HDFS部分分析了，呵呵

分享到：

HDFS | Ext.get()与Ext.fly()有什么不同

2010-08-15 14:04
浏览 1479
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

基于STM32单片机的激光雕刻机控制系统设计-含详细步骤和代码: 内容概要：本文详细介绍了基于STM32单片机的激光雕刻机控制系统的设计。系统包括硬件设计、软件设计和机械结构设计，主要功能有可调节激光功率大小、改变雕刻速率、手动定位、精确雕刻及切割。硬件部分包括STM32最小系统、步进电机驱动模块、激光发生器控制电路、人机交互电路和串口通信电路。软件部分涉及STM32CubeMX配置、G代码解析、步进电机控制、激光功率调节和手动定位功能的实现。适合人群：对嵌入式系统和激光雕刻机感兴趣的工程师和技术人员。使用场景及目标：① 适用于需要高精度激光雕刻的应用场合；② 为开发类似的激光雕刻控制系统提供设计参考。阅读建议：本文提供了详细的硬件和软件设计方案，读者应结合实际应用场景进行理解，重点关注电路设计和代码实现。

白色简洁风格的前端网站模板下载.zip: 白色简洁风格的前端网站模板下载.zip

HarmonyException如何解决.md: HarmonyException如何解决.md

sdfsdfdsfsdfs222: sdfsdfdsfsdfs222

(177373454)html+css+js学习代码.zip: html+css+js学习代码html+css+js学习代码html+css+js学习代码 html+css+js学习代码html+css+js学习代码html+css+js学习代码 html+css+js学习代码html+css+js学习代码html+css+js学习代码 html+css+js学习代码html+css+js学习代码html+css+js学习代码 html+css+js学习代码html+css+js学习代码html+css+js学习代码 html+css+js学习代码html+css+js学习代码html+css+js学习代码 html+css+js学习代码html+css+js学习代码html+css+js学习代码 html+css+js学习代码html+css+js学习代码html+css+js学习代码 html+css+js学习代码html+css+js学习代码html+css+js学习代码 html+css+js学习代码html+css+js学习代码html+css+js学习代码 html+css+js学习代码html+css+js学习代码html+css+j

usbgps2.apk: usbgps2.apk

白色简洁风格的家居建材网站模板下载.zip: 白色简洁风格的家居建材网站模板下载.zip

EventEmitError解决办法.md: EventEmitError解决办法.md

白色简洁风格的工艺品展览企业网站源码下载.zip: 白色简洁风格的工艺品展览企业网站源码下载.zip

matlab调制解调 OFDM OTFS 16qam qpsk ldpc turbo在高斯白噪声，频率选择性衰落信道下的误比特率性能仿真，matlab代码 OFDM simulink 包括添加保: matlab调制解调 OFDM OTFS 16qam qpsk ldpc turbo在高斯白噪声，频率选择性衰落信道下的误比特率性能仿真，matlab代码 OFDM simulink 包括添加保护间隔（cp），信道均衡(ZF MMSE MRC MA LMSEE) 代码每行都有注释，适用于学习，附带仿真说明，完全不用担心看不懂

build(1).gradle: build(1).gradle

贴标飞达sw16全套技术资料100%好用.zip: 贴标飞达sw16全套技术资料100%好用.zip

其实这就是历年摘出来的: 其实这就是历年摘出来的

地理遥感图像区域合并分割的大规模高效算法研究: 内容概要：本文针对大规模高分辨率遥感图像的处理问题，提出了一种基于图像分块的可扩展区域合并分割框架。传统的图像分块方法会导致分块边界上的伪影，影响最终结果。为解决这一问题，文中定义了稳定性边缘的概念，并给出了其数学表达，以确保分割结果与不分块时相同。此外，文章还介绍了一种高效的框架实现方法，用于在资源受限的设备上处理大型图像。适合人群：从事遥感图像处理、计算机视觉及地理信息系统相关领域的研究人员和技术人员。使用场景及目标：适用于需要处理大规模高分辨率遥感图像的应用场景，如环境监测、自然资源管理等。主要目标是提供一种能够高效处理大规模图像同时保持分割质量的方法。其他说明：实验结果表明，所提出的算法不仅能够避免分块边界的伪影，而且能够在不同尺度下获得与不分块处理相同的分割结果。

白色简洁风格的手机图片展示博客网站模板.rar: 白色简洁风格的手机图片展示博客网站模板.rar

白色简洁风格的外科医疗整站网站源码下载.zip: 白色简洁风格的外科医疗整站网站源码下载.zip

基于python知识图谱医疗领域问答系统实现源码+使用说明（毕业设计）: 基于python知识图谱医疗领域问答系统实现源码+使用说明（毕业设计），本资源中的源码都是经过本地编译过可运行的，评审分达到98分，资源项目的难度比较适中，内容都是经过助教老师审定过的能够满足学习、毕业设计、期末大作业和课程设计使用需求，如果有需要的话可以放心下载使用。基于python知识图谱医疗领域问答系统实现源码+使用说明（毕业设计）基于python知识图谱医疗领域问答系统实现源码+使用说明（毕业设计）基于python知识图谱医疗领域问答系统实现源码+使用说明（毕业设计）基于python知识图谱医疗领域问答系统实现源码+使用说明（毕业设计）基于python知识图谱医疗领域问答系统实现源码+使用说明（毕业设计）基于python知识图谱医疗领域问答系统实现源码+使用说明（毕业设计）基于python知识图谱医疗领域问答系统实现源码+使用说明（毕业设计）基于python知识图谱医疗领域问答系统实现源码+使用说明（毕业设计）基于python知识图谱医疗领域问答系统实现源码+使用说明（毕业设计）基于python知识图谱医疗领域问答系统实现源码+使用说明（毕业设计）基于python知识图谱医

在线式缠绕膜机自动覆膜缠绕机sw16全套技术资料100%好用.zip: 在线式缠绕膜机自动覆膜缠绕机sw16全套技术资料100%好用.zip

.archivetemp阅读天数.py: .archivetemp阅读天数.py

最近访客 更多访客>>