使用MultipleOutputFormat将数据写到不同文件中

chengjianxiaoxue

浏览: 1319839 次
性别:
来自: 北京

最近访客更多访客>>

liu_shui8

happy2012

nddht

yhtppp

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hadoop1

0 引子：

目的：将文件内容在进行map-reduce处理后，将结果写到不同的文件中(可以给不同文件重命名，取代默认生成的文件名)

1 代码： 使用老API得到如上目的(新的好像不知道怎么写...)

package outputformat;

import java.io.IOException;
import java.net.URI;
import java.util.Iterator;


import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.FileInputFormat;
import org.apache.hadoop.mapred.FileOutputFormat;
import org.apache.hadoop.mapred.InputFormat;
import org.apache.hadoop.mapred.JobClient;
import org.apache.hadoop.mapred.JobConf;
import org.apache.hadoop.mapred.MapReduceBase;
import org.apache.hadoop.mapred.Mapper;
import org.apache.hadoop.mapred.OutputCollector;
import org.apache.hadoop.mapred.Reducer;
import org.apache.hadoop.mapred.Reporter;
import org.apache.hadoop.mapred.TextOutputFormat;
import org.apache.hadoop.mapred.lib.MultipleOutputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.util.Progressable;

/**
 * 老API下 wordcount写法
 * @author zm
 *
 */
public class MyMultipleOutputFormatApp {
	private static final String INPUT_PATH = "hdfs://master:9000/hello";
	private static final String OUT_PATH = "hdfs://master:9000/out";

	public static void main(String[] args) throws Exception{
		// 定义conf
		Configuration conf = new Configuration();
		final FileSystem filesystem = FileSystem.get(new URI(OUT_PATH), conf);
		if(filesystem.exists(new Path(OUT_PATH))){
			filesystem.delete(new Path(OUT_PATH), true);
		}
		// 使用老API定义job任务
		final JobConf job = new JobConf(conf , MyMultipleOutputFormatApp.class);
		job.setJarByClass(MyMultipleOutputFormatApp.class);
		// 指定输入文件路径
		FileInputFormat.setInputPaths(job, INPUT_PATH);
		// 定义map
		job.setMapperClass(MyMapper.class);
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(LongWritable.class);
		// 定义reduce
		job.setReducerClass(MyReducer.class);
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(LongWritable.class);
		// 定义OutputFormat
		job.setOutputFormat(MyMultipleFilesTextOutputFormat.class);
		FileOutputFormat.setOutputPath(job, new Path(OUT_PATH));
		
		JobClient.runJob(job);
	}
	
	public static class MyMapper extends MapReduceBase implements Mapper<LongWritable, Text, Text, LongWritable>{
			@Override
			public void map(LongWritable key, Text value,
				OutputCollector<Text, LongWritable> output, Reporter reporter)
				throws IOException {
				final String line = value.toString();
				final String[] splited = line.split("\t");
				
				for (String word : splited) {
					output.collect(new Text(word), new LongWritable(1));
				}
		};
	}
	
	//map产生的<k,v>分发到reduce的过程称作shuffle
	public static class MyReducer extends MapReduceBase implements  Reducer<Text, LongWritable, Text, LongWritable>{
		@Override
		public void reduce(Text key, Iterator<LongWritable> values,
				OutputCollector<Text, LongWritable> output, Reporter reporter)
				throws IOException {
				long count = 0L;
				// 老API下 使用while进行迭代
				while(values.hasNext()) {
					LongWritable times = values.next();
					count += times.get();
				}
				output.collect(key, new LongWritable(count));
		};
	}
	
	// 此类继承MultipleOutputFormat的主要目的是----> 重写 生成输出文件文件名的方法
	// 和自定义OutputFormat的区别在于， 自定义OutputFormat 需要重写自身 并且需要重写 RecordWriter， 而继承RecordWriter仅仅需要将父类的方法进行扩展 其余工作仍交给hadoop的输出部门来做
	public static class MyMultipleFilesTextOutputFormat extends MultipleOutputFormat<Text, LongWritable>{

		// 明确定义使用哪个 recordwriter类
		@Override
		protected org.apache.hadoop.mapred.RecordWriter<Text, LongWritable> getBaseRecordWriter(
				FileSystem fs, JobConf job, String name, Progressable progress)
				throws IOException {
			final TextOutputFormat<Text, LongWritable> textOutputFormat = new TextOutputFormat<Text, LongWritable>();
			return textOutputFormat.getRecordWriter(fs, job, name, progress);
		}
		
		
		// 重写方法， 将生成输出文件文件名的方法进行重写
		@Override
		protected String generateFileNameForKeyValue(Text key,
				LongWritable value, String name) {
			//输出的文件名就是k3的值
			final String keyString = key.toString();
			if(keyString.startsWith("hello")) {
				return "hello";
			}else {
				return keyString;
			}
		}
		
	}
}

2 说明：

和自定义OutputFormat 文章相比，

自定义OutputFormat 需要重写自身，并且需要重写 RecordWriter，在自定义OutputFormat中显示指定输出文件名

而本例中，通过继承RecordWriter仅仅需要将父类的方法generateFileNameForKeyValue进行扩展，

其余写出工作仍交给hadoop的输出部门来做。

3 输出结果如下：

[root@master hadoop]# hadoop fs -lsr /

-rw-r--r--   3 zm supergroup          8 2014-12-04 05:10 /out/hello
-rw-r--r--   3 zm supergroup          5 2014-12-04 05:10 /out/me
-rw-r--r--   3 zm supergroup          6 2014-12-04 05:10 /out/you


[root@master hadoop]# hadoop fs -text /out/me
Warning: $HADOOP_HOME is deprecated.

me      1
[root@master hadoop]# hadoop fs -text /out/you
Warning: $HADOOP_HOME is deprecated.

you     1
[root@master hadoop]# hadoop fs -text /out/hello
Warning: $HADOOP_HOME is deprecated.

hello   2

分享到：

hadoop 计数器 Counter | 自定义OutputFormat

2014-12-04 21:23
浏览 4589
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hadoop mapreduce中使用MultipleOutputFormat的多文件输出: Hadoop MapReduce 中使用 MultipleOutputFormat 实现多文件输出 Hadoop 默认的输出格式是 TextOutputFormat，输出文件名不可定制。从 Hadoop 0.19.X 开始，Hadoop 提供了一个 org.apache.hadoop.mapred.lib....

大数据与云计算培训学习资料 Hadoop的MapReduce中多文件输出共9页.pdf: 然而，在某些场景下，如需要将不同类型的输出数据分别存储到不同的文件中，单个文件的输出方式就显得不够灵活。在Hadoop 0.19.x版本中，提供了一个名为`MultipleOutputFormat`的类，它允许MapReduce任务输出多个...

Hadoop的MapReduce中多文件输出.pdf: 在 write 方法中，我们首先需要获取当前的输出流，然后将 Key 和 Value 转化为字节，并写入到输出流中。最后，我们需要Flush 输出流，以确保数据被正确写入。 ```java public class LineRecordWriter, V> extends ...

Hadoop MapReduce多输出详细介绍: Hadoop MapReduce多输出的功能主要由MultipleOutputFormat类及其相关类实现，使得开发者可以在Map和Reduce阶段分别控制输出的数据集，将数据分散存储到不同的输出文件中。在默认情况下，Hadoop MapReduce的输出...

AI从头到脚详解如何创建部署Azure Web App的OpenAI项目源码: 【AI】从头到脚详解如何创建部署Azure Web App的OpenAI项目源码

人脸识别_卷积神经网络_CNN_ORL数据库_身份验证_1741779511.zip: 人脸识别项目实战

人工智能-人脸识别代码: 人工智能-人脸识别代码，采用cnn的架构识别代码

汽车配件制造业企业信息化整体解决方案.pptx: 汽车配件制造业企业信息化整体解决方案

短期风速预测模型，IDBO-BiTCN-BiGRU-Multihead-Attention IDBO是，网上复现评价指标：R方、MAE、MAPE、RMSE 附带测试数据集运行（风速数据）提示：在: 短期风速预测模型，IDBO-BiTCN-BiGRU-Multihead-Attention IDBO是，网上复现评价指标：R方、MAE、MAPE、RMSE 附带测试数据集运行（风速数据）提示：在MATLAB2024a上测试正常 ,短期风速预测模型; IDBO-BiTCN-BiGRU-Multihead-Attention; 评价指标: R方、MAE、MAPE、RMSE; 复现; 测试数据集; MATLAB 2024a,短期风速预测模型：IDBO-BiTCN-BiGRU-Attention集成模型

手势识别_数据融合_运动融合帧_Pytorch实现_1741857761.zip: 手势识别项目实战

智慧园区IBMS可视化管理系统建设方案PPT(61页).pptx: 在智慧园区建设的浪潮中，一个集高效、安全、便捷于一体的综合解决方案正逐步成为现代园区管理的标配。这一方案旨在解决传统园区面临的智能化水平低、信息孤岛、管理手段落后等痛点，通过信息化平台与智能硬件的深度融合，为园区带来前所未有的变革。首先，智慧园区综合解决方案以提升园区整体智能化水平为核心，打破了信息孤岛现象。通过构建统一的智能运营中心（IOC），采用1+N模式，即一个智能运营中心集成多个应用系统，实现了园区内各系统的互联互通与数据共享。IOC运营中心如同园区的“智慧大脑”，利用大数据可视化技术，将园区安防、机电设备运行、车辆通行、人员流动、能源能耗等关键信息实时呈现在拼接巨屏上，管理者可直观掌握园区运行状态，实现科学决策。这种“万物互联”的能力不仅消除了系统间的壁垒，还大幅提升了管理效率，让园区管理更加精细化、智能化。更令人兴奋的是，该方案融入了诸多前沿科技，让智慧园区充满了未来感。例如，利用AI视频分析技术，智慧园区实现了对人脸、车辆、行为的智能识别与追踪，不仅极大提升了安防水平，还能为园区提供精准的人流分析、车辆管理等增值服务。同时，无人机巡查、巡逻机器人等智能设备的加入，让园区安全无死角，管理更轻松。特别是巡逻机器人，不仅能进行360度地面全天候巡检，还能自主绕障、充电，甚至具备火灾预警、空气质量检测等环境感知能力，成为了园区管理的得力助手。此外，通过构建高精度数字孪生系统，将园区现实场景与数字世界完美融合，管理者可借助VR/AR技术进行远程巡检、设备维护等操作，仿佛置身于一个虚拟与现实交织的智慧世界。最值得关注的是，智慧园区综合解决方案还带来了显著的经济与社会效益。通过优化园区管理流程，实现降本增效。例如，智能库存管理、及时响应采购需求等举措，大幅减少了库存积压与浪费；而设备自动化与远程监控则降低了维修与人力成本。同时，借助大数据分析技术，园区可精准把握产业趋势，优化招商策略，提高入驻企业满意度与营收水平。此外，智慧园区的低碳节能设计，通过能源分析与精细化管理，实现了能耗的显著降低，为园区可持续发展奠定了坚实基础。总之，这一综合解决方案不仅让园区管理变得更加智慧、高效，更为入驻企业与员工带来了更加舒适、便捷的工作与生活环境，是未来园区建设的必然趋势。

相亲交友系统源码 V10.5支持婚恋相亲M红娘系统.zip: 相亲交友系统源码 V10.5支持婚恋相亲、媒婆返利、红娘系统、商城系统等等这款交友系统功能太多了，适合婚恋相亲，还有媒婆婚庆等等支持 PC和 H5还有小程序，可封装红年、APP，里面带安装教程

单片机也能玩双核之你想不到c技巧系列-嵌入式实战（资料+视频教程）: 本资源《单片机也能玩双核之你想不到的C技巧系列——嵌入式实战》涵盖双核单片机开发、C语言高级技巧、嵌入式系统优化等核心内容，结合实战案例与视频教程，帮助开发者深入理解并掌握高效编程技巧。适用人群：适合嵌入式开发工程师、单片机开发者、电子信息相关专业学生，以及希望提升 C语言编程能力和嵌入式项目经验的技术人员。能学到什么：双核单片机开发思路，提高并行处理能力。 C语言高级技巧，提升代码优化与执行效率。嵌入式系统调试方法，掌握实际项目中的调试策略。实战案例解析，学习如何在实际工程中应用双核技术。阅读建议：建议先学习基础知识，再结合示例代码与视频教程进行实操，重点关注代码优化、调试技巧与双核应用模式，通过实战演练提高嵌入式开发能力。

计算机视觉_OpenCV_人脸识别_成本节约检测方案_1741779495.zip: 人脸识别项目源码实战

`机器学习_深度学习_Keras_教程用途`.zip: 人脸识别项目源码实战

地铁网络_Dijkstra_最短路径_查询工具_1741862725.zip: c语言学习

红外光伏缺陷目标检测模型，YOLOv8模型基于红外光伏缺陷目标检测数据集训练，做了必要的数据增强处理，以达到缺陷类别间的平衡可检测大面积热斑，单一热斑，二极管短路和异常低温四类缺陷测试集指标如: 红外光伏缺陷目标检测模型，YOLOv8模型基于红外光伏缺陷目标检测数据集训练，做了必要的数据增强处理，以达到缺陷类别间的平衡可检测大面积热斑，单一热斑，二极管短路和异常低温四类缺陷测试集指标如图所示 ,核心关键词：红外光伏缺陷目标检测模型; YOLOv8模型; 数据增强处理; 缺陷类别平衡; 大面积热斑; 单一热斑; 二极管短路; 异常低温。,基于YOLOv8的红外光伏缺陷检测模型

基于PLC的自动浇花控制系统西门子1200PLC博途仿真，提供HMI画面，接线图，IO分配表，演示视频，简单讲解视频博图15.1及以上版本均可使用 ,核心关键词： PLC自动浇花控制系统; 西: 基于PLC的自动浇花控制系统西门子1200PLC博途仿真，提供HMI画面，接线图，IO分配表，演示视频，简单讲解视频博图15.1及以上版本均可使用 ,核心关键词： PLC自动浇花控制系统; 西门子1200PLC博途仿真; HMI画面; 接线图; IO分配表; 演示视频; 简单讲解视频; 博图15.1及以上版本。,基于PLC的自动浇花系统：西门子1200PLC博途仿真实践教程

智慧园区标准化综合解决方案PPT(60页).pptx: 在智慧园区建设的浪潮中，一个集高效、安全、便捷于一体的综合解决方案正逐步成为现代园区管理的标配。这一方案旨在解决传统园区面临的智能化水平低、信息孤岛、管理手段落后等痛点，通过信息化平台与智能硬件的深度融合，为园区带来前所未有的变革。首先，智慧园区综合解决方案以提升园区整体智能化水平为核心，打破了信息孤岛现象。通过构建统一的智能运营中心（IOC），采用1+N模式，即一个智能运营中心集成多个应用系统，实现了园区内各系统的互联互通与数据共享。IOC运营中心如同园区的“智慧大脑”，利用大数据可视化技术，将园区安防、机电设备运行、车辆通行、人员流动、能源能耗等关键信息实时呈现在拼接巨屏上，管理者可直观掌握园区运行状态，实现科学决策。这种“万物互联”的能力不仅消除了系统间的壁垒，还大幅提升了管理效率，让园区管理更加精细化、智能化。更令人兴奋的是，该方案融入了诸多前沿科技，让智慧园区充满了未来感。例如，利用AI视频分析技术，智慧园区实现了对人脸、车辆、行为的智能识别与追踪，不仅极大提升了安防水平，还能为园区提供精准的人流分析、车辆管理等增值服务。同时，无人机巡查、巡逻机器人等智能设备的加入，让园区安全无死角，管理更轻松。特别是巡逻机器人，不仅能进行360度地面全天候巡检，还能自主绕障、充电，甚至具备火灾预警、空气质量检测等环境感知能力，成为了园区管理的得力助手。此外，通过构建高精度数字孪生系统，将园区现实场景与数字世界完美融合，管理者可借助VR/AR技术进行远程巡检、设备维护等操作，仿佛置身于一个虚拟与现实交织的智慧世界。最值得关注的是，智慧园区综合解决方案还带来了显著的经济与社会效益。通过优化园区管理流程，实现降本增效。例如，智能库存管理、及时响应采购需求等举措，大幅减少了库存积压与浪费；而设备自动化与远程监控则降低了维修与人力成本。同时，借助大数据分析技术，园区可精准把握产业趋势，优化招商策略，提高入驻企业满意度与营收水平。此外，智慧园区的低碳节能设计，通过能源分析与精细化管理，实现了能耗的显著降低，为园区可持续发展奠定了坚实基础。总之，这一综合解决方案不仅让园区管理变得更加智慧、高效，更为入驻企业与员工带来了更加舒适、便捷的工作与生活环境，是未来园区建设的必然趋势。

大型集团用户画像系统化标准化数字化用户主数据管理项目规划方案.pptx: 大型集团用户画像系统化标准化数字化用户主数据管理项目规划方案

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

使用MultipleOutputFormat将数据写到不同文件中

评论

发表评论

相关推荐

hadoop fs命令详解链接

使用 MultipleOutputs设置多路径输出

自定义DBInputFormat,抽取mysql表存储在分库中

64位linux系统编译hadoop源码 native库

YARN内存使用优化配置

mapreduce-chain TODO

hadoop mr实现单表列转行--mr system.out数据位置

google mapreduce杂谈

gfs杂谈

hadoop调度算法

hadoop优化0

hadoop压缩

hadoop博客整理

hadoop fsimage edits关系

hadoop合并小文件的一些说说

ma-hadoop脚本命令 hadoop-hadoop dfs-hdfs dfs区别

ma-hadoop1 集群内存设置

ma-hadoop集群-配置文件-进程地址端口-和hive hbase关系

ma-大数据HDFS

ma-大数据mapreduce思想和数据切割

最近访客更多访客>>