hadoop reduce端join ---> 打标记

chengjianxiaoxue

浏览: 1318857 次
性别:
来自: 北京

最近访客更多访客>>

liu_shui8

happy2012

nddht

yhtppp

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hadoop1

0 引子：

读取两个文件:

hello：

1,zhangsan
2,lisi
3,wangwu

hello1:

1,45
2,56
3,89

最后实现如下输出:

zhangsan,45
lisi,56
wangwu,89

0.1）从两个文件中得到数据，在map端根据文件名做记录，后在reduce上实现输出， 因为数据在不同文件中，因此必须也只能在reduce端做join操作，在join之前需要依赖map端做的针对文件来源做标记

1 代入如下，主要看自定义map和reduce的写法

package join;

import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.Reducer.Context;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

/**
 *
 */
public class MapJoinApp {

	static String FILE_ROOT = "hdfs://master:9000/";
	static String FILE_INPUT = "hdfs://master:9000/files";
	static String FILE_OUTPUT = "hdfs://master:9000/out";
	public static void main(String[] args) throws IOException, URISyntaxException, InterruptedException, ClassNotFoundException {
		
		Configuration conf = new Configuration();
		FileSystem fileSystem = FileSystem.get(new URI(FILE_ROOT),conf);
		Path outpath = new Path(FILE_OUTPUT);
		if(fileSystem.exists(outpath)){
			fileSystem.delete(outpath, true);
		}
		
		// 0 定义干活的人
		Job job = new Job(conf);
		// 1.1 告诉干活的人 输入流位置     读取hdfs中的文件。每一行解析成一个<k,v>。每一个键值对调用一次map函数
		FileInputFormat.setInputPaths(job, FILE_INPUT);
		// 指定如何对输入文件进行格式化，把输入文件每一行解析成键值对
		job.setInputFormatClass(TextInputFormat.class);
		
		//1.2 指定自定义的map类
		job.setMapperClass(MyMapper.class);
		job.setMapOutputKeyClass(LongWritable.class);
		job.setMapOutputValueClass(Text.class);
		
		//1.3 分区
		job.setNumReduceTasks(1);
		
		//1.4 TODO 排序、分组    目前按照默认方式执行
		//1.5 TODO 规约
		
		//2.2 指定自定义reduce类
		job.setReducerClass(MyReducer.class);
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(Text.class);
		
		//2.3 指定写出到哪里
		FileOutputFormat.setOutputPath(job, outpath);
		job.setOutputFormatClass(TextOutputFormat.class);
		
		// 让干活的人干活s
		job.waitForCompletion(true);
		
	}
	
}

/**
 *
 */
class MyMapper extends Mapper<LongWritable, Text, LongWritable, Text>{
	String line = "";
	@Override
	protected void map(LongWritable k1, Text v1, Context context)
			throws IOException, InterruptedException {
		FileSplit split = (FileSplit)context.getInputSplit();
		String filename = split.getPath().getName(); // hello or  hello1 文件名
		//String pathStr = split.getPath().toString();// hdfs://master:9000/files/hello or hdfs://master:9000/files/hello1
		System.out.println(filename);
		line = v1.toString();// 逐行执行 最后一行就是文件的最后一样内容
		String[] v1s = v1.toString().split(",");
		String v2Str = "";
		if("hello".equals(filename)){ // hello文件内容格式为： 1	zhangsan
			v2Str = "#" + v1s[1];
			System.out.println("hello : " +  v2Str);
		}
		if("hello1".equals(filename)){ // hello1文件内容格式为： 1	45
			v2Str = "*" + v1s[1];
			System.out.println("hello1 : " +  v2Str);
		}
		//for(String word : v1s){
			context.write(new LongWritable(Long.parseLong(v1s[0])), new Text(v2Str));
		//}
	}
	
	
}

/**
 */
class MyReducer extends Reducer<LongWritable, Text, Text, Text>{

	protected void reduce(LongWritable k2, Iterable<Text> v2s, Context ctx)
			throws IOException, InterruptedException {
		System.out.println("reduce ...");
		
		String k3Str = "";
		String v3Str = "";
		
		for(Text v2 : v2s){
			//System.out.println("k2: " + k2.get() + " v2: " + l.toString());
			if(v2.toString().startsWith("#")){
				k3Str = v2.toString().substring(1, v2.toString().length());
			}
			if(v2.toString().startsWith("*")){
				v3Str = v2.toString().substring(1, v2.toString().length());
			}
		}
		
		ctx.write(new Text(k3Str), new Text(v3Str));
	}
	
}

2 结果：

[root@master local]# hadoop fs -text /out/part-r-00000
Warning: $HADOOP_HOME is deprecated.

zhangsan        45
lisi    56
wangwu  89

分享到：

hadoop map join 思路待补充 | 学习hadoop遇到的错误

2014-12-11 16:19
浏览 1153
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

MapReduceJoinExample:一个reduce join实现的例子: MapReduceJoinExample 一个reduce join实现的例子运行示例hadoop jar MapReduceJoinExample-1.0-SNAPSHOT-job.jar s3://dags-public/wikistats/s3://dags-public/dbpedia/ /intermediate- date +%Y-%m-%d-%H-%M-%S /...

HiveSQL解析原理.docx: - 在Reduce阶段，根据标记来判断数据来源并进行相应的Join操作。例如，假设我们要执行以下SQL查询： ```sql SELECT u.name, o.orderid FROM orders o JOIN users u ON o.uid = u.uid; ``` 在这种情况下，MapReduce...

mapreduce algorithms: - 排序经常作为测试 Hadoop 性能的标准。 - 实质上是一种 I/O 速度测试。 - 强调了 Google 文件系统 (GFS) 的实用性。 #### 搜索（Searching） **输入：** - 文件集包含多行文本。 - 要查找的搜索模式。 - 映射器...

Hive SQL 编译过程详解: 例如，在一个内连接中，Map阶段将不同表的数据分别标记，然后在Reduce阶段，依据标记判断并合并来自不同表的记录。这种方法确保了JOIN操作的正确性。 - **Group By的实现原理**：在Map阶段，Hive会将Group By字段...

基于Maxwell设计的经典280W 4025RPM高效率科尔摩根12极39槽TBM无框力矩电机：生产与学习双重应用案例,基于Maxwell设计的经典280W高转速科尔摩根TBM无框力矩电机：7615: 基于Maxwell设计的经典280W 4025RPM高效率科尔摩根12极39槽TBM无框力矩电机：生产与学习双重应用案例,基于Maxwell设计的经典280W高转速科尔摩根TBM无框力矩电机：7615系列案例解析与应用实践,基于maxwwell设计的经典280W，4025RPM 内转子科尔摩根 12极39槽 TBM无框力矩电机，7615系列。该案例可用于生产，或者学习用，（157） ,maxwell设计; 280W; 4025RPM内转子; 科尔摩根; 12极39槽TBM无框力矩电机; 7615系列; 生产/学习用。,基于Maxwell设计，高功率280W 12极39槽TBM无框力矩电机：生产与学习双用途案例

基于碳交易的微网优化模型的Matlab设计与实现策略分析,基于碳交易的微网优化模型的Matlab设计与实现探讨,考虑碳交易的微网优化模型matlab ,考虑碳交易; 微网优化模型; MATLAB;,基: 基于碳交易的微网优化模型的Matlab设计与实现策略分析,基于碳交易的微网优化模型的Matlab设计与实现探讨,考虑碳交易的微网优化模型matlab ,考虑碳交易; 微网优化模型; MATLAB;,基于Matlab的碳交易微网优化模型研究

计算机二级模拟试题1（答案版）: 二级2025模拟试题（答案版）

计算机视觉之：OpenCV项目实战 - C++基础人脸识别（源码+资料）【OpenCV + C++】: OpenCV是一个功能强大的计算机视觉库，它提供了多种工具和算法来处理图像和视频数据。在C++中，OpenCV可以用于实现基础的人脸识别功能，包括从摄像头、图片和视频中识别人脸，以及通过PCA（主成分分析）提取图像轮廓。以下是对本资源大体的介绍： 1. 从摄像头中识别人脸：通过使用OpenCV的Haar特征分类器，我们可以实时从摄像头捕获的视频流中检测人脸。这个过程涉及到将视频帧转换为灰度图像，然后使用预训练的Haar级联分类器来识别人脸区域。 2. 从视频中识别出所有人脸和人眼：在视频流中，除了检测人脸，我们还可以进一步识别人眼。这通常涉及到使用额外的Haar级联分类器来定位人眼区域，从而实现对人脸特征的更细致分析。 3. 从图片中检测出人脸：对于静态图片，OpenCV同样能够检测人脸。通过加载图片，转换为灰度图，然后应用Haar级联分类器，我们可以在图片中标记出人脸的位置。 4. PCA提取图像轮廓：PCA是一种统计方法，用于分析和解释数据中的模式。在图像处理中，PCA可以用来提取图像的主要轮廓特征，这对于人脸识别技术中的面部特征提取尤

麻雀搜索算法（SSA）自适应t分布改进版：卓越性能与优化代码注释，适合深度学习 ,自适应t分布改进麻雀搜索算法（TSSA）-卓越的学习样本，优化效果出众,麻雀搜索算法(SSA)改进-采用自适应t分: 麻雀搜索算法（SSA）自适应t分布改进版：卓越性能与优化代码注释，适合深度学习。,自适应t分布改进麻雀搜索算法（TSSA）——卓越的学习样本，优化效果出众,麻雀搜索算法(SSA)改进——采用自适应t分布改进麻雀位置（TSSA），优化后明显要优于基础SSA（代码基本每一步都有注释，代码质量极高，非常适合学习） ,TSSA（自适应t分布麻雀位置算法）；注释详尽；高质量代码；适合学习；算法改进结果优异；TSSA相比基础SSA。,自适应T分布优化麻雀搜索算法：代码详解与学习首选（TSSA改进版）

锂电池主动均衡Simulink仿真研究：多种均衡策略与电路架构的深度探讨,锂电池主动均衡与多种均衡策略的Simulink仿真研究：buckboost拓扑及多层次电路分析,锂电池主动均衡simulink: 锂电池主动均衡Simulink仿真研究：多种均衡策略与电路架构的深度探讨,锂电池主动均衡与多种均衡策略的Simulink仿真研究：buckboost拓扑及多层次电路分析,锂电池主动均衡simulink仿真四节电池基于buckboost(升降压)拓扑（还有传统电感均衡+开关电容均衡+双向反激均衡+双层准谐振均衡+环形均衡器+cuk+耦合电感）被动均衡电阻式均衡、分层架构式均衡以及分层式电路均衡，多层次电路，充放电。 ,核心关键词：锂电池; 主动均衡; Simulink仿真; 四节电池; BuckBoost拓扑; 传统电感均衡; 开关电容均衡; 双向反激均衡; 双层准谐振均衡; 环形均衡器; CUK均衡; 耦合电感均衡; 被动均衡; 电阻式均衡; 分层架构式均衡; 多层次电路; 充放电。,锂电池均衡策略研究：Simulink仿真下的多拓扑主动与被动均衡技术

S7-1500和分布式外围系统ET200MP模块数据: S7-1500和分布式外围系统ET200MP模块数据

内置式永磁同步电机无位置传感器模型：基于滑膜观测器和MTPA技术的深度探究,内置式永磁同步电机基于滑膜观测器和MTPA的无位置传感器模型研究,基于滑膜观测器和MTPA的内置式永磁同步电机无位置传感器模: 内置式永磁同步电机无位置传感器模型：基于滑膜观测器和MTPA技术的深度探究,内置式永磁同步电机基于滑膜观测器和MTPA的无位置传感器模型研究,基于滑膜观测器和MTPA的内置式永磁同步电机无位置传感器模型 ,基于滑膜观测器;MTPA;内置式永磁同步电机;无位置传感器模型,基于滑膜观测与MTPA算法的永磁同步电机无位置传感器模型

centos7操作系统下安装docker，及docker常用命令、在docker中运行nginx示例: centos7操作系统下安装docker，及docker常用命令、在docker中运行nginx示例，包括 1.设置yum的仓库 2.安装 Docker Engine-Community 3.docker使用 4.查看docker进程是否启动成功 5.docker常用命令及nginx示例 6.常见问题

服务器安装windows8.1orwindows2012r2时候找不到磁盘时的raid卡驱动: 给曙光服务器安装windows2012r2时候找不到磁盘，问厂家工程师要的raid卡驱动，内含主流大多数品牌raid卡驱动

数学建模相关主题资源2: 数学建模相关主题资源2

西门子四轴卧式加工中心后处理系统：828D至840D支持，四轴联动制造解决方案，图档处理与试看程序一应俱全 ,西门子四轴卧加后处理系统：支持828D至840D系统，四轴联动高精度制造解决方案,西门子四: 西门子四轴卧式加工中心后处理系统：828D至840D支持，四轴联动制造解决方案，图档处理与试看程序一应俱全。,西门子四轴卧加后处理系统：支持828D至840D系统，四轴联动高精度制造解决方案,西门子四轴卧加后处理，支持828D~840D系统，支持四轴联动，可制制，看清楚联系，可提供图档处理试看程序 ,核心关键词：西门子四轴卧加后处理; 828D~840D系统支持; 四轴联动; 制程; 联系; 图档处理试看程序。,西门子四轴卧加后处理程序，支持多种系统与四轴联动

MATLAB下基于列约束生成法CCG的两阶段鲁棒优化问题求解入门指南：算法验证与经典文献参考,MATLAB下基于列约束生成法CCG的两阶段鲁棒优化问题求解入门指南：算法验证与文献参考,MATLAB代码: MATLAB下基于列约束生成法CCG的两阶段鲁棒优化问题求解入门指南：算法验证与经典文献参考,MATLAB下基于列约束生成法CCG的两阶段鲁棒优化问题求解入门指南：算法验证与文献参考,MATLAB代码：基于列约束生成法CCG的两阶段问题求解关键词：两阶段鲁棒列约束生成法 CCG算法参考文档：《Solving two-stage robust optimization problems using a column-and-constraint generation method》仿真平台：MATLAB YALMIP+CPLEX 主要内容：代码构建了两阶段鲁棒优化模型，并用文档中的相对简单的算例，进行CCG算法的验证，此篇文献是CCG算法或者列约束生成算法的入门级文献，其经典程度不言而喻，几乎每个搞CCG的两阶段鲁棒的人都绕不过此篇文献 ,两阶段鲁棒;列约束生成法;CCG算法;MATLAB;YALMIP+CPLEX;入门级文献。,MATLAB代码实现：基于两阶段鲁棒与列约束生成法CCG的算法验证研究

“生热研究的全面解读：探究参数已配置的Comsol模型中的18650圆柱锂电池表现”,探究已配置参数的COMSOL模型下的锂电池生热现象：18650圆柱锂电池模拟分析,出一个18650圆柱锂电池com: “生热研究的全面解读：探究参数已配置的Comsol模型中的18650圆柱锂电池表现”,探究已配置参数的COMSOL模型下的锂电池生热现象：18650圆柱锂电池模拟分析,出一个18650圆柱锂电池comsol模型参数已配置，生热研究 ,出模型; 18650圆柱锂电池; comsol模型; 参数配置; 生热研究,构建18650电池的COMSOL热研究模型

移动端多端运行的知识付费管理系统源码，TP6+Layui+MySQL后端支持，功能丰富，涵盖直播、点播、管理全功能及礼物互动,基于UniApp跨平台开发的移动端知识付费管理系统源码：多端互通、全功能齐: 移动端多端运行的知识付费管理系统源码，TP6+Layui+MySQL后端支持，功能丰富，涵盖直播、点播、管理全功能及礼物互动,基于UniApp跨平台开发的移动端知识付费管理系统源码：多端互通、全功能齐备、后端采用TP6与PHP及Layui前端，搭载MySQL数据库与直播、点播、管理、礼物等功能的强大整合。,知识付费管理系统源码，移动端uniApp开发，app h5 小程序一套代码多端运行，后端php（tp6）+layui+MySQL，功能齐全，直播，点播，管理，礼物等等功能应有尽有 ,知识付费;管理系统源码;移动端uniApp开发;多端运行;后端php(tp6);layui;MySQL;直播点播;管理功能;礼物功能,知识付费管理平台：全功能多端运行系统源码（PHP+Layui+MySQL）

基于Python+Django+MySQL的个性化图书推荐系统：协同过滤推荐，智能部署，用户定制功能,基于Python+Django+MySQL的个性化图书推荐系统：协同过滤推荐，智能部署，用户定制功: 基于Python+Django+MySQL的个性化图书推荐系统：协同过滤推荐，智能部署，用户定制功能,基于Python+Django+MySQL的个性化图书推荐系统：协同过滤推荐，智能部署，用户定制功能,Python+Django+Mysql个性化图书推荐系统图书在线推荐系统基于用户、项目、内容的协同过滤推荐算法。帮远程安装部署一、项目简介 1、开发工具和实现技术 Python3.8，Django4，mysql8，navicat数据库管理工具，html页面，javascript脚本，jquery脚本，bootstrap前端框架，layer弹窗组件、webuploader文件上传组件等。 2、项目功能前台用户包含：注册、登录、注销、浏览图书、搜索图书、信息修改、密码修改、兴趣喜好标签、图书评分、图书收藏、图书评论、热点推荐、个性化推荐图书等功能；后台管理员包含：用户管理、图书管理、图书类型管理、评分管理、收藏管理、评论管理、兴趣喜好标签管理、权限管理等。个性化推荐功能：无论是否登录，在前台首页展示热点推荐（根据图书被收藏数量降序推荐）。登录用户，在前台首页展示个性化推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hadoop reduce端join ---> 打标记

评论

发表评论

相关推荐

hadoop fs命令详解链接

使用 MultipleOutputs设置多路径输出

自定义DBInputFormat,抽取mysql表存储在分库中

64位linux系统编译hadoop源码 native库

YARN内存使用优化配置

mapreduce-chain TODO

hadoop mr实现单表列转行--mr system.out数据位置

google mapreduce杂谈

gfs杂谈

hadoop调度算法

hadoop优化0

hadoop压缩

hadoop博客整理

hadoop fsimage edits关系

hadoop合并小文件的一些说说

ma-hadoop脚本命令 hadoop-hadoop dfs-hdfs dfs区别

ma-hadoop1 集群内存设置

ma-hadoop集群-配置文件-进程地址端口-和hive hbase关系

ma-大数据HDFS

ma-大数据mapreduce思想和数据切割

最近访客更多访客>>