使用JobControl管理mapreduce多job依赖 -

zhenghangcx

浏览: 19231 次
性别:
来自: 北京

最近访客更多访客>>

lkl

superlxing

programmerabc

wfb0902

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

使用JobControl管理mapreduce多job依赖

博客分类：

Hadoop

Hadoop JobControl

当我们在处理mr问题的时候，有时候需求过于复杂，通过一个简单的mr无法达到目的，我们该怎么办呢？

答案是采取JobControl，直接上代码。

/**
	 * job2 依赖于 job1
	 * @param job1
	 * @param job2
	 * @param chainName
	 * @return
	 * @throws IOException
	 */
	public static int handleJobChain(Job job1 ,Job job2, String chainName) throws IOException{
		ControlledJob controlledJob1 = new ControlledJob(job1.getConfiguration());
		controlledJob1.setJob(job1);
		
		ControlledJob controlledJob2 = new ControlledJob(job2.getConfiguration());
		controlledJob2.setJob(job2);
		controlledJob2.addDependingJob(controlledJob1);
		
		JobControl jc = new JobControl(chainName);
		jc.addJob(controlledJob1);
		jc.addJob(controlledJob2);
		Thread jcThread = new Thread(jc);
		jcThread.start();
		while(true){
			if(jc.allFinished()){
				System.out.println(jc.getSuccessfulJobList());
				jc.stop();
				return 0;
			}
			if(jc.getFailedJobList().size() > 0){
				System.out.println(jc.getFailedJobList());
				jc.stop();
				return 1;
			}
		}
	}

要注意的地方就是hadoop的JobControl类实现了线程Runnable接口。我们需要实例化一个线程来让它启动。直接调用JobControl的run()方法，线程将无法结束。

分享到：

MapReduce实现reduce端join，多数据源 | 2012-04-25华为面试题（转载）

2013-03-22 15:32
浏览 6672
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

使用JobControl管理mapreduce多job依赖

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

使用JobControl管理mapreduce多job依赖

评论

发表评论

相关推荐

MultipleOutputFormat和MultipleOutputs

MapReduce实现reduce端join，多数据源

最近访客更多访客>>