自己编写接口用于获取Hadoop Job conf 信息

heipark

浏览: 2097674 次
性别:
来自: 北京

最近访客更多访客>>

chenlmnet

ninedragon

w11h22j33

lbyzx123

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hadoop

hadoop job conf xml

Hadoop Job完成后可以设置回调接口，一个自定义的URL，比如我的：

http://x.x.x.x/log/notify/stat_job/{jobId}/{jobStatus}

之后我在Servlet中可以拿到jobId，通过jobId，就可以拿到Job对象（RunningJob），代码如下：

	public static RunningJob getJobById(String jobId) {
		Configuration conf = new Configuration();
		conf.set("mapred.job.tracker", Constants.MAP_REDUCE_URL);
		JobClient client;
		try {
			client = new JobClient(new JobConf(conf));
			return client.getJob(jobId);
		} catch (IOException e) {
			throw new RuntimeException(e);
		}
	}

关键是这个RunningJob对象只可以获取jobname信息，但是无法获取我们设置的conf信息。为了解决这个问题，我写了一个jsp，放到namenode上，用于读取本地log文件，并将结果反馈给调用者。代码如下，希望对大家有帮助：

<%@ page
  contentType="text/xml; charset=UTF-8"
  import="javax.servlet.*"
  import="javax.servlet.http.*"
  import="java.io.*"
  import="java.net.URL"
  import="org.apache.hadoop.util.*"
  import="javax.servlet.jsp.JspWriter"
%><%!	
	private static final long serialVersionUID = 1L;

        public File getHistoryFile(final String jobId) {
                File dir = new File("/opt/hadoop/logs/history/done/");

                File[] files = dir.listFiles(new FilenameFilter() {
                        public boolean accept(File dir, String name) {
				if (name.indexOf(jobId) >= 0 && name.endsWith(".xml")) {
					return true;
				}
                                return false;
                        }
                });

                if (files != null && files.length > 0) {
                        return files[0];
                }
                return null;
        }

	public void printXML(JspWriter out, String jobId) throws IOException {
		FileInputStream jobFile = null;
		String[] outputKeys = { "db_id", "channel_id", "channel_name", "user_id", "user_name", "job_day", "pub_format_type", "mapred.output.dir" };
		String line = "";
		try {
			jobFile = new FileInputStream(getLogFilePath(jobId));
			BufferedReader reader = new BufferedReader(new InputStreamReader(jobFile));

			while ((line = reader.readLine()) != null) {
				for (String key : outputKeys) {
					if (!line.startsWith("<property>") || line.indexOf("<name>" + key + "</name>") >= 0) {
						out.println(line);
						break;
					}
				}
			}
		} catch (Exception e) {
			out.println("Failed to retreive job configuration for job '" + jobId + "!");
			out.println(e);
		} finally {
			if (jobFile != null) {
				try {
					jobFile.close();
				} catch (IOException e) {
				}
			}
		}
	}

	private File getLogFilePath(String jobId) {
		String logDir = System.getProperty("hadoop.log.dir");
		if (logDir == null || logDir.length() == 0) {
			logDir = "/opt/hadoop/logs/";
		}
		File logFile = new File(logDir + File.separator + jobId + "_conf.xml");
		return logFile.exists() ? logFile : getHistoryFile(jobId);
	}

%><%
  response.setContentType("text/xml");
  final String jobId = request.getParameter("jobid");
  if (jobId == null) {
    out.println("<h2>Missing 'jobid' for fetching job configuration!</h2>");
    return;
  }

  printXML(out, jobId);

%>

这里有个要点，运行中和刚完成的job xml文件放到了"/opt/hadoop/logs"下，归档的job xml放到了“/opt/hadoop/logs/history/done/”，所以要判断第一个地方找不到文件，去第二个地方找。

功能很简单，但是很有用。

--heipark

分享到：

windows下找到哪个程序占用某个端口 | （转）Java保留小数位数的N中方法

2012-04-23 14:33
浏览 5677
评论(0)
分类:企业架构
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

自己编写接口用于获取Hadoop Job conf 信息

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

自己编写接口用于获取Hadoop Job conf 信息

评论

发表评论

相关推荐

cloudera CDH5 vmware中cloudera manager报错"Internal error while querying the Host "

thrift0.9.1简单教程（包含Java服务端和Java、python客户端）

yum错误“Error in PREUN scriptlet in rpm package ”

搭建cloudera yum私服

cloudera创建私服错误一例

Cloudera Manager的Hadoop配置文件管理

修改cloudera manager管理主机名（转）

cloudera manager tasktrakcer监控状态错误

cloudera manager 4.8 添加设备DNS反向解析问题

apache kafka v0.8入门遇到问题

hadoop2.0(cdh4) fs client错误"java.io.IOException: No FileSystem for scheme: hdfe"

Hadoop Combiner的几个调用时间点

hadoop1.0中NameNode HA的妥协方案

hdaoop2.x (CDH4、5)下使用DFS Client（包含HA）

Hadoop学习指南

cloudera cdh中hadoop-client包的作用

could only be replicated to 0 nodes instead of minReplication (=1)

Hadoop Pig获取HDFS文件名

cloudera CDH5正式版（与CDH4比较）

Pig写UDF解析XML遇到一诡异错误“ClassNotFoundException”

最近访客更多访客>>