- 浏览: 2097634 次
- 性别:
- 来自: 北京
文章分类
- 全部博客 (366)
- hadoop (91)
- DB (2)
- vmware (0)
- python (49)
- Java (72)
- Linux (57)
- 多线程 (2)
- hive (1)
- hbase (3)
- mongodb (5)
- Hibernate (3)
- nodejs (1)
- 模式与重构 (1)
- 持续集成CI (4)
- Mysql (2)
- chorme (1)
- 软件开发 (0)
- 敏捷 (5)
- maven (3)
- windows (7)
- 测试驱动 (1)
- scala (3)
- Jetty (0)
- android (1)
- eclipse (1)
- 设计模式 (1)
- 面向对象设计 (2)
- oracle (3)
- cassandra (15)
- pig (3)
- rails (1)
- redis (4)
- ruby (1)
- storm (0)
- 实时运算 (3)
- scribe (1)
- hadoop源码 (3)
- cassandra jna (1)
- Kafka (2)
- Sublime (2)
- C++ (2)
- C (1)
- 版本控制 (1)
- 服务器 (1)
- docker (0)
- flink (1)
最新评论
-
伍大都督:
解释太到位了,感谢分享
理解Linux系统中的load average(图文版) -
rfjian123:
非常感谢,用你的方法解决了问题。
Server sent unexpected return value (403 Forbidden) in response to OPTIONS -
yuhaifei12:
今天遇到同样的问题了。设置的是每分钟执行一次。结果发现每分钟执 ...
解决Linux下crontab同一时间重复执行问题 -
BigBird2012:
想问一下,使用ExecutorService每次都要调用 sh ...
spring quartz使用多线程并发“陷阱” -
zhuqx1130:
有用,谢谢
解决Sublime Text 3中文显示乱码(tab中文方块)问题
Hadoop Job完成后可以设置回调接口,一个自定义的URL,比如我的:
http://x.x.x.x/log/notify/stat_job/{jobId}/{jobStatus}
之后我在Servlet中可以拿到jobId,通过jobId,就可以拿到Job对象(RunningJob),代码如下:
public static RunningJob getJobById(String jobId) { Configuration conf = new Configuration(); conf.set("mapred.job.tracker", Constants.MAP_REDUCE_URL); JobClient client; try { client = new JobClient(new JobConf(conf)); return client.getJob(jobId); } catch (IOException e) { throw new RuntimeException(e); } }
关键是这个RunningJob对象只可以获取jobname信息,但是无法获取我们设置的conf信息。为了解决这个问题,我写了一个jsp,放到namenode上,用于读取本地log文件,并将结果反馈给调用者。代码如下,希望对大家有帮助:
<%@ page contentType="text/xml; charset=UTF-8" import="javax.servlet.*" import="javax.servlet.http.*" import="java.io.*" import="java.net.URL" import="org.apache.hadoop.util.*" import="javax.servlet.jsp.JspWriter" %><%! private static final long serialVersionUID = 1L; public File getHistoryFile(final String jobId) { File dir = new File("/opt/hadoop/logs/history/done/"); File[] files = dir.listFiles(new FilenameFilter() { public boolean accept(File dir, String name) { if (name.indexOf(jobId) >= 0 && name.endsWith(".xml")) { return true; } return false; } }); if (files != null && files.length > 0) { return files[0]; } return null; } public void printXML(JspWriter out, String jobId) throws IOException { FileInputStream jobFile = null; String[] outputKeys = { "db_id", "channel_id", "channel_name", "user_id", "user_name", "job_day", "pub_format_type", "mapred.output.dir" }; String line = ""; try { jobFile = new FileInputStream(getLogFilePath(jobId)); BufferedReader reader = new BufferedReader(new InputStreamReader(jobFile)); while ((line = reader.readLine()) != null) { for (String key : outputKeys) { if (!line.startsWith("<property>") || line.indexOf("<name>" + key + "</name>") >= 0) { out.println(line); break; } } } } catch (Exception e) { out.println("Failed to retreive job configuration for job '" + jobId + "!"); out.println(e); } finally { if (jobFile != null) { try { jobFile.close(); } catch (IOException e) { } } } } private File getLogFilePath(String jobId) { String logDir = System.getProperty("hadoop.log.dir"); if (logDir == null || logDir.length() == 0) { logDir = "/opt/hadoop/logs/"; } File logFile = new File(logDir + File.separator + jobId + "_conf.xml"); return logFile.exists() ? logFile : getHistoryFile(jobId); } %><% response.setContentType("text/xml"); final String jobId = request.getParameter("jobid"); if (jobId == null) { out.println("<h2>Missing 'jobid' for fetching job configuration!</h2>"); return; } printXML(out, jobId); %>
这里有个要点,运行中和刚完成的job xml文件放到了"/opt/hadoop/logs"下,归档的job xml放到了“/opt/hadoop/logs/history/done/”,所以要判断第一个地方找不到文件,去第二个地方找。
功能很简单,但是很有用。
--heipark
发表评论
-
cloudera CDH5 vmware中cloudera manager报错"Internal error while querying the Host "
2014-07-22 10:19 2063无法获取host和service状态,解决办法: s ... -
thrift0.9.1简单教程(包含Java服务端和Java、python客户端)
2014-04-25 15:55 6414一、Thrift Java服务端和客户端 官 ... -
yum错误“Error in PREUN scriptlet in rpm package ”
2014-03-10 12:07 3983打算通过yum安装软件,发展之前有软件残骸。使用yu ... -
搭建cloudera yum私服
2014-03-05 11:08 3207一、安装Cloudera yum仓库 1. 下载仓库rpm ... -
cloudera创建私服错误一例
2014-02-24 11:41 1375执行“reposync -r cloudera-cdh4 ” ... -
Cloudera Manager的Hadoop配置文件管理
2014-02-11 10:21 11460本文基于Cloudera Manager 4.8,以下简称 ... -
修改cloudera manager管理主机名(转)
2014-02-10 14:22 7646I installed the Cloudera Mana ... -
cloudera manager tasktrakcer监控状态错误
2014-02-10 11:32 1302此文用作图片外链。cloudera网站坑爹呀! -
cloudera manager 4.8 添加设备DNS反向解析问题
2014-01-28 16:20 3769添加设备时agent会使用host命令反向解析获取clou ... -
apache kafka v0.8入门遇到问题
2014-01-23 12:20 1672官方文档:https://kafka.apache.org/ ... -
hadoop2.0(cdh4) fs client错误"java.io.IOException: No FileSystem for scheme: hdfe"
2013-12-31 12:32 10063启动dfs client时候报错:“java.io.IOE ... -
Hadoop Combiner的几个调用时间点
2013-12-20 08:37 2967Combiner是在Map端被执行,共有两个时机会被触 ... -
hadoop1.0中NameNode HA的妥协方案
2013-12-10 16:26 1529hadoop1.0没有HA,可以添加NFS做为metada ... -
hdaoop2.x (CDH4、5)下使用DFS Client(包含HA)
2013-12-09 16:42 3317一、不使用HA场景 1.1 获取FileSystem(下 ... -
Hadoop学习指南
2013-11-26 14:26 1396安装配置 CDH4(hadoop2.0) 端口 C ... -
cloudera cdh中hadoop-client包的作用
2013-11-22 22:12 4119hadoop-client是为了让开发者可以很方便的使用当前 ... -
could only be replicated to 0 nodes instead of minReplication (=1)
2013-11-18 17:02 13936一、出现这个错误,先看看DN是不是正常启动并与NN通信,使用 ... -
Hadoop Pig获取HDFS文件名
2013-11-15 08:37 3218A = LOAD 'input' using PigS ... -
cloudera CDH5正式版(与CDH4比较)
2013-11-04 22:14 2517要求JDK7以上,JDK6不被支持 基于a ... -
Pig写UDF解析XML遇到一诡异错误“ClassNotFoundException”
2013-10-16 10:11 1282UDF中使用apache digester做XML解析,代码 ...
相关推荐
在Windows 7环境下提交Hadoop作业(Job)是一项技术性的任务,涉及到多个步骤和概念。首先,我们需要了解Hadoop的基本架构。Hadoop是由Apache软件基金会开发的一个开源分布式计算框架,它允许在廉价硬件上处理和存储...
此外,我们还可以通过运行`hadoop classpath`命令来获取运行Hadoop程序所需的完整classpath信息,这对于理解整个系统所依赖的所有JAR文件非常有帮助。 #### 编译、打包Hadoop MapReduce程序 为了能够顺利地编译和...
Job job = Job.getInstance(conf, "My Hadoop Job"); job.setJarByClass(MyHadoopJob.class); job.setMapperClass(MyMapper.class); job.setReducerClass(MyReducer.class); FileInputFormat.addInputPath...
org.apache.hadoop.metrics 包定义了用于性能统计信息的 API,用于监控和优化 Hadoop 集群的性能。org.apache.hadoop.record 包定义了针对记录的 I/O API 类,以及一个记录描述语言翻译器,用于简化记录的序列化和反...
在分布式计算领域,Hadoop是一个不可或缺的关键框架,它主要用于处理和存储海量数据。Hadoop配置文件是这个系统的核心组成部分,它们定义了Hadoop集群的行为、性能和稳定性。在这个主题中,我们将深入探讨Hadoop配置...
6. **测试和运行**:编写完MapReduce代码后,通过MyEclipse的Run As菜单选择"Hadoop Job",选择目标Hadoop集群,即可运行并调试你的程序。 在实际开发过程中,Hadoop-eclipse-plugin可以帮助开发者快速定位数据源、...
对于作业的更深入分析,如成功的任务数量以及每个任务的尝试次数等信息,可以通过命令`$bin/hadoop job -history all output-dir`来获取。 **5. 格式化新的分布式文件系统** 在部署新的Hadoop集群或重置现有集群时...
4. **编写驱动程序**:驱动程序设置输入和输出路径,创建Job对象,设置Mapper和Reducer类,然后提交Job给Hadoop集群执行。 5. **运行和验证结果**:运行程序后,结果将写入到指定的输出路径,通常是一个或多个part-...
Hadoop是一个开源的分布式计算框架,由Apache基金会开发,主要用于处理和存储海量数据。它的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce,两者构成了大数据处理的基础架构。本笔记将从环境搭建...
- 配置其他相关环境变量,如`HADOOP_CONF_DIR`,指向Hadoop配置文件的目录。 2. **配置Eclipse插件**: - 安装Hadoop相关的Eclipse插件,如"Hadoop Eclipse Plugin"或"Big Data Tools",它们提供了与Hadoop集群...
MapReduce开发是Hadoop的核心部分,用于实现大规模数据的并行处理。开发MapReduce程序通常包括编写Mapper和Reducer类,以及配置作业参数。例如: 1. **Mapper**:接收输入数据,进行初步处理,生成中间键值对。 2....
同时,通过Hadoop的日志系统,可以获取到更详细的错误信息,以便进行调试。 10. **优化与性能**:在开发过程中,你可能需要考虑如何优化MapReduce程序,比如减少数据传输、使用合适的数据类型、并行度调整等,以...
Hadoop是一个开源框架,主要用于存储和处理大规模数据集。本文将深入探讨如何利用Java API来与Hadoop集群进行交互,包括读取、写入数据以及执行MapReduce任务。 一、Hadoop简介 Hadoop的核心组件主要包括HDFS...
1. **编写Java代码**:首先,你需要编写处理Hadoop数据的Java程序,这可能包括实现MapReduce的Mapper和Reducer类,或者其他Hadoop相关的接口。 2. **构建JAR文件**:使用Maven或Gradle等构建工具,将源代码打包成...
编写Java代码时,可以使用Hadoop的API来操作HDFS,如`FileSystem`类用于文件系统的操作,`FSDataInputStream`和`FSDataOutputStream`处理输入/输出流。为了在本地模式下运行,可以调用`MiniDFSCluster`启动一个小型...
3. **编写接口**:在Web应用中创建一个接口,用于与Hadoop集群通信。这个接口可以包含提交作业、查询作业状态、获取结果等功能。可以使用Hadoop的Java API,如`org.apache.hadoop.mapreduce.Job`类来提交和管理...
4. **配置Hadoop配置文件**:在Hadoop的conf目录下,有两个关键的配置文件:`core-site.xml`和`hdfs-site.xml`。你需要在这里定义Hadoop的存储和运行参数,例如HDFS的默认名称节点、数据节点等。 5. **启动Hadoop**...
1. 杀死一个 job:hadoop job -list 得到 job 的 id,然后执行 hadoop job -kill jobId 2. 删除 HDFS 上的目录:hadoop fs -rmr /tmp/aaa 3. 增加一个新的存储节点:在新的节点上执行 Hadoop daemon.sh start ...
WordCount程序通常用Java编写,需要实现`Mapper`和`Reducer`接口。`Mapper`负责读取输入数据,分词并生成键值对(, 1>),而`Reducer`则汇总这些键值对,得到每个单词的总频次。 ```java public class WordCount { ...
同时,正确配置Hadoop的环境变量也是必要的,这包括HADOOP_HOME、HADOOP_CONF_DIR等,以便Eclipse能够找到Hadoop的相关配置文件。 总的来说,Hadoop-Eclipse-Plugin-2.6.4.jar是Hadoop开发者的得力工具,它为...