hadoop版本:hadoop-2.0.0-cdh4.3.0
oozie版本:oozie-3.3.2-cdh4.3.0
在使用上述版本的hadoop和oozie进行开发时,启动hadoop后,NN节点上的进程有NameNode,ResourceManager,DN节点的进程有DataNode,NodeManager,hadoop启动正常,在上面执行自己写的M/R程序也没问题,但是当使用oozie提交M/R任务时候,报了以下一个异常:
Caused by: com.google.protobuf.ServiceException: java.net.ConnectException: Call From slave4/10.95.3.65 to 0.0.0.0:10020 failed on connection exception: java.net.ConnectException: 拒绝连接; For more details see: http://wiki.apache.org/hadoop/ConnectionRefused
at org.apache.hadoop.ipc.ProtobufRpcEngine$Invoker.invoke(ProtobufRpcEngine.java:212)
at com.sun.proxy.$Proxy28.registerApplicationMaster(Unknown Source)
at org.apache.hadoop.yarn.api.impl.pb.client.AMRMProtocolPBClientImpl.registerApplicationMaster(AMRMProtocolPBClientImpl.java:100)
... 12 more
10020这个端口是hadoop的 jobhistory的端口,对于oozie在提交job的时候为什么要去连接jobhistory不是很理解,在map-site.xml也配置了这个选项:
<property>
<name>mapreduce.jobhistory.address</name>
<value>master:10020</value>
</property>
后来通过调试和跟踪hadoop源代码,发现oozie在提交任务后确实会去连接jobhistory,
开到debug模式后,在org.apache.hadoop.mapred.ClientCache,这个类的:
protected MRClientProtocol instantiateHistoryProxy()
throws IOException {
final String serviceAddr = conf.get(JHAdminConfig.MR_HISTORY_ADDRESS);
if (StringUtils.isEmpty(serviceAddr)) {
return null;
}
LOG.debug("Connecting to HistoryServer at: " + serviceAddr);
final YarnRPC rpc = YarnRPC.create(conf);
LOG.debug("Connected to HistoryServer at: " + serviceAddr);
UserGroupInformation currentUser = UserGroupInformation.getCurrentUser();
return currentUser.doAs(new PrivilegedAction<MRClientProtocol>() {
@Override
public MRClientProtocol run() {
return (MRClientProtocol) rpc.getProxy(HSClientProtocol.class,
NetUtils.createSocketAddr(serviceAddr), conf);
}
});
}
通过上面的代码可以知道确实连接了HistoryServer,因此我通过命令
mr-jobhistory-daemon.sh start historyserver 把这个服务启动,这样在NN上会启动JobHistoryServer进程,这个进程的监听端口就是10020,本以为这样这个问题就能解决了,没想到在oozie的log日志里还是报上面的错,唯一可能的原因是oozie没有读取到 jobhistory的配置, 因此我把这个配置:
<property>
<name>mapreduce.jobhistory.address</name>
<value>master:10020</value>
</property>
又在oozie/conf/hadoop-conf/core-site.xml文件中又添加了一遍,上述错误就消失了,job也能正常跑起来了。
ps: 我用的MR2,MR1在集成时不存在上述问题。
分享到:
相关推荐
在本篇中,我们将探讨如何使用CM5和CDH5搭建Hadoop集群,包括安装过程、可能遇到的问题以及解决方案。CM5(Cloudera Manager 5)是Cloudera公司提供的一个管理工具,用于简化Hadoop集群的部署、管理和监控。而CDH5...
4. **CDH**: CDH是Cloudera对Hadoop生态的商业发行版,它包含了经过测试和优化的Hadoop组件,包括HDFS、MapReduce、YARN等,同时也包含了其他如Hive(SQL查询工具)、Pig(数据流编程工具)、Oozie(工作流调度器)...
CDH(Cloudera Distribution Including Apache Hadoop)是Cloudera公司对Hadoop生态系统的商业发行版,CDH5.7.0则是这个发行版的一个特定版本,它集成了多个开源组件,如HDFS、MapReduce、YARN等,并且进行了优化和...
在搭建Hadoop集群的过程中,使用CDH(Cloudera Distribution Including Apache Hadoop)是一个常见的选择,因为CDH提供了预编译的开源大数据组件,包括Hadoop、YARN等,简化了集群部署和管理。以下是对CDH搭建Hadoop...
Cloudera Hadoop 5&Hadoop高阶管理及调优课程,完整版,提供课件...2、搭建本地Yum部署CDH5的重要组件和优化配置 3、Impala、Oozie和Hue的部署、使用操作及调优 4、Hadoop安全认证及授权管理 5、Hadoop各组件性能调优
CDH不仅集成了最新的Hadoop版本,还对各个组件进行了优化和整合,提供了统一的管理界面,使得企业在使用大数据技术时更为便捷。CDH 2.6.0-cdh5.9.3是该系列的一个重要版本,包含了对Hadoop的优化和改进。 三、...
- **Hadoop 兼容性**:Oozie 4.1 支持 Hadoop 2.x 版本,这意味着它可以与 YARN 集成,利用 YARN 的资源管理和调度能力。 - **改进的性能**:在这一版本中,Oozie 对作业提交和调度进行了优化,减少了延迟,提高了...
- JobTracker和TaskTracker:在CDH4中,JobTracker负责任务调度和监控,而TaskTracker执行任务。 4. **YARN(Yet Another Resource Negotiator)** 在Hadoop 2.0中,MapReduce的资源管理和任务调度被分离出来,...
总之,Hadoop 2.0.0-cdh4.2.1是大数据处理的重要里程碑,它的出现不仅带来了更高的处理能力和灵活性,还为开发者和企业提供了全面的数据管理解决方案。通过学习和掌握这一版本,开发者可以更好地利用大数据的力量,...
除了HDFS和MapReduce,CDH3u4可能还包括了其他的Hadoop生态系统组件,如Pig(一种高级数据处理语言)、Hive(一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供SQL查询功能)、Oozie(工作流调度...
- 在整个安装过程中,确保每个步骤都按照官方文档或指南进行,以避免出现配置错误或兼容性问题。 - 安装完成后,进行全面的测试,验证各个服务的运行状况和数据流动的正确性。 - 定期更新和维护集群,以获取最新的...
- **Oozie**:工作流调度系统,管理Hadoop作业和协调其他Hadoop相关的工具。 6. **监控与维护** - **Ambari**:一个Web界面,用于Hadoop集群的安装、配置、管理和监控。 - **Ganglia**或**Nagios**:监控系统,...
CDH4是其中的一个重要版本,包含了Hadoop 2.x系列的主要特性,如YARN(Yet Another Resource Negotiator),它将Hadoop的资源管理和计算任务调度分开,提高了系统的灵活性和效率。 **第一章 基本软件介绍** 在安装...
安装Oozie4.1.0-CDH版本 这个安装过程同样适用于oozie4.1.0的其他的CDH版本。 先对文件进行下载: 这里使用的是CDH版本的,免编译,看着编译的过程就够了。下载地址: ...
Hadoop是Apache软件基金会开发的一个开源分布式计算框架,它的出现主要解决了大数据处理的难题。"hadoop-0.20.2-cdh3u6"是Cloudera公司基于Hadoop的一个发行版本,名为CDH(Cloudera Distribution Including Apache ...
- **ext-2.2.zip**:用于解决 Oozie Web UI 报错问题的额外文件。 此外,还需要新增一个 YUM 配置文件 `/etc/yum.repos.d/cdh.repo`,用以指定软件包的来源。配置文件内容如下: ```ini [cdh_mingyang] name=...
4. **Hue**:一个Web界面,用于交互式地浏览、操作和管理CDH集群,使得非技术用户也能轻松使用Hadoop。 5. **Kafka**:一个分布式流处理平台,用于实时数据管道和流应用,支持高吞吐量的消息传递。 6. **Solr**:...
4. **整合Hadoop组件**:Oozie 兼容多种Hadoop组件,如HDFS、MapReduce、Hive、Pig、Sqoop和Spark,这使得它成为Hadoop生态系统中的关键组成部分。 5. **安全性**:Oozie 支持Hadoop的安全特性,如Kerberos认证,...
本文主要讲述在Hue平台使用Oozie工作流操作Sqoop工具将MySQL数据库的数据传输到HDFS中,并最终导入到Hive表中的经验。以下是详细知识点: ...通过这个流程,可以实现数据在传统数据库和大数据环境之间的迁移和整合。