`
tangjunliang
  • 浏览: 109118 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

oozie CDH4和hadoop CDH4整合出现的问题(二)

阅读更多
hadoop版本:hadoop-2.0.0-cdh4.3.0
oozie版本:oozie-3.3.2-cdh4.3.0

在使用上述版本的hadoop和oozie进行开发时,启动hadoop后,NN节点上的进程有NameNode,ResourceManager,DN节点的进程有DataNode,NodeManager,hadoop启动正常,在上面执行自己写的M/R程序也没问题,但是当使用oozie提交M/R任务时候,报了以下一个异常:
Caused by: com.google.protobuf.ServiceException: java.net.ConnectException: Call From slave4/10.95.3.65 to 0.0.0.0:10020 failed on connection exception: java.net.ConnectException: 拒绝连接; For more details see:  http://wiki.apache.org/hadoop/ConnectionRefused
	at org.apache.hadoop.ipc.ProtobufRpcEngine$Invoker.invoke(ProtobufRpcEngine.java:212)
	at com.sun.proxy.$Proxy28.registerApplicationMaster(Unknown Source)
	at org.apache.hadoop.yarn.api.impl.pb.client.AMRMProtocolPBClientImpl.registerApplicationMaster(AMRMProtocolPBClientImpl.java:100)
	... 12 more


10020这个端口是hadoop的 jobhistory的端口,对于oozie在提交job的时候为什么要去连接jobhistory不是很理解,在map-site.xml也配置了这个选项:
        <property>
                <name>mapreduce.jobhistory.address</name>
                <value>master:10020</value>
        </property>


后来通过调试和跟踪hadoop源代码,发现oozie在提交任务后确实会去连接jobhistory,
开到debug模式后,在org.apache.hadoop.mapred.ClientCache,这个类的:
  protected MRClientProtocol instantiateHistoryProxy()
      throws IOException {
    final String serviceAddr = conf.get(JHAdminConfig.MR_HISTORY_ADDRESS);
    if (StringUtils.isEmpty(serviceAddr)) {
      return null;
    }
    LOG.debug("Connecting to HistoryServer at: " + serviceAddr);
    final YarnRPC rpc = YarnRPC.create(conf);
    LOG.debug("Connected to HistoryServer at: " + serviceAddr);
    UserGroupInformation currentUser = UserGroupInformation.getCurrentUser();
    return currentUser.doAs(new PrivilegedAction<MRClientProtocol>() {
      @Override
      public MRClientProtocol run() {
        return (MRClientProtocol) rpc.getProxy(HSClientProtocol.class,
            NetUtils.createSocketAddr(serviceAddr), conf);
      }
    });
  }

通过上面的代码可以知道确实连接了HistoryServer,因此我通过命令
mr-jobhistory-daemon.sh start historyserver 把这个服务启动,这样在NN上会启动JobHistoryServer进程,这个进程的监听端口就是10020,本以为这样这个问题就能解决了,没想到在oozie的log日志里还是报上面的错,唯一可能的原因是oozie没有读取到 jobhistory的配置, 因此我把这个配置:
        <property>
                <name>mapreduce.jobhistory.address</name>
                <value>master:10020</value>
        </property>

又在oozie/conf/hadoop-conf/core-site.xml文件中又添加了一遍,上述错误就消失了,job也能正常跑起来了。

ps: 我用的MR2,MR1在集成时不存在上述问题。
分享到:
评论

相关推荐

    CM5和CDH5 搭建Hadoop 集群

    在本篇中,我们将探讨如何使用CM5和CDH5搭建Hadoop集群,包括安装过程、可能遇到的问题以及解决方案。CM5(Cloudera Manager 5)是Cloudera公司提供的一个管理工具,用于简化Hadoop集群的部署、管理和监控。而CDH5...

    hadoop-2.6.0-cdh5.7.0版本.zip

    4. **CDH**: CDH是Cloudera对Hadoop生态的商业发行版,它包含了经过测试和优化的Hadoop组件,包括HDFS、MapReduce、YARN等,同时也包含了其他如Hive(SQL查询工具)、Pig(数据流编程工具)、Oozie(工作流调度器)...

    hadoop-2.6.0-cdh5.7.0.tar.gz

    CDH(Cloudera Distribution Including Apache Hadoop)是Cloudera公司对Hadoop生态系统的商业发行版,CDH5.7.0则是这个发行版的一个特定版本,它集成了多个开源组件,如HDFS、MapReduce、YARN等,并且进行了优化和...

    CDH搭建hadoop流程.doc

    在搭建Hadoop集群的过程中,使用CDH(Cloudera Distribution Including Apache Hadoop)是一个常见的选择,因为CDH提供了预编译的开源大数据组件,包括Hadoop、YARN等,简化了集群部署和管理。以下是对CDH搭建Hadoop...

    Cloudera Hadoop 5&amp;Hadoop高阶管理及调优课程

    Cloudera Hadoop 5&Hadoop高阶管理及调优课程,完整版,提供课件...2、搭建本地Yum部署CDH5的重要组件和优化配置 3、Impala、Oozie和Hue的部署、使用操作及调优 4、Hadoop安全认证及授权管理 5、Hadoop各组件性能调优

    hadoop-2.6.0-cdh5.9.3.tar.gz

    CDH不仅集成了最新的Hadoop版本,还对各个组件进行了优化和整合,提供了统一的管理界面,使得企业在使用大数据技术时更为便捷。CDH 2.6.0-cdh5.9.3是该系列的一个重要版本,包含了对Hadoop的优化和改进。 三、...

    oozie-branch-4.1.zip

    - **Hadoop 兼容性**:Oozie 4.1 支持 Hadoop 2.x 版本,这意味着它可以与 YARN 集成,利用 YARN 的资源管理和调度能力。 - **改进的性能**:在这一版本中,Oozie 对作业提交和调度进行了优化,减少了延迟,提高了...

    hadoop-2.0.0-cdh4.2.1的src

    - JobTracker和TaskTracker:在CDH4中,JobTracker负责任务调度和监控,而TaskTracker执行任务。 4. **YARN(Yet Another Resource Negotiator)** 在Hadoop 2.0中,MapReduce的资源管理和任务调度被分离出来,...

    hadoop-2.0.0-cdh4.2.1.rar

    总之,Hadoop 2.0.0-cdh4.2.1是大数据处理的重要里程碑,它的出现不仅带来了更高的处理能力和灵活性,还为开发者和企业提供了全面的数据管理解决方案。通过学习和掌握这一版本,开发者可以更好地利用大数据的力量,...

    hadoop 2.6.0 安装包

    - **Oozie**:工作流调度系统,管理Hadoop作业和协调其他Hadoop相关的工具。 6. **监控与维护** - **Ambari**:一个Web界面,用于Hadoop集群的安装、配置、管理和监控。 - **Ganglia**或**Nagios**:监控系统,...

    hadoop-0.20.2-cdh3u4

    除了HDFS和MapReduce,CDH3u4可能还包括了其他的Hadoop生态系统组件,如Pig(一种高级数据处理语言)、Hive(一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供SQL查询功能)、Oozie(工作流调度...

    CDH详细安装教程

    - 在整个安装过程中,确保每个步骤都按照官方文档或指南进行,以避免出现配置错误或兼容性问题。 - 安装完成后,进行全面的测试,验证各个服务的运行状况和数据流动的正确性。 - 定期更新和维护集群,以获取最新的...

    hadoop-cdh4.3安装文档

    CDH4是其中的一个重要版本,包含了Hadoop 2.x系列的主要特性,如YARN(Yet Another Resource Negotiator),它将Hadoop的资源管理和计算任务调度分开,提高了系统的灵活性和效率。 **第一章 基本软件介绍** 在安装...

    hadoop-0.20.2-cdh3u6

    Hadoop是Apache软件基金会开发的一个开源分布式计算框架,它的出现主要解决了大数据处理的难题。"hadoop-0.20.2-cdh3u6"是Cloudera公司基于Hadoop的一个发行版本,名为CDH(Cloudera Distribution Including Apache ...

    大数据cdh组件

    4. **Hue**:一个Web界面,用于交互式地浏览、操作和管理CDH集群,使得非技术用户也能轻松使用Hadoop。 5. **Kafka**:一个分布式流处理平台,用于实时数据管道和流应用,支持高吞吐量的消息传递。 6. **Solr**:...

    安装Oozie4.1.0-CDH版本

    安装Oozie4.1.0-CDH版本 这个安装过程同样适用于oozie4.1.0的其他的CDH版本。 先对文件进行下载: 这里使用的是CDH版本的,免编译,看着编译的过程就够了。下载地址: ...

    hue平台oozie工作流操作sqoop,把mysql.pdf

    本文主要讲述在Hue平台使用Oozie工作流操作Sqoop工具将MySQL数据库的数据传输到HDFS中,并最终导入到Hive表中的经验。以下是详细知识点: ...通过这个流程,可以实现数据在传统数据库和大数据环境之间的迁移和整合。

    企业级大数据平台CDH详细搭建过程

    - **诊断与故障排除**:识别和解决集群中出现的问题,提供可能的解决方案。 - **集成**:支持多组件的集成,确保各组件之间的协同工作。 2. **搭建CDH的准备** - **云服务器**:至少需要5台配置较高的云服务器,...

    oozie-5.0.0.tar.gz

    4. **整合Hadoop组件**:Oozie 兼容多种Hadoop组件,如HDFS、MapReduce、Hive、Pig、Sqoop和Spark,这使得它成为Hadoop生态系统中的关键组成部分。 5. **安全性**:Oozie 支持Hadoop的安全特性,如Kerberos认证,...

Global site tag (gtag.js) - Google Analytics