`
chaijuntao
  • 浏览: 24757 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

(转)在eclipse下远程调试hadoop2.0

 
阅读更多

在《在eclipse下编译hadoop2.0源码》一文中,我详细介绍了如何在eclipse环境和命令行环境下编译hadoop2.0源代码,并简单介绍了如何构建hadoop环境,这篇文章将着重介绍如何在eclipse下调试源代码。

在hadoop2.0中,常用的模块有NameNode,DataNode, ResourceManager, NodeManager, FsShell等。这里我们以调试FsShell和NameNode模块为例。

FsShell命令调试:

FsShell命令是hadoop的Client端(任何hadoop集群上的节点都可以作为Client端)访问hadoop集群的最基本方式。比如 bin/hadoop fs 命令就是客户端访问hadoop文件系统的命令集。我们以bin/hadoop fs -ls / (显示hadoop文件系统根目录下的文件)为例。

  • 在Client节点上的hadoop目录下找到文件bin/hadoop。打开这个脚本,找到如下图所在位置

  • 改成如下图所示:

  • 注意suspent设置为y表示暂停等待,知道调试器(这里是用eclipse中的调试)连接上才继续执行, address=8000表示在8000端口监听请求,也可以换成其他不冲突的端口。

因为调试的FsShell需要hadoop运行时环境,所以首先应当启动hadoop集群。启动过程这里不做介绍,启动成功以后,我们在Client端输入命令, 会显示如下图所示的信息:

这就表示调试环境已经建好并在8000端口开始监听调试请求。下面是在eclipse开始调试的步骤

  • 打开eclipse并找到hadoop-common(上一篇博客介绍了如何将hadoop导入到eclipse中)
  • 在hadoop-common找到文件FsShell.java文件并打开
  • 找到FsShell中的main函数,并在main函数第一行处设置断点。
  • 右键改文件,选择Debug As -> Debug Configurations... 弹出配置对话框
  • 在左侧找到并双击Remote Application,这时会新建一个配置页,主机填Client端对应的IP地址,端口为8000,如下图

  • 点击Debug,现在,你就可以调试刚刚输入的命令了,跟踪该条命令的执行过程。

NameNode调试:

NameNode调试和上面的调试步骤基本类似,下面只做简单的介绍。

  • 调试NameNode需要修改NameNode所在节点的bin/hdfs文件,修改如下:

 

  改为

  其中,suspend=n,如果设置为y,则可以调试NameNode的启动过程。

  • 启动NameNode
  • 调试NameNode的入口在hadoop-hdfs项目的NameNode.java文件中,找到main函数,并设置断点
  • 同FsShell一样,新建一个Remote Application,填入的主机为NameNode节点所在的IP,端口为8000
  • 点击Debug,调试就可以开始了。

关于eclipse调试hadoop2.0的内容就介绍到这里。现在我们就可以利用调试跟踪hadoop的执行流程,更深入的分析hadoop源代码。 最后甚至可以修改hadoop源代码,加入自己需要的功能。

本文来自博客园,如果查看原文请点击 http://www.cnblogs.com/meibenjin/p/3175679.html

 

分享到:
评论

相关推荐

    Eclipse中远程调试Hadoop必备资料

    Eclipse中远程调试Hadoop必备资料:hadoop-eclipse-plugin-1.1.1和hadoop-core-1.0.2-modified;已经在eclipse-jee-juno-SR1-win32-x86_64和hadoop1.1.1 下测试过。

    Hadoop2.0开发环境搭建

    涉及到了Hadoop2.0、Hbase、Sqoop、Flume、Hive、Zookeeper的具体环境搭建

    Hadoop 2.0基本架构和发展趋势

    在Hadoop 2.0中,MapReduce不再是资源管理和任务调度的唯一选择,而是变成了运行在YARN之上的一个应用程序。这意味着MapReduce可以与其他计算框架共享集群资源,提高了资源的灵活性和利用率。具体来说,MapReduce的...

    eclipse4.5远程调试hadoop2.7.4依赖包

    eclipse远程调试出现Exception in thread “main” java.lang.UnsatisfiedLinkError,eclipse4.5远程调试hadoop2.7.4依赖包 ,方法 将匹配的hadoop.dll、winutils.exe、libwinutils.lib拷贝到C:\Windows\System32 详情...

    hadoop2.0安装手册

    hadoop 2.0 详细安装手册。hadoop 2.0 详细安装手册。

    Hadoop 2.0安装部署方法

    本文档提供了Hadoop 2.0在Linux系统上安装部署的详细步骤和方法。 一、准备工作 首先,需要准备足够的硬件资源和软件包。硬件方面,测试环境通常需要一台配置较高(建议内存不小于4GB)的PC或服务器,而生产环境则...

    Hadoop2.0部署文档

    本文将详细介绍在Hadoop 2.0环境下进行集群部署的关键步骤。 1. **创建统一用户账户** 在所有节点上创建相同用户名(如 hadoop)是部署的基础,确保节点间操作的一致性。用户权限的统一有助于简化管理和权限设置。...

    Hadoop2.0安装详细步骤

    本文是详细的Hadoop2.0安装方法步骤

    实战Hadoop2.0 PPT

    这套PPT集合不仅涵盖了Hadoop的核心组件,还扩展到了相关的大数据处理和分析工具,对于理解Hadoop生态系统及其在大数据场景下的实际应用具有重要价值。通过深入学习这些内容,开发者和数据分析师能够提升处理大规模...

    Hadoop安装手册_Hadoop2.0.pdf

    hadoop2.0版本安装手册,包含hadoop、hive、hbase、mahout、sqoop、spark、storm、整个体系的安装配置

    hadoop 2.0

    ### Hadoop 2.0:从YARN到下一代大数据处理平台 #### 1. Hadoop 2.0:新时代的大数据处理平台 Hadoop 2.0是Apache Hadoop的一个重要版本,它标志着Hadoop从单一的MapReduce计算框架转变为一个更加通用、可扩展和...

    大数据系列-Hadoop 2.0

    在大数据领域,Hadoop 2.0 是一个关键的分布式计算框架,它为海量数据处理提供了强大支持。本文将深入探讨Hadoop 2.0的主要组件、架构、以及其相较于Hadoop 1.0的改进。 一、Hadoop 2.0概述 Hadoop 2.0是Apache软件...

    eclipse 64位 远程调试hadoop2.5

    eclipse远程调试hadoop,报Could not locate executable null\bin\winutils.exe ,将winutils.exe放入到hadoop的bin目录下,报UnsatisfiedLinkError错,将 hadoop.dll放入C:\Windows\System32下

    云计算第三版精品课程配套PPT课件含习题(29页)第6章 Hadoop 2.0 大家族(三).pptx

    Hadoop 2.0 是一个开源的分布式计算框架,是Hadoop生态系统的核心组成部分,它在Hadoop 1.0的基础上进行了重大改进,引入了YARN(Yet Another Resource Negotiator),使得系统更加灵活和可扩展。Hadoop 2.0家族包括...

    Hadoop 2.0部署配置文件示例.zip

    Hadoop 2.0是Apache Hadoop项目的一个重要版本,它带来了许多改进和优化,显著提高了大数据处理的性能和可扩展性。这个压缩包“Hadoop 2.0部署配置文件示例.zip”包含了用于配置和部署Hadoop集群的关键文件。下面...

    《Hadoop大数据开发实战》教学教案—06Hadoop2.0新特性.pdf

    在大数据处理领域,Hadoop是一个不可或缺的开源框架,其发展历经多个版本,其中Hadoop2.0是重要的里程碑,它针对Hadoop1.0的一些关键问题进行了显著的改进。本章节我们将深入探讨Hadoop2.0的新特性,包括YARN资源...

    Hadoop2.0分布式HA环境部署

    为了克服这一问题,Hadoop2.0引入了HA机制,确保即使在NameNode发生故障的情况下也能保持集群服务的连续性。 #### 原理介绍 在Hadoop2.0 HA环境中,有两个或更多的NameNode实例运行在同一集群中,其中一个是活跃...

    云计算第三版精品课程配套PPT课件含习题(30页)第5章 Hadoop 2.0 主流开源云架构(四).pptx

    Hadoop 2.0是大数据处理的关键技术之一,它在分布式计算中扮演着核心角色。本课程内容丰富,适合不同层次的学习者,无论是初学者还是经验丰富的专业人士,都能从中获益。 在第五章“Hadoop 2.0 主流开源云架构”中...

    云计算第三版精品课程配套PPT课件含习题(33页)第5章 Hadoop 2.0 主流开源云架构(五).pptx

    在Hadoop 2.0这一章节,课程详细讲解了以下几个方面: 1. **5.1 引例**:通常引例会通过实际案例来引入Hadoop 2.0的重要性及其在云计算环境中的应用。 2. **5.2 Hadoop 2.0 简述**:这部分内容可能涵盖Hadoop的...

    Hadoop2.0+Kerberos配置

    以下是对标题“Hadoop2.0+Kerberos配置”和描述“Hadoop的安全认证机制,在hadoop的集群中实现对服务器与服务器之间的安全保障”中涉及知识点的详细说明: 1. Hadoop2.0安全机制:Hadoop2.0版本对安全性进行了增强...

Global site tag (gtag.js) - Google Analytics