bug信息:
namenode
org.apache.hadoop.ipc.Server:ErrorregistergetProtocolVersion
java.lang.IllegalArgumentException:DuplicatemetricsName:getProtocolVersion
at org.apache.hadoop.metrics.util.MetricsRegistry.add(MetricsRegistry.java:53)
at org.apache.hadoop.metrics.util.MetricsTimeVaryingRate.<init>(MetricsTimeVaryingRate.java:89)
at org.apache.hadoop.metrics.util.MetricsTimeVaryingRate.<init>(MetricsTimeVaryingRate.java:99)
at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:523)
at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:959)
at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:955)
at java.security.AccessController.doPrivileged(NativeMethod)
at javax.security.auth.Subject.doAs(Subject.java:396)
at org.apache.hadoop.ipc.Server$Handler.run(Server.java:953)
2010-01-1409:32:13,093INFO org.apache.hadoop.ipc.Server:ErrorregisterversionRequest
java.lang.IllegalArgumentException:DuplicatemetricsName:versionRequest
at org.apache.hadoop.metrics.util.MetricsRegistry.add(MetricsRegistry.java:53)
at org.apache.hadoop.metrics.util.MetricsTimeVaryingRate.<init>(MetricsTimeVaryingRate.java:89)
at org.apache.hadoop.metrics.util.MetricsTimeVaryingRate.<init>(MetricsTimeVaryingRate.java:99)
at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:523)
at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:959)
at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:955)
at java.security.AccessController.doPrivileged(NativeMethod)
at javax.security.auth.Subject.doAs(Subject.java:396)
at org.apache.hadoop.ipc.Server$Handler.run(Server.java:953)
datanode:
ERROR org.apache.hadoop.hdfs.server.datanode.DataNode:java.io.IOException:IncompatiblenamespaceIDsin/var/lib/hadoop-0.20/cache/hdfs/dfs/data:namenode namespaceID=240023870;datanode namespaceID=1462715681.
用三台ubuntu操作系统的机器搭建了一个hadoop的分布式集群。启动服务后失败。
问题:Namenode上namespaceID与datanode上namespaceID不一致。namenode上的问题可能是datanode
bug导致的。
原因:每次namenode format会重新创建一个namenodeId,而tmp/dfs/data下包含了上次format下的id,namenode format清空了namenode下的数据,但是没有清空datanode下的数据,所以造成namenode节点上的namespaceID与datanode节点上的namespaceID不一致。启动失败。
解决:参考该网址http://blog.csdn.net/wh62592855/archive/2010/07/21/5752199.aspx
给出两种解决方法,我们使用的是第一种解决方法:即:
(1)停掉集群服务
(2)在出问题的datanode节点上删除data目录,data目录即是在hdfs-site.xml文件中配置的dfs.data.dir目录,本机器上那个是/var/lib/hadoop-0.20/cache/hdfs/dfs/data/ (注:我们当时在所有的datanode和namenode节点上均执行了该步骤。以防删掉后不成功,可以先把data目录保存一个副本).
(3)格式化namenode.
(4)重新启动集群。
问题解决。
这种方法带来的一个副作用即是,hdfs上的所有数据丢失。如果hdfs上存放有重要数据的时候,不建议采用该方法,可以尝试提供的网址中的第二种方法。
参考:http://blog.csdn.net/wh62592855/archive/2010/07/21/5752199.aspx
分享到:
相关推荐
Hadoop 2.0 双 Namenode 双 Datanode 部署 Hadoop 是一个开源的大数据处理框架,它提供了分布式文件系统(HDFS)和Map/Reduce 计算框架。 在这个部署中,我们将使用 Hadoop 2.0 在两个 Ubuntu 服务器上部署双 ...
### Hadoop分布式部署教程知识点详解 #### 一、Hadoop分布式集群配置背景及意义 Hadoop是一种能够处理海量数据的大规模分布式存储与处理框架。它通过Hadoop分布式文件系统(HDFS)和MapReduce计算框架提供了可靠的...
Hadoop分布式部署涉及到多个组件的配置,包括NameNode、DataNode、ResourceManager、NodeManager等,以及相关的配置文件。下面将详细介绍Hadoop分布式部署中的关键知识点。 1. **Hadoop架构基础** Hadoop的核心由...
#### 一、配置hadoop分布式文件系统环境搭建 ##### 1. 准备 在开始搭建Hadoop分布式文件系统之前,首先需要确保环境准备妥当。具体步骤包括: - **检查端口占用情况**:通过`netstat -apn | grep 9083`命令检查...
Hadoop分布式文件系统(HDFS)是Hadoop项目的核心组件之一,旨在为大规模数据集提供高效可靠的存储解决方案。HDFS的设计原则强调了数据的分布式存储与处理,通过将计算任务部署在数据所在的节点上,有效提升了数据...
Hadoop分布式文件系统是Hadoop生态系统的核心组件之一,负责存储和管理大规模数据集。下面将对Hadoop分布式文件系统的架构和设计进行详细介绍。 一、前提和设计目标 Hadoop分布式文件系统的设计目标是满足大规模...
namespaceID是Hadoop分布式安装中非常重要的一个概念,它是namenode和datanode之间的关联关键。如果namespaceID不一致,datanode将无法正常加载。这也是datanode加载失败的主要原因之一。 知识点3: 解决datanode...
DataNode的主要职责之一是响应来自NameNode的命令,例如创建、删除文件或目录,以及复制、移动或删除数据块。DataNode还需要定期向NameNode发送心跳信号,以表明自身处于活跃状态。在接收到命令后,DataNode会执行...
### Hadoop完全分布式环境搭建详解 #### 一、前言 在大数据处理领域,Hadoop是一种广泛使用的开源框架,主要用于存储和处理大规模数据集。它包括HDFS(Hadoop Distributed File System)和MapReduce等核心组件。...
Hadoop 需要使用 SSH 协议,namenode 将使用 SSH 协议启动 namenode 和 datanode 进程。在伪分布式模式下,数据节点和名称节点均是本身,必须配置 SSH localhost 无密码验证。配置 SSH 无密码验证的步骤包括: * ...
Hadoop 分布式集群初次启动 Hadoop 分布式集群初次启动是大数据处理中的重要步骤,本文将指导用户如何在虚拟机中搭建 Hadoop 分布式集群,并对其进行初次启动。 1. SSH 免密登录 在 Hadoop 分布式集群中,各个...
Hadoop分布式集群搭建的...总结来说,Hadoop分布式集群的搭建是一个涉及到硬件环境、软件安装、网络配置、系统参数调优等多方面知识的综合过程。搭建完成后,应该进行充分的测试以确保集群的稳定性和性能表现符合预期。
《HDFS——Hadoop分布式文件系统深度实践》这本书是针对Hadoop分布式文件系统(HDFS)的详尽指南,旨在帮助读者深入理解HDFS的工作原理、设计思想以及在实际应用中的最佳实践。HDFS是Apache Hadoop项目的核心组件之...
### Hadoop分布式文件系统:架构和设计要点 #### 一、前提和设计目标 Hadoop分布式文件系统(HDFS)的设计初衷是为了解决大规模数据处理的问题,特别是针对那些需要处理TB甚至PB级别数据的应用程序。为了实现这一...
Hadoop分布式文件系统(HDFS)是Hadoop项目的核心组件之一,主要用于存储和管理大规模数据集。它提供了一种高容错性的文件存储方式,并且能够为大数据应用提供高吞吐量的数据访问能力。 #### HDFS的关键特性 1. **...
- 启动所有Hadoop守护进程,包括Namenode、Datanode、ResourceManager、NodeManager等。 - 使用Hadoop命令行工具(如`hadoop fs -ls`)或Web界面验证HDFS和YARN是否正常运行。 8. **安全性与监控** - 对于生产...
本文将讨论如何基于Hadoop分布式存储与分析平台解决这一问题。 Hadoop是一个开源的分布式存储和处理大数据的框架,它能有效地存储和处理PB级别的数据。Hadoop的核心是HDFS(Hadoop Distributed File System),它...
### Hadoop分布式环境搭建知识点详解 #### 一、概述 Hadoop是一款开源的大数据处理框架,主要用于处理海量数据。本文档详细介绍了如何在一个一主两从的架构中部署Hadoop集群,包括设置DNS、SSH免密码登录、安装JDK...
HDFS的核心概念包括NameNode和DataNode,其中NameNode是管理文件系统的元数据,DataNode是负责存储实际的数据。HDFS是为大文件存储和批量数据处理设计的,不适合需要低延迟访问的数据。 MapReduce是一个编程模型和...