`

为Hadoop集群撤销节点

 
阅读更多

2012-12-07

 步骤:

1. 在namenode中应该有至少一个exclude文档,方便将要移除的机器写入其中。

  • 对于hdfs,配置属性hdfs.hosts.exclude;
  • 对于mapred,配置属性mapred.hosts.exclude。可以都指向该文件。  

2. 手动关闭待下架机器的tasktracker。

方法:在待下架机器上执行   $HADOOP_HOME/bin/hadoop-daemon.sh stop tasktracker     。  

3. 运行命令强制刷新集群各节点信息

$HADOOP_HOME/bin/hadoop dfsadmin -refreshNodes          

4. 查看刷新之后的节点信息

$HADOOP_HOME/bin/hadoop dfsadmin -report            

  • 可以发现指定节点状态为:   Decommission Status : Decommission in progress      
  • 这表明集群正在拷贝数据到其他机器      
  • 等待节点状态改变: Decommission Status : Decommissioned        
  • 表明数据拷贝完成,可以下架机器。
  • 方法:在待下架机器上执行 $HADOOP_HOME/bin/hadoop-daemon.sh stop datanode        

5.  在namenode的配置文件slaves和exclude文档中移除该节点的信息。

   

【注意】  

 

有时候因为某些原因可能导致撤销节点始终处于Decommission in progress的状态。详情请参考: http://www.hadoopor.com/viewthread.php?tid=4589 

 

本质的原因是某些块复制出现了问题:

查看namenode的日志即可发现问题,类似为:

INFO org.apache.hadoop.hdfs.server.namenode.FSNamesystem: Block: blk_-3167344645674641763_2210, Expected Replicas: 10, live replicas: 6, corrupt replicas: 0, decommissioned replicas: 1, excess replicas: 0, Is Open File: false, Datanodes having this block: 192.168.1.24:50010 192.168.1.23:50010 192.168.1.22:50010 192.168.1.26:50010 192.168.1.25:50010 192.168.1.28:50010 , Current Datanode: 192.168.1.28:50010, Is current datanode decommissioning: true    

解决方法:

在namenode上使用fsck工具查看指定块的位置,然后手动删除

分享到:
评论

相关推荐

    hadoop security design.pdf

    1. **网络环境**:Hadoop集群部署在一个相对受控的网络环境中,虽然可能存在外部攻击,但内部网络较为安全。 2. **可信节点**:集群中的所有节点都是可信的,即不会发生内部节点恶意行为的情况。 3. **认证服务器...

    hdfs_design, hadoop file system design

    为了保持集群性能的均衡,HDFS 会定期执行集群再平衡操作,将数据从负载过重的数据节点迁移到负载较轻的节点。 ##### 8.3 数据完整性 HDFS 通过检查和校验机制确保数据的完整性,例如使用 CRC 校验码。 ##### 8.4...

    【Yarn篇01】Yarn工作机制和作业提交流程1

    【Yarn工作机制和作业提交流程】是Hadoop生态系统中至关重要的一部分,它负责管理和调度分布式计算资源,确保高效地...理解Yarn的工作机制有助于更好地监控和调试Hadoop集群中的作业执行,提高整体系统的效率和可靠性。

    juice一套基于MesosFramework的分布式任务调度云系统

    Mesos的核心设计理念是将集群视为一个单一的资源池,使得上层的应用框架如Hadoop、Spark、Kubernetes等可以透明地共享这些资源,无需关心底层硬件的复杂性。 Juice与Mesos的结合,让开发者可以专注于应用程序的开发...

    Python库 | mesos_cook-0.1-py2-none-any.whl

    Apache Mesos是一个开源的资源调度器,它在数据中心或集群环境中为各种框架提供了统一的抽象,这些框架可以包括Hadoop、Spark、 Marathon等。Mesos将硬件资源(如CPU、内存、磁盘)抽象为一个池,使得应用程序能够跨...

    HDFS官方设计文档

    2. **集群再平衡**:通过自动调整数据块在各数据节点上的分布,HDFS实现了集群资源的均衡利用。 3. **数据完整性检查**:定期进行数据校验,确保数据块没有被损坏。 4. **元数据盘故障**:HDFS通过备份元数据的方式...

    openssl-1.1.0e.tar.gz

    3. **Zookeeper 在分布式系统中的角色**:Zookeeper 作为一个分布式协调器,可以用来管理 OpenSSL 的全局配置,比如证书的分发、更新和撤销列表(CRL),以及集群中节点的状态同步。 4. **云环境中的安全**:在云...

    Java分布式文件存储项目开发视频教程 (Hbase分布式数据库+Spring boot技术)

    - **集群监控**:学习如何使用工具(如Hadoop生态系统中的Ambari)来监控HBase集群的运行状态。 #### Phoenix & Sqoop(第6章) - **Phoenix概述**:Phoenix是构建在HBase之上的SQL查询引擎,支持快速的SQL查询。 ...

    Batch File Coordinator-开源

    - **大数据处理**:在分布式Hadoop集群中,协调大量小文件的上传、下载和处理。 - **云存储迁移**:在多个云存储服务之间批量迁移文件,保证数据一致性。 - **系统备份与恢复**:在多个备份服务器之间同步文件,确保...

    大数据下信息通信数据加密技术研究.zip

    这种技术适用于大规模数据集群,如Hadoop和Spark等。 同态加密是近年来备受关注的一种加密技术,它允许对加密数据进行计算,而无需先解密。这意味着在加密状态下,数据可以被处理和分析,结果仍然是加密的,只有...

    Oracle技术笔试题

    - RAC(Real Application Clusters):实现多节点集群环境下的高可用性。 - Data Guard:主备数据库之间的同步复制,实现零数据丢失保护。 - GoldenGate:异构数据库之间的数据复制解决方案。 ### 实际应用场景 ...

Global site tag (gtag.js) - Google Analytics