在hadoop集群环境下需要将两台datanode删除,为了不影响在运行业务,需对节点进行动态删除,记录操作过程如下:
1, 从集群中移走节点,需要对移走节点的数据进行备份:
在主节点的core-site.xml配置文件中添加如下内容:
<property>
<name>dfs.hosts.exclude</name>
<value>/etc/hadoop/conf/excludes</value>
</property>
说明
dfs.hosts.exclude:指要删除的节点
/etc/hadoop/conf/excludes:指定要被删除文件所在路径及名称,该处定义为excludes
2, 在1中设置目录中touch excludes,内容为每行需要移走的节点
10.3.14.91
3,进入/usr/lib/hadoop/bin 运行命令:hadoop dfsadmin -refreshNodes
该命令可以动态刷新dfs.hosts和dfs.hosts.exclude配置,无需重启NameNode。
执行完成被删除节点datanode消失了,但是tasktracker还会存在,需要手动停掉
4,然后通过 bin/hadoop dfsadmin -report查看。
结果略
5,通过4中命令可以查看到被删除节点状态,如10.3.14.91
Decommission Status : Decommissioned
说明从91往其他节点同步数据已经完成,如果状态为Decommission Status : Decommissione in process则还在执行。
至此删除节点操作完成
总结
在拔掉节点时注意要把往hadoop放数据程序先停掉,否则程序还会往要删除节点同步数据,删除节点程序会一直执行。
数据节点间的数据同步还是相当给力的,眨眼功夫就完成了
分享到:
相关推荐
**Hadoop学习笔记详解** Hadoop是一个开源的分布式计算框架,由Apache基金会开发,主要用于处理和存储海量数据。它的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce,两者构成了大数据处理的基础...
《Hadoop学习笔记详解》 Hadoop,作为大数据处理领域中的核心框架,是Apache软件基金会下的一个开源项目,主要用于分布式存储和并行计算。本文将根据提供的Hadoop学习笔记,深入解析Hadoop的关键概念和实战技巧,...
Hadoop架构强调主从模式,即NameNode作为主节点管理元数据,DataNode作为从节点存储数据块。客户端通过HDFS客户端与NameNode和DataNode交互,实现数据的读写。 此外,Hadoop也提供了对大数据进行分布式处理的能力,...
【HADOOP学习笔记】 Hadoop是Apache基金会开发的一个开源分布式计算框架,是云计算领域的重要组成部分,尤其在大数据处理方面有着广泛的应用。本学习笔记将深入探讨Hadoop的核心组件、架构以及如何搭建云计算平台。...
学习Hadoop不仅要关注当前的架构和组件,还需要持续跟踪其发展动态,以便更好地把握和应用这项技术。对于初学者而言,了解Hadoop的基本架构和组件,理解其设计哲学和适用场景,是入门的关键步骤。随着技术的深入学习...
在本篇"Hadoop学习笔记(三)"中,我们将探讨如何使用Hadoop的MapReduce框架来解决一个常见的问题——从大量数据中找出最大值。这个问题与SQL中的`SELECT MAX(NUMBER) FROM TABLE`查询相似,但在这里我们通过编程...
这个“Hadoop学习笔记”涵盖了Hadoop生态系统中的核心组件,包括HDFS(Hadoop分布式文件系统)、HBase(一个分布式、列式存储的数据库)、Hive(数据仓库工具)以及Spark(一个快速、通用且可扩展的数据处理引擎)。...
《深入理解Hadoop分布式系统》 ...Hadoop的学习是一个逐步深入的过程,涵盖分布式存储、计算模型、资源调度等多个方面,理解其工作原理和最佳实践,对于在大数据环境中构建高效稳定的系统至关重要。
Hadoop集群安装笔记是一篇详细的安装指南,旨在帮助新手快速搭建Hadoop学习环境。以下是该笔记中的重要知识点: Hadoop集群安装目录 在安装Hadoop集群之前,需要准备好安装环境。安装环境包括Java Development Kit...
《Hadoop学习笔记》 Hadoop,作为大数据处理的核心框架,是开源社区的杰作,由Apache软件基金会维护。这份文档旨在深入解析Hadoop的基本概念、架构及其在大数据处理中的应用,帮助读者全面掌握这一重要技术。 一、...
在单节点上搭建Hadoop的伪分布式环境,用于测试和学习。这通常是在没有多台物理机的情况下进行的,所有Hadoop进程都在同一台机器上运行。步骤包括下载和安装JDK,配置Hadoop环境变量,解压和格式化HDFS,启动Hadoop...
在Hadoop的学习过程中,MapReduce是一个非常核心的部分,它提供了分布式计算的能力,使得处理大规模数据变得可能。在本文中,我们将深入探讨如何使用Hadoop MapReduce实现类似SQL中的`MAX`和`MIN`操作。 首先,我们...
本学习笔记涵盖了Hadoop 1.0和2.0两个主要版本,旨在帮助读者全面理解Hadoop的核心概念、架构以及实际操作。 在Hadoop 1.0中,核心组件主要包括HDFS(Hadoop Distributed File System)和MapReduce。HDFS是一种...
集群的管理和配置是Hadoop学习中的重要环节,包括节点间通信设置、资源调度策略等。 3. **MapReduce**: MapReduce是Hadoop的并行计算模型,它将大型数据集分割成小块,并在多台机器上并行处理。Map阶段将原始数据...