`
85977328
  • 浏览: 1899730 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

hadoop经典系列(十二)HDFS添加删除节点并进行集群平衡

 
阅读更多
HDFS添加删除节点并进行hdfs balance

方式1:静态添加datanode,停止namenode方式

1.停止namenode
2.修改slaves文件,并更新到各个节点
3.启动namenode
4.执行hadoop balance命令。(此项为balance集群使用,如果只是添加节点,则此步骤不需要)

-----------------------------------------

方式2:动态添加datanode,不停namenode方式

1.修改slaves文件,添加需要增加的节点host或者ip,并将其更新到各个节点
2.在datanode中启动执行启动datanode命令。命令:sh hadoop-daemon.sh start datanode
3.可以通过web界面查看节点添加情况。或使用命令:sh hadoop dfsadmin -report
4.执行hadoop balance命令。(此项为balance集群使用,如果只是添加节点,则此步骤不需要)

------------------------

针对第4点,start-balancer.sh可以执行-threshold参数。
-threshold参数是指定平衡的阈值。
-threshold的默认是10,即每个datanode节点的实际hdfs存储使用量/集群hdfs存储量

举例:
datanode hdfs使用量1.2G;
集群总hdfs存储量10T即10000G;
则t值为1.2/10000 = 0.00012;
当执行balance的-t参数小于0.00012时,集群进行balance;
命令为:start-balancer.sh -threshold 0.0001

注:
1. balance命令可以在namenode或者datanode上启动;
可以随时停止balance命令。
balance的默认带宽是1M/s。
2. slave文件是用于重启时使用。集群的start和stop需要读取slave文件。
启用datanode时只要在hdfs-site中配置了namenode位置,就可以将信息push给namenode。
查看namenode的http管理界面,可查看节点添加情况。
---------------------------------------------------------------

************************************************************************************
HDFS删除节点

方式1:通过dead方式(namenode上):

1. sh hadoop dfsadmin  -refreshServiceAcl

说明:dead方式并未修改slave文件和hdfs-site文件。
所以在集群重启时,该节点不会被添加到namenode的管理中。
此次在namenode上进行,其他节点可另行实验。,该命令会将该节点状态置为dead。
----------------------------------------------------------------

方式2:通过decommission方式:

a) 修改hdfs-site,添加exclude字段中的排除的节点。
b) 执行sh hadoop dfsadmin -refreshNodes,强制刷新。
c) 查看节点状态,该节点的状态为decommission。

说明:decommission方式修改了hdfs-site文件,未修改slave文件。
所以集群重启时,该节点虽然会被启动为datanode,但是由于添加了exclude,所以namenode会将该节点置为decommission。
此时namenode不会与该节点进行hdfs相关通信。也即exclude起到了一个防火墙的作用。

注:
1. 如果在某个节点单独停止datanode,那么在namenode的统计中仍会出现该节点的datanode信息。
此时可通过dead或者decommission(退役)方式下线机器。
---------------------------------------------------------------
分享到:
评论

相关推荐

    hadoop-idea-hdfs插件.zip

    这两个端口是Hadoop集群中非常重要的组成部分,它们使得插件能够与HDFS系统进行通信。 在安装完成后,无需进行繁琐的测试,只需直接点击“应用”,插件就能立即生效。这一特性极大地减少了设置时间,使开发者可以...

    大数据--Hadoop HDFS

    - **可扩展性**:支持动态添加或删除节点,以适应不同规模的数据处理需求。 - **高吞吐量**:适用于大数据的批量处理,提供了高效的读写性能。 - **支持流式数据访问**:非常适合处理大规模数据集,支持高速流式数据...

    基于Hadoop0.21版本的HDFS功能修改.zip

    Hadoop 0.21版本是Hadoop发展过程中的一个重要里程碑,它在HDFS上进行了一系列的功能改进和优化,为大数据处理提供了更高效、更稳定的基础。本文将深入探讨基于Hadoop 0.21版本的HDFS功能修改,以帮助读者更好地理解...

    HDFS.zip_Hadoop 平台_hadoop_hdfs

    5. **删除文件或目录**:`hadoop fs -rm hdfs://namenode:port/path`删除文件,`hadoop fs -rm -r hdfs://namenode:port/path`删除目录及其所有内容。 6. **重命名**:`hadoop fs -mv hdfs://namenode:port/oldpath...

    hdfs.rar_hadoop_hadoop ubuntu_hdfs_分布式系统_基于hadoop

    为了充分利用Hadoop和HDFS,开发者和管理员需要掌握如何规划集群、监控系统状态、进行故障排查,以及如何通过MapReduce或Spark等工具进行数据处理。总的来说,这个压缩包提供的资源将帮助你深入了解并实践Hadoop ...

    hadoop源码分析-HDFS部分

    《Hadoop源码分析——HDFS部分》 Hadoop,作为开源大数据处理的基石,其核心组件之一就是HDFS(Hadoop Distributed File System),这是一个高度容错性的分布式文件系统,设计用于运行在廉价硬件上,能够处理大规模...

    HDFS中NameNode节点的配置、备份和恢复.doc

    HDFS 中 NameNode 节点的配置、备份和恢复 ...HDFS 中 NameNode 节点的配置、备份和恢复是非常重要的, SecondaryNameNode 节点的配置和备份策略可以有效地减少 NameNode 节点的启动时间,并确保 HDFS 集群的高可用性。

    《Hadoop大数据开发实战》教学教案—03HDFS分布式文件系统.pdf

    * DataNode(数据节点)是 HDFS 实例中在单独机器上运行的软件,Hadoop 集群包含一个 NameNode 和大量的 DataNode。 HDFS 数据读写流程 HDFS 数据读写流程主要包括以下几个步骤: 1. 客户端向 NameNode 请求文件...

    Hadoop技术内幕 深入解析HADOOP COMMON和HDFS架构设计与实现原理

    《Hadoop技术内幕:深入解析HADOOP COMMON和HDFS架构设计与实现原理》这本书是IT领域的经典之作,专门探讨了Hadoop的核心组件——Hadoop Common和HDFS(Hadoop Distributed File System)的设计理念、架构及其背后的...

    hadoop处理框架,hdfs,mapreduce,yarn

    HDFS 采用块复制的概念,让数据在集群的节点间进行复制,实现了高吞吐量的数据访问。 MapReduce 是一个高效的计算方法,能够处理 PB 级乃至 ZB 级的数据。它将计算任务分解成多个小任务,分布式执行在多个节点上,...

    实验2-Hadoop安装与HDFS基础实践.nbn.zip

    3. 解压并配置环境变量:将下载的Hadoop解压到指定目录,并在环境变量`PATH`中添加Hadoop的bin目录。 4. 配置Hadoop:修改`etc/hadoop`目录下的配置文件,如`hadoop-env.sh`、`core-site.xml`、`hdfs-site.xml`等,...

    Hadoop分布式文件系统HDFS深入教程

    Hadoop分布式文件系统(Hadoop Distributed File System, HDFS)作为Hadoop项目的核心组成部分之一,专为在大规模集群环境中高效存储与处理海量数据而设计。它采用了主从架构模型,并且通过一系列组件实现了高度可靠...

    CDH5.9.0节点删除下线

    首先,确保你已经了解了CDH(Cloudera Distribution Including Apache Hadoop)的基础知识,它是一个企业级的大数据平台,提供了Hadoop生态系统的一系列组件,如HDFS、YARN、MapReduce、Hive、HBase等。CDH5.9.0是...

    详解Hadoop核心架构HDFS

    ### 详解Hadoop核心架构HDFS #### HDFS体系架构概览 Hadoop作为一个领先的开源分布式计算框架,其核心组成部分之一便是Hadoop Distributed File System(HDFS),它为大规模数据处理提供了高效、可靠且可扩展的...

    Hadoop技术内幕 深入解析HADOOP COMMON和HDFS架构设计与实现原理.pdf

    《Hadoop技术内幕:深入解析HADOOP COMMON和HDFS架构设计与实现原理》这本书是Hadoop技术领域的一本深入解析之作,它详尽地探讨了Hadoop的两大核心组件——HADOOP COMMON和HDFS(Hadoop Distributed File System)的...

    hadoop日记2.1:hdfs设计思想和基础概念

    5. **集群的线性水平可扩展性**:随着需求的增长,可以通过简单地添加更多的节点来扩展HDFS集群。 6. **一次写入,多次读取模型**:一旦文件创建完成,它们通常不会再被修改。 7. **支持可移植性**:HDFS不仅支持...

    HadoopHA集群配置文件

    配置Hadoop HA集群需要对这些文件进行精确调整,以实现命名节点的自动故障切换、保证数据的安全性和一致性,以及优化资源分配和任务调度。在实际操作中,还需要关注其他配置,比如Zookeeper的设置(用于协调NN的故障...

    (完整版)hadoop常见笔试题答案.docx

    13. MapReduce是Hadoop的并行计算框架,它将大规模数据处理分解为小任务并分配给各个节点执行,通过YARN进行资源管理和任务调度。 14. YARN(Yet Another Resource Negotiator)是Hadoop的下一代资源管理系统,它...

Global site tag (gtag.js) - Google Analytics