`

Hadoop2.x动态添加或删除datanode

 
阅读更多

 

1 涉及到的命令:

hadoop-daemon.sh start namenode
hadoop-daemon.sh start datanode
 
yarn-daemon.sh start resourcemanager
yarn-daemon.sh start nodemanager
yarn node -list
 
./hdfs dfsadmin -refreshNodes
./hdfs dfsadmin -report

 hadoop job -list 
 hadoop job -kill jobid //停止一个正在运行的job

启动数据负载均衡
/start-balancer.sh -threshold 5

 2 新增加一个节点

 

1 准备机器及运行环境
   配置hostname和hosts 环境变量 
2 配置无秘钥登录ssh 。ssh-copy-id
3 在各个节点中添加新节点的host。
4 修改namenode中slaves文件(每次namenode重启会读取这个文件,启动时候可以直接启动新添加节点)
5 copy hadoop文件夹到新添加节点的一样文件夹中 。 scp
6 删除新节点中 hadoop中的临时文件夹我的是tmp文件夹(hadoop在配置文件中配置的工作目录)
7 启动datanode ,sbin/hadoop-daemon.sh start datanode在hdfs dfsadmin -refreshNodes刷新节点
  hdfs dfsadmin -report或者nameNode50070 查看新添加的节点
8 平衡各个节点中数据块的大小: /start-balancer.sh -threshold 5

9 启动nodeManager,yarn-daemon.sh start nodemanager,通过yarn node -list 查看所有node节点 
  或者通过 http://resourceManagerhost:8088/ 查看其中节点数目 

 3 删除一个节点:

  

移除节点:最好不要直接停止机器否则可能造成机器数据块丢失 
a) 修改hdfs-site,添加exclude字段中的排除的节点
        <property>
            <name>dfs.hosts.exclude</name>
            <value>/web/hadoop-2.5.2/etc/hadoop/datanode-deny.list</value>
       </property>
添加文件: datanode-deny.list其中的内容加入需要删除的节点ip或者主机名称 
(我自己弄的时候这两个文件同步到集群中所有节点中)
b) 刷新节点状态:  hadoop dfsadmin -refreshNodes
查看节点状态变为:decommission
此时namenode不会与该节点进行hdfs相关通信。也即exclude起到了一个防火墙的作用

 4 删除节点后恢复

  

如果删除后想重新加入:
1 ) 删除datanode-deny.list文件中节点
2)hadoop dfsadmin -refreshNodes
3) 重新新加入的节点datanode 进程 

 

 

 

分享到:
评论

相关推荐

    VMware虚拟机下hadoop1.x的安装方法

    - `hadoop fs -rmr /output` 删除HDFS中的文件或目录 **7. Linux常用命令** - `cd ..` 返回上级目录 - `cd ~` 返回Home目录 - `cd /` 返回根目录 - `cd var/` 进入 `var/` 文件夹 - `su -` 切换到超级用户模式 - `...

    hadoop大数据实战手册

    2.4 .2 副本放置策略的有效前提………………………………………………………………………. 73 2.4 .3 默认副本放置策略的分析……··………………………………………………………………. 73 2.4.4 目标存储好坏的...

    centos安装配置hadoop超详细过程.docx

    2. **解压安装包**:使用`tar -zxvf hadoop-x.x.x.tar.gz`命令解压安装包至指定目录。 3. **配置Hadoop环境变量**:编辑`/etc/profile`文件,添加Hadoop环境变量。 4. **配置Hadoop核心文件**:编辑`core-site.xml`...

    hadoop环境搭建

    ### Hadoop2.x环境搭建详解 #### 一、概述 Hadoop是一款开源软件框架,用于分布式存储和处理大型数据集。Hadoop的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce。本文将详细介绍Hadoop2.x环境的...

    hadoop动态增加和删除节点方法介绍

    上一篇文章中我们介绍了Hadoop编程基于MR程序实现倒排索引示例的有关内容,这里我们看看如何在Hadoop中动态地增加和删除节点(DataNode)。 假设集群操作系统均为:CentOS 6.7 x64 Hadoop版本为:2.6.3 一、动态...

    Hadoop 管理

    datanode.sink.ganglia.servers = 239.2.11.71:8649 jobtracker.sink.ganglia.servers = 239.2.11.71:8649 tasktracker.sink.ganglia.servers = 239.2.11.71:8649 maptask.sink.ganglia.servers = 239.2.11.71:...

    hadoop配置

    4. **yarn-site.xml**:在Hadoop 2.x版本后,MapReduce任务由YARN(Yet Another Resource Negotiator)管理。这里配置ResourceManager和NodeManager的位置、内存分配等。 5. **slaves**:列出集群中所有数据节点...

    02-Hadoop-HDFS.docx

    HDFS中的文件被分割成块进行存储,默认的块大小为128MB(Hadoop 2.x之后)。较大的块大小有助于提高系统的I/O效率,减少寻址开销。选择合适的块大小对于优化HDFS性能至关重要。 #### 二、HDFS Shell操作(开发重点...

    深入浅出Hadoop

    对于Hadoop 2.2.X版本,集群规划有所不同,主要体现在NameNode、DataNode之外的组件变化。ResourceManager取代了JobTracker,负责资源的全局调度,NodeManager则是代替TaskTracker的每个节点上的执行器,体现了YARN...

    2大数据技术之Hadoop(HDFS文件系统).doc

    默认情况下,在Hadoop 2.x中,块大小为128MB,而在旧版本中为64MB。选择较大的块大小是为了减少寻址开销,使得数据传输时间主要依赖于磁盘传输速率,而非寻址时间。 ### HDFS命令行操作 Hadoop提供了丰富的命令行...

    hadoop的操作有图片

    - **启动DataNode**:使用**`hadoop-2.7.4/sbin/hadoop-daemon.sh start datanode`**。 - **启动NodeManager**:使用**`hadoop-2.7.4/sbin/yarn-daemon.sh start nodemanager`**。 ### 6. 测试Hadoop - **检查进程*...

    《Hadoop 数据分析平台》课程毕业测试题

    - **解释**: 由于HBase是一种列族数据库,它允许动态添加列,因此在设计表时不需要预先定义所有可能的列。因此,正确答案是A:不需要预定义列。 ### 29. 使用Ruby操作HDFS - **知识点**: 可以使用Hadoop Streaming ...

    Hadoop云计算平台搭建最详细过程(共22页).docx

    【Hadoop云计算平台搭建】 Hadoop是一个开源的分布式计算框架,专为处理和存储大量数据设计,常用于大数据处理和分析。本教程将详细介绍在Linux环境下搭建Hadoop云计算平台的过程,包括Hbase、Pig、Hive、Zookeeper...

    Hadoop3.1.2安装手册.pdf

    ### Hadoop 3.1.2 完全分布式集群安装指南 #### 一、基础知识与前期准备 **1.1 常用 Shell 命令** 为了更好地理解和执行 Hadoop 的安装步骤,首先需要掌握一些基本的 Linux 命令。 **1.1.1 sudo 命令** - **...

    Hadoop云计算平台搭建最详细过程(共22页).pdf

    8. **验证运行**:通过Hadoop提供的命令行工具或Web界面检查各个服务是否正常运行,例如,使用`jps`查看进程状态,或者访问NameNode的Web UI(默认端口50070)。 9. **安装Eclipse插件**:为了方便开发,可以在...

    kettle5.3连接hdfs、hbase、kettle5.2源码编译

    对于 Kettle 5.3,选择适用于 Hadoop 2.x 的 shim 包 hdp21。具体操作是在 `data-integration/plugins/pentaho-big-data-plugin/plugin.properties` 文件中,将 `active.hadoop.configuration` 属性值设置为 `hdp21`...

    HDFS原理介绍

    - `edits` 文件记录了针对文件系统的修改操作,包括添加、删除或修改文件等动作。每当有新的修改发生时,这些操作就会被记录下来。 - **启动过程**:启动时,NameNode会加载`fsimage` 文件中的内容到内存中,然后...

Global site tag (gtag.js) - Google Analytics