`
Taoo
  • 浏览: 294526 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

hadoop 批量移除 dataNode

 
阅读更多
其实就是编辑一个文本,文本内容就是写出要移除机器的ip地址。
然后在mapred-site.xml 设置dfs.hosts.exclude参数,其值为刚提到ip地址文件的路径。
然后执行hadoop dfsadmin -refreshNodes
ok,
这个时候,机器就会把那些有待移除的节点上的数据,开始搬移。其实这个时间比我想象的要快,具体多久,也没注意,出去吃顿饭,两个多小时移除了大概100G吧。
移除好后,在web界面上看,那些节点会变成dead nodes。


移除好之后,修改slaves文件,移除那些ip,然后在修改那个ip地址文件将里面的内容删去。
然后可以手动执行hadoop-deamon.sh停掉taskTracker和dataNode,当然,也可以重启集群。




以下为参考内容:
http://blog.csdn.net/fiberlijun/article/details/4832936
http://hi.baidu.com/surendaxiao/blog/item/6d2234c29334ee5fb319a843.html
http://hadoop.apache.org/common/docs/r0.20.0/cluster_setup.html

17. HDFS. 我想通过同时移除一批节点的方式把一个大机群缩小,这项任务如何完成?

从一个大机群中移除一两个数据节点不会导致任何数据丢失,因为名字节点在检测到数据节点失效时,会从别处复制它们所保存的数据块。如果有大量节点移除或崩溃,数据丢失的概率就增大了。

Hadoop 提供清退(decommission)机制以便从机群中安全地移除一批已存在的数据节点。方法是把需要移除的节点写在排除名单文件中,并把排除名单的文件名作为 dfs.hosts.exclude 的参数值。排除名单文件需要在名字节点启动时就准备好,它的长度也可以为零。在这个文件中,需要写完整的主机名、IP 或 IP:port 这样的格式。


分享到:
评论

相关推荐

    启动Hadoop后 没有DataNode进程 的解决方法

    启动Hadoop后 没有DataNode进程 的解决方法。 一篇文章带你快速了解!

    Hadoop datanode启动失败:Hadoop安装目录权限的问题

    ### Hadoop Datanode启动失败:Hadoop安装目录权限问题详解 #### 一、问题背景与现象 在部署Hadoop集群的过程中,用户可能会遇到Datanode启动失败的情况。这一问题通常表现为,在尝试启动Hadoop集群时,Datanode...

    hadoop client与datanode的通信协议分析

    在Hadoop分布式文件系统(HDFS)中,客户端与DataNode之间的通信是系统高效运行的关键环节。本文主要关注Hadoop客户端在读写Block时的工作流程,以及客户端与DataNode通信的协议和数据流格式。 首先,当客户端需要...

    hadoop 源码解析-DataNode

    Hadoop 源码解析 - DataNode Hadoop 作为一个大数据处理框架,其核心组件之一是分布式文件系统(HDFS),而 DataNode 是 HDFS 中的重要组件之一。DataNode 负责存储和管理数据块,提供数据访问服务。本文将对 ...

    HadoopHA集群 批量启动脚本

    HadoopHA集群 批量启动脚本HadoopHA集群 批量启动脚本HadoopHA集群 批量启动脚本HadoopHA集群 批量启动脚本

    Hadoop集群datanode磁盘不均衡的解决方案

    因业务需要搭建一个新hadoop集群,并将老的hadoop集群中的数据迁移至新的hadoop集群,而且datanode节点不能全部上线,其中还可能会出现节点上线或下线的情况,这个时候就很容易出现机器与机器之间磁盘的均衡的情况,...

    Hadoop datanode重新加载失败无法启动解决.docx

    Hadoop datanode重新加载失败无法启动解决 本文将详细讲解Hadoop datanode重新加载失败无法启动解决的知识点,主要包括datanode加载失败的原因、解决方法和步骤。 知识点1: datanode加载失败的原因 datanode加载...

    hadoop2.4.1三台机器分布式安装

    weekend05 192.168.1.205 jdk、hadoop、zookeeper DataNode、NodeManager、JournalNode、QuorumPeerMain weekend06 192.168.1.206 jdk、hadoop、zookeeper DataNode、NodeManager、JournalNode、QuorumPeerMain ...

    hadoop2.0 2个namenode 2个datanode 部署

    Hadoop 2.0 双 Namenode 双 Datanode 部署 Hadoop 是一个开源的大数据处理框架,它提供了分布式文件系统(HDFS)和Map/Reduce 计算框架。 在这个部署中,我们将使用 Hadoop 2.0 在两个 Ubuntu 服务器上部署双 ...

    基于zookeeper的hadoop ha集群安装过程

    * 需要确保Hadoop NameNode和DataNode的高可用性,以便于Hadoop HA集群的正常运行。 * 需要配置Hadoop HA集群,以实现高可用性和可扩展性。 基于ZooKeeper的Hadoop HA集群可以提供高可用性和可扩展性,满足企业对大...

    第十七讲hadoop分布计算配置.pptx

    scp -r /home/hadoop/hadoop-1.0.4 datanode1:/home/hadoop scp -r /home/hadoop/hadoop-1.0.4 datanode2:/home/hadoop ``` 2. **启动Hadoop**: - 格式化HDFS文件系统(仅需首次执行): ```bash hadoop ...

    hadoop 关闭进程时报错no 进程 to stop

    - 如果你有Hadoop的源码,并且对错误定位有深入需求,可以查看相关源码模块,特别是与进程管理和停止相关的部分,例如`ResourceManager`或`DataNode`的停止逻辑。 9. **工具使用**: - 使用如`jstack`或`ps`命令...

    hadoop+hbase集群搭建 详细手册

    | hadoop-node7 | *.*.83.7 | Hadoop Datanode/HBase HRegionServer/ZooKeeper | | hadoop-node8 | *.*.83.8 | Hadoop Secondary Namenode/HBase HMaster/ZooKeeper | 三、硬件环境 在本文中,我们使用8台曙光...

    Hadoop技术内幕 深入解析HADOOP COMMON和HDFS架构设计与实现原理

    Hadoop的扩展性体现在它能够通过增加更多的DataNode来扩大存储容量,通过增加更多的TaskTracker(在Hadoop 2.x版本中称为YARN NodeManager)来提升计算能力。YARN作为Hadoop 2.x的资源管理系统,分离了计算和调度...

    安装hadoop

    批量安装hadoop示例批量安装hadoop示例批量安装hadoop示例

Global site tag (gtag.js) - Google Analytics