我们现有的Hadoop集群已经运行了一段时间了 (转自高飞鸟博客)
由于集群中的服务器分布在2个不同的机房,受跨机房带宽的限制
集群中在2个机房之间的数据传输很慢
所以想把另一个机房的3台服务器从Hadoop集群中去掉
Hadoop提供了Decommission的特性,可以按照以下步骤来操作:
1. 在hadoop的conf目录下生成一个excludes的文件,写上需要remove的节点ip
一个节点一行,注意要写ip,不能写Hostname,如:
10.15.10.41
10.15.10.42
10.15.10.43
2. 在hdfs-site.xml中增加配置:
<property>
<name>dfs.hosts.exclude</name>
<value>/opt/sohuhadoop/conf/excludes</value>
<final>true</final>
</property>
3. 复制以上2个文件到集群节点中的NameNode即可,不需要分发到所有DataNode中
4. 执行hadoop dfsadmin -refreshNodes命令,它会在后台进行Block块的移动
从移出的Nodes上移动到其它的Nodes上面
5. 通过以下2种方式查看Decommission的状态:
hadoop dfsadmin -report
http://10.10.71.220:50070/dfsnodelist.jsp
正在执行Decommission,会显示:
Decommission Status : Decommission in progress
执行完毕后,会显示:
Decommission Status : Decommissioned
相关推荐
在构建Hadoop集群的过程中,确保各个节点之间能够实现免密登录是非常重要的步骤之一。这不仅提高了系统的安全性,还简化了日常运维操作。根据提供的信息,本文将详细介绍如何在CentOS7上配置三个结点的Hadoop集群...
本文主要介绍了如何在VirtualBox虚拟机环境下搭建并配置Hadoop集群。整个配置过程适用于虚拟环境,虽然文中提到未在真实环境中进行过测试,但原理相似,可以作为参考。 **虚拟机环境配置**: - **虚拟机软件**:...
这种模式也是在一台单机上运行,但用不同的Java进程模仿分布式运行中的各类结点(NameNode,DataNode,JobTracker,TaskTracker,SecondaryNameNode),请注意分布式运行中的这几个结点的区别:从分布式存储的角度来说,...
然而,在使用Hadoop时,经常会遇到一些常见的问题,这些问题可能会导致Hadoop集群无法正常工作或者性能下降。因此,本文总结了一些常见的问题及解决办法,以帮助用户更好地使用Hadoop。 问题1:Shuffle Error: ...
1. 集群环境介绍:在集群环境中,需要有三个结点,其中1个namenode,2个datanode,它们之间分布在局域网中。 2. 安装ssh协议:Hadoop需要使用ssh协议,namenode使用ssh协议启动namenode和datanode进程。 3. 安装JDK...
Hadoop 的出现使得开发者可以轻松地编写可处理海量数据的分布式并行程序,并将其运行于由成百上千个结点组成的大规模计算机集群上。 Hadoop 的应用前景非常广阔,已经被全球各大 IT 公司所采用,如雅虎、Amazon、...
* 云计算:Hadoop 是云计算环境中的重要基础软件,将在未来云计算项目中扮演着重要的角色。 * 大数据处理:Hadoop 将在未来的大数据处理项目中扮演着重要的角色,用于处理海量数据的计算任务。 5. Hadoop 相关技术...
1.集群配置,包含三个结点,主节点控制所有的子节点 2.集群已经搭建好了,解压之后直接可以使用Finalshell和VMware连接 3.包含全套组件:hdfs,hbase,hive,sqoop,mysql,pig,spark等大数据组件 4.如果不知道如何...
一 个集群有一个名字结点,也就是主控制服务器,负责管理文件系统的名字空间并协调客户对文件的访问。还有堆数据结点,一般一个物理结点上部署一个,负责它们所在的物理结点上的存储管理。 4. 文件系统的名字空间 ...
在云计算和大数据处理领域,Hadoop CDH(Cloudera's Distribution Including Apache Hadoop)是被广泛采用的一种开源Hadoop发行版,它提供了丰富的组件和工具,使得企业能够轻松管理和运行Hadoop生态系统。...
一个重要的配置项是dfs.support.append在hadoop/conf/hdfs-site.xml文件中的配置,需要将其设置为true,然后重启HDFS或者Hadoop。 具体安装步骤如下: 1. 下载HBase的压缩包,不需要使用root用户,普通用户即可...
在配置完全分布式的时候我们需要将主结点的配置文件分发到多台从结点上,使用xsync脚本就不用照着主节点一个个去改从结点的配置文件,比较省时省力,这个脚本内套rsync命令和循环,rsync相对于使用scp更快更简便,...
- 虽然具体内容没有在文档中列出,但根据标题可以推断,接下来应该是关于如何配置Hadoop的分布式文件系统HDFS的部分。这通常包括配置Hadoop的基本文件系统设置、格式化NameNode、启动DataNode和NameNode、测试集群...
* 共享 Hadoop 集群:管理人员把开发人员分成了若干个队列,每个队列有一定的资源,每个用户及用户组只能使用某个队列中指定资源。 * HDFS 安全机制:客户端获取 Namenode 的初始访问认证(使用 Kerberos)后,会...
本系统在处理数据时,特别针对Hadoop集群的计算节点性能进行优化,提高了相似度计算的效率。 相似度计算是协同过滤算法的核心步骤。为了适应分布式计算环境,本文提出了一种优化策略,包括“分母处理”和“相似度...
除了Hadoop之外,还有其他的技术和工具也在云计算模型中发挥着重要作用。例如,通过使用云存储、云平台服务等,能够实现数据的集中处理与分析,进一步提升系统的可扩展性和灵活性。随着技术的不断进步,这些系统能够...
安装CentOS7-X64,选择带GUI的服务器,非管理结点也可以最小安装+开发。选择带Infiniband 支持,Hdfs高性能稳定性集群搭建