一、背景
本篇主要针对Decommission状态的数据节点重用的处理方法。
如果是完全新增一个服务器作为新增节点,可参考本博客:http://szjian.iteye.com/admin/blogs/1221163
二、操作
1、在$HADOOP_HOME目录下,新建一个slaves.include文件(此文件名可随机取).它是一个文本, 里面每行就是想要使用的主机名或IP地址。
文件内容可如下:
10.12.3.124
10.12.3.125
10.12.3.127
10.12.3.128
10.12.3.129
这样就表明想要使用的数据节点有以上五台服务器,其中10.12.3.129是状态为Decommission的数据节点。
2、在名称节点(master)上,配置conf/mapred-site.xml文件,增加以下配置项:
<property>
<name>dfs.hosts</name>
<value>slaves.include</value>
</property>
<property>
<name>mapred.hosts</name>
<value>slaves.include</value>
</property>
3、在名称节点上,运行以下命令,更新结点以及hadoop配置:
-bash-3.2$ ./bin/hadoop dfsadmin -refreshNodes
4、到状态为Decommission的数据节点服务器,启动对应用datanode和tasktracker进程,命令如下:
./bin/hadoop-daemon.sh start datanode
./bin/hadoop-daemon.sh start tasktracker
5、状态查看:
1)可以通过 bin/hadoop dfsadmin -report 查看更新信息,内容如下:
Name: 10.12.3.129:50010
Decommission Status : Normal
Configured Capacity: 0 (0 KB)
DFS Used: 0 (0 KB)
Non DFS Used: 0 (0 KB)
DFS Remaining: 0(0 KB)
DFS Used%: 100%
DFS Remaining%: 0%
Last contact: Thu Jan 01 08:00:00 CST 1970
2)可以通过HADOOP WEB(http://masterIP:50070/)查看更新信息;
6、进行block块的均衡
在hdfs-site.xml中增加设置balance的带宽,默认只有1M:
<property>
<name>dfs.balance.bandwidthPerSec</name>
<value>10485760</value>
<description>
Specifies the maximum bandwidth that each datanode can utilize for the balancing purpose in term of the number of bytes per second.
</description>
</property>
运行以下命令:
/opt/sohuhadoop/hadoop/bin/start-balancer.sh -threshold 5
分享到:
相关推荐
`hdfs-site.xml`是HDFS(Hadoop Distributed File System)的配置文件,它定义了HDFS的行为,如副本数量、块大小、数据节点和名称节点的地址等。关键配置项包括`dfs.replication`(默认的文件复制因子),`dfs....
Hadoop动态增加节点与删除节点,本人自己整理。。
【基于Hadoop的电影影评数据分析】是一项大数据课程的大作业,旨在利用Hadoop的分布式处理能力来分析电影影评数据。Hadoop是一个由Apache软件基金会开发的开源框架,专为处理和存储大规模数据而设计。它由四个核心...
Centos7.0系统下配置Hadoop集群(以3节点为例)超详细过程
Hadoop和Spark多节点集群搭建Hadoop和Spark多节点集群搭建Hadoop和Spark多节点集群搭建Hadoop和Spark多节点集群搭建Hadoop和Spark多节点集群搭建Hadoop和Spark多节点集群搭建Hadoop和Spark多节点集群搭建Hadoop和...
《Hadoop权威指南》是大数据处理领域的一本经典著作,它深入浅出地介绍了Hadoop生态系统及其核心组件的使用。本示例中的“Hadoop权威指南天气数据”是指该书中用于演示Hadoop处理任务的数据集,具体包含了1901年和...
由于数据量巨大,这一过程通常会使用Hadoop的MapReduce实现,将数据分发到集群的各个节点上并行处理,以提高效率。 接下来,我们可能会对通话记录进行一系列统计分析,例如计算每个用户的平均通话时长、通话频率、...
在大数据处理领域,Hadoop和Spark是两个至关重要的框架,它们为海量数据的存储、管理和分析提供了高效且可扩展的解决方案。本资源包含了基于这两个框架的数据算法和源代码,可以帮助我们深入理解并实践大数据处理...
【基于Hadoop豆瓣电影数据分析实验报告】 在大数据时代,对海量信息进行高效处理和分析是企业决策的关键。Hadoop作为一款强大的分布式计算框架,自2006年诞生以来,已经在多个领域展现了其卓越的数据处理能力。本...
- Slave节点:Hadoop集群的从节点,负责实际的数据存储和计算任务。 4. 系统资源配置 - CPU资源:可能提及了各个节点的CPU资源分配情况。 - 内存资源:如文档中提到的120G、240G、32G、2.0G、128G等,这是内存资源...
在大数据处理领域,Hadoop 是一个至关重要的开源框架,它为海量数据的存储和处理提供了高效、可扩展的解决方案。本文将深入探讨“Hadoop 的大规模数据交换”这一主题,结合给定的压缩包文件“基于Hadoop 的大规模...
通过Nova,我们可以快速地创建和销毁Hadoop节点,适应数据量的变化;通过Swift或Cinder,可以为Hadoop提供弹性存储服务。同时,Neutron可以提供隔离的网络环境,保证数据传输的安全性。 四、实践:dataservice2-...
《大数据云计算技术:淘宝网Hadoop与数据分析》 在当今的信息时代,大数据和云计算已经成为了信息技术领域的核心组成部分。淘宝网作为中国最大的电子商务平台,其背后的数据处理能力是其成功的关键之一。本篇将深入...
Hadoop豆瓣电影数据分析(Hadoop)操作源码
Hadoop 多节点环境搭建 Hadoop 是一种分布式计算技术,能够处理大量数据。搭建 Hadoop 环境是学习和使用 Hadoop 的基础。本文将详细介绍如何搭建多节点 Hadoop 环境,包括安装 Ubuntu 操作系统、安装 Hadoop 软件、...
在这个过程中,Hadoop会将这些数据进行分片(Sharding),每个分片会在集群的不同节点上存储,以便于并行处理。 数据分片是Hadoop MapReduce的关键步骤,它将大文件分割成多个小块(默认大小为128MB),这些分片...
Hadoop是Apache软件基金会的一个开源项目,它提供了一个分布式文件系统(HDFS)和一个并行处理框架MapReduce,非常适合处理和存储大量数据。 首先,我们从单节点模式开始。在这个模式下,所有的Hadoop组件都运行在...
Hadoop 是一个开源的大数据处理框架,由Apache基金会维护。它可以在单节点模式下运行,以便于开发、测试和学习。单节点模式下,Hadoop 可以在一台机器上模拟分布式环境,方便用户快速上手和开发。 单节点模式的优点...
然后,需要规划合适的集群拓扑,如主节点、从节点的设置,以及如何确保数据的冗余和容错性。在操作系统的选择上,通常会选择稳定且支持Hadoop的Linux发行版,如CENTOS。 接下来,安装和配置Hadoop是关键步骤。这...