出处:http://zzhblog.sinaapp.com/?p=82
一、 Hadoop节点热拔插
在Hadoop集群中经常会进行增添节点操作,即实现节点的热拔插。在这些操作中不希望对集群进行重启。
2.在集群中添加节点:
a. 把新节点IP或者主机名字加入到主节点的slaves文件。
b. 登录到新节点,执行:
1
2
3
|
cd
$HADOOP_HOME
bin
/hadoop-daemon
.sh start datanode
bin
/hadoop-daemon
.sh start tasktracker
|
3. 从集群中移走节点,且对移走节点的数据进行备份:
a. 在主节点的core-site.xml配置文件中添加
1
2
3
4
5
|
<
property
>
<
name
>dfs.hosts.exclude</
name
>
<
value
>/usr/local/hadoop/conf/exclude</
value
>
<
description
>A base for other temporary directories.</
description
>
</
property
>
|
b. 在主节点的$HADOOP_HOME/conf/目录下新建文件excludes,每行为需要移走的节点,该例为s140。
c. 运行命令:
1
|
hadoop dfsadmin -refreshNodes
|
该命令可以动态刷新dfs.hosts和dfs.hosts.exclude配置,无需重启NameNode。此刻datanode消失了,但是tasktracker还存在。
d. 然后热行命令,查看状态
1
|
bin
/hadoop
dfsadmin -report
|
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
|
Name: 192.168.3.140:50010
Decommission Status : Decommission in progress
Configured Capacity: 310716715008 (289.38 GB)
DFS Used: 59891990052 (55.78 GB)
Non DFS Used: 20663939548 (19.24 GB)
DFS Remaining: 230160785408(214.35 GB)
DFS Used%: 19.28%
DFS Remaining%: 74.07%
Last contact: Fri Aug 13 10:17:20 GMT+08:00 2010
Name: 192.168.3.136:50010
Decommission Status : Normal
Configured Capacity: 487925370880 (454.42 GB)
DFS Used: 101679245034 (94.7 GB)
Non DFS Used: 55873218838 (52.04 GB)
DFS Remaining: 330372907008(307.68 GB)
DFS Used%: 20.84%
DFS Remaining%: 67.71%
Last contact: Fri Aug 13 10:17:21 GMT+08:00 2010
|
e. 在停掉节点Decommission Status不为Normal前, mapreduce操作会出现异常。
f. 节点移走64G数据需要十分钟左右。
二、 数据负载均衡
1. 在Hadoop集群中新添加一个Datanode时,需要对集群数据进行负载均衡。
2. 在主节点运行bin/start-balancer.sh命令,可以添加参数-threshold 5,threshold是平衡阈值,默认是10%,值越小负载越均衡,但需要更长的时间去执行。
3. 添加s140到集群,执行负载均衡半个小时共负载了4G的数据。
分享到:
相关推荐
当需要增加集群的存储量时,建议增加 Hadoop datanode 节点。增加节点的步骤如下: 1. 停止集群,包括 Hadoop 和 HBase。 2. 在 Hadoop Namenode 的配置文件中添加新节点的 host。 3. 执行 bin/start-all.sh 启动...
Datanode的热插拔是指在Hadoop集群中动态添加或删除Datanode节点的过程。这种操作可以提高Hadoop集群的可扩展性和灵活性。 添加Datanode的步骤: 1. 在新机器上安装好Hadoop,并配置好和NameNode的SSH连接。 2. 把...
4. 文件读写:客户端在写文件时,先与Namenode通信确定数据块位置,然后直接与相应的Datanode交互;读文件时,Namenode会告诉客户端数据块的位置,客户端直接从Datanode读取数据。 5. HDFS命令行工具:通过`hadoop ...
3. 将`%HADOOP_HOME%\bin`添加到`PATH`环境变量,以便能够从任何目录运行Hadoop命令。 在配置完成后,需要为`winutils.exe`创建安全权限。在命令行中,使用以下命令: ```shell cd %HADOOP_HOME%\bin icacls . /...
如果需要增加集群的存储量,可以添加新的 datanode 节点。添加新节点的步骤如下: 1. 停止集群,包括 Hadoop 和 HBase。 2. 在 Hadoop Namenode 的配置文件中添加新节点的主机名。 3. 执行 bin/start-all.sh 命令...
在实际应用中,winutil.exe还常常与其他Hadoop工具一起使用,如Hadoop的命令行工具hadoop fs,进行文件系统的操作。同时,开发者也可能用到Hadoop的MapReduce或Spark框架,进行大规模数据处理。 总结,"Hadoop的...
本章旨在帮助读者深入了解并掌握Hadoop的管理技巧,包括但不限于HDFS命令行工具的使用方法、如何有效地添加或删除节点、使用Ganglia进行集群性能监控以及利用Sqoop实现数据导入与导出等功能。 #### HDFS命令行工具 ...
### Hadoop源代码分析——DataNode与NameNode交互之心跳机制 #### 概述 Hadoop作为一款开源的大数据处理框架,在分布式存储方面扮演着重要角色。本文将深入剖析Hadoop内部实现的一个关键部分——DataNode与...
4. **启动和停止Hadoop服务**: 在Windows上,可以使用`winutils.exe`来启动或停止DataNode、NameNode等Hadoop服务。 5. **Hive连接**: 对于使用Hive进行数据分析的用户,`winutils.exe`用于设置Hive Metastore的...
### 大数据、Hadoop与HDFS详解 随着信息技术的快速发展和互联网的普及,数据量呈爆炸性增长态势。传统的数据处理工具和技术已无法满足如此大规模数据的存储、管理和分析需求。为此,Apache Hadoop应运而生,它提供...
- **启动DataNode**:使用**`hadoop-2.7.4/sbin/hadoop-daemon.sh start datanode`**。 - **启动NodeManager**:使用**`hadoop-2.7.4/sbin/yarn-daemon.sh start nodemanager`**。 ### 6. 测试Hadoop - **检查进程*...
最后,将Hadoop的路径添加到环境变量中,使其可以在命令行中直接使用。 总的来说,Hadoop通过HDFS、MapReduce和YARN的协同工作,提供了处理大规模数据的能力,是大数据领域中的关键工具。理解这些核心组件的功能...
- 描述:定义 HDFS 与本地磁盘的临时文件目录,默认为 `/tmp/hadoop-${user.name}`。 - 示例:`hadoop.tmp.dir=/opt/hadoop/tmp` 4. **垃圾回收间隔时间** (`fs.trash.interval`): - 描述:定义文件被删除后放...
上一篇文章中我们介绍了Hadoop编程基于MR程序实现倒排索引示例的有关内容,这里我们看看如何在Hadoop中动态地增加和删除节点(DataNode)。 假设集群操作系统均为:CentOS 6.7 x64 Hadoop版本为:2.6.3 一、动态...
3. **启动和停止Hadoop服务**:在Windows上,我们可以使用`winutils.exe`来启动或停止DataNode、NameNode等Hadoop服务。 4. **安全认证**:在Hadoop集群中,如果启用了Kerberos安全模式,`winutils.exe`还可以用来...
这个问题是由于 /tmp 文件夹是 Hadoop 的必要文件夹,删除它将导致 Hadoop 无法正常工作。解决方法是:不要删除 /tmp 文件夹,避免影响 Hadoop 的正常工作。 这些故障解决方法可以帮助您快速解决 Hadoop 中常见的...
文档《linux创建用户、文件夹、用户组的添加和删除的命令及解说.docx》涵盖了这些基本操作,例如`useradd`、`groupadd`、`mkdir`、`rm`、`chown`、`chmod`等。 六、问题调试与优化 1. **日志查看**:通过检查...
在使用winutils.exe之前,用户需要配置Hadoop的环境变量,确保`winutils.exe`路径被正确添加到`PATH`中。此外,还需要配置Hadoop的配置文件,如`core-site.xml`和`hdfs-site.xml`,以指定HDFS的相关参数。 总之,...
3. Hadoop 集群:Hadoop 集群由多个节点组成,每个节点可以作为 NameNode 或 DataNode。启动 Hadoop 集群需要使用 start-dfs.sh 命令。 4. core-site.xml 配置文件:core-site.xml 文件是 Hadoop 的配置文件,用于...