`
邢邢色色
  • 浏览: 229966 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

【转 】Hadoop datanode添加与删除

阅读更多

出处:http://zzhblog.sinaapp.com/?p=82

 

一、 Hadoop节点热拔插

在Hadoop集群中经常会进行增添节点操作,即实现节点的热拔插。在这些操作中不希望对集群进行重启。

2.在集群中添加节点:

a. 把新节点IP或者主机名字加入到主节点的slaves文件。

 

b. 登录到新节点,执行:

1
2
3
 cd $HADOOP_HOME
 bin /hadoop-daemon .sh start datanode
 bin /hadoop-daemon .sh start tasktracker

3. 从集群中移走节点,且对移走节点的数据进行备份:

a. 在主节点的core-site.xml配置文件中添加

1   
2
3
4
5
< property >
   < name >dfs.hosts.exclude</ name >
   < value >/usr/local/hadoop/conf/exclude</ value >
   < description >A base for other temporary directories.</ description >
</ property >

b. 在主节点的$HADOOP_HOME/conf/目录下新建文件excludes,每行为需要移走的节点,该例为s140。

c. 运行命令:

1
hadoop dfsadmin -refreshNodes

该命令可以动态刷新dfs.hosts和dfs.hosts.exclude配置,无需重启NameNode。此刻datanode消失了,但是tasktracker还存在。

d. 然后热行命令,查看状态

1
bin /hadoop dfsadmin -report
1
2  
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
Name: 192.168.3.140:50010
Decommission Status : Decommission in progress
Configured Capacity: 310716715008 (289.38 GB)
DFS Used: 59891990052 (55.78 GB)
Non DFS Used: 20663939548 (19.24 GB)
DFS Remaining: 230160785408(214.35 GB)
DFS Used%: 19.28%
DFS Remaining%: 74.07%
Last contact: Fri Aug 13 10:17:20 GMT+08:00 2010
Name: 192.168.3.136:50010
Decommission Status : Normal
Configured Capacity: 487925370880 (454.42 GB)
DFS Used: 101679245034 (94.7 GB)
Non DFS Used: 55873218838 (52.04 GB)
DFS Remaining: 330372907008(307.68 GB)
DFS Used%: 20.84%
DFS Remaining%: 67.71%
Last contact: Fri Aug 13 10:17:21 GMT+08:00 2010

e. 在停掉节点Decommission Status不为Normal前, mapreduce操作会出现异常。

f. 节点移走64G数据需要十分钟左右。

二、 数据负载均衡

1. 在Hadoop集群中新添加一个Datanode时,需要对集群数据进行负载均衡。

2. 在主节点运行bin/start-balancer.sh命令,可以添加参数-threshold 5,threshold是平衡阈值,默认是10%,值越小负载越均衡,但需要更长的时间去执行。

3. 添加s140到集群,执行负载均衡半个小时共负载了4G的数据。

分享到:
评论

相关推荐

    hadoop—集群维护手册分享.pdf

    当需要增加集群的存储量时,建议增加 Hadoop datanode 节点。增加节点的步骤如下: 1. 停止集群,包括 Hadoop 和 HBase。 2. 在 Hadoop Namenode 的配置文件中添加新节点的 host。 3. 执行 bin/start-all.sh 启动...

    hadoop和hive调优个人总结

    Datanode的热插拔是指在Hadoop集群中动态添加或删除Datanode节点的过程。这种操作可以提高Hadoop集群的可扩展性和灵活性。 添加Datanode的步骤: 1. 在新机器上安装好Hadoop,并配置好和NameNode的SSH连接。 2. 把...

    实验2-Hadoop安装与HDFS基础实践.nbn.zip

    4. 文件读写:客户端在写文件时,先与Namenode通信确定数据块位置,然后直接与相应的Datanode交互;读文件时,Namenode会告诉客户端数据块的位置,客户端直接从Datanode读取数据。 5. HDFS命令行工具:通过`hadoop ...

    hadoop常见问题及解决办法

    同时,需要删除各DataNode上的dfs.data.dir路径。 问题5:java.io.IOException: Could not obtain block 问题描述:Hadoop抛出java.io.IOException: Could not obtain block错误。 解决办法:该问题是由于结点...

    window版本下的hadoop 2.7.2版本的hadoop.dll和winutils.exe

    3. 将`%HADOOP_HOME%\bin`添加到`PATH`环境变量,以便能够从任何目录运行Hadoop命令。 在配置完成后,需要为`winutils.exe`创建安全权限。在命令行中,使用以下命令: ```shell cd %HADOOP_HOME%\bin icacls . /...

    Hadoop的winutil.exe合集.zip

    在实际应用中,winutil.exe还常常与其他Hadoop工具一起使用,如Hadoop的命令行工具hadoop fs,进行文件系统的操作。同时,开发者也可能用到Hadoop的MapReduce或Spark框架,进行大规模数据处理。 总结,"Hadoop的...

    Hadoop使用常见问题以及解决方法

    解决方法是删除 NameNode 和 DataNode 的文件系统路径,然后重新格式化分布式文件系统。 java.io.IOException: Could not obtain block java.io.IOException: Could not obtain block 是 Hadoop 中的常见问题,...

    Hadoop 管理

    本章旨在帮助读者深入了解并掌握Hadoop的管理技巧,包括但不限于HDFS命令行工具的使用方法、如何有效地添加或删除节点、使用Ganglia进行集群性能监控以及利用Sqoop实现数据导入与导出等功能。 #### HDFS命令行工具 ...

    Hadoop源代码分析(三三)

    ### Hadoop源代码分析——DataNode与NameNode交互之心跳机制 #### 概述 Hadoop作为一款开源的大数据处理框架,在分布式存储方面扮演着重要角色。本文将深入剖析Hadoop内部实现的一个关键部分——DataNode与...

    hadoop运行winutils.exe

    4. **启动和停止Hadoop服务**: 在Windows上,可以使用`winutils.exe`来启动或停止DataNode、NameNode等Hadoop服务。 5. **Hive连接**: 对于使用Hive进行数据分析的用户,`winutils.exe`用于设置Hive Metastore的...

    大数据--Hadoop HDFS

    ### 大数据、Hadoop与HDFS详解 随着信息技术的快速发展和互联网的普及,数据量呈爆炸性增长态势。传统的数据处理工具和技术已无法满足如此大规模数据的存储、管理和分析需求。为此,Apache Hadoop应运而生,它提供...

    hadoop的操作有图片

    - **启动DataNode**:使用**`hadoop-2.7.4/sbin/hadoop-daemon.sh start datanode`**。 - **启动NodeManager**:使用**`hadoop-2.7.4/sbin/yarn-daemon.sh start nodemanager`**。 ### 6. 测试Hadoop - **检查进程*...

    Hadoop(一)Hadoop核心架构与安装.doc

    最后,将Hadoop的路径添加到环境变量中,使其可以在命令行中直接使用。 总的来说,Hadoop通过HDFS、MapReduce和YARN的协同工作,提供了处理大规模数据的能力,是大数据领域中的关键工具。理解这些核心组件的功能...

    hadoop HDFS增删改

    - 描述:定义 HDFS 与本地磁盘的临时文件目录,默认为 `/tmp/hadoop-${user.name}`。 - 示例:`hadoop.tmp.dir=/opt/hadoop/tmp` 4. **垃圾回收间隔时间** (`fs.trash.interval`): - 描述:定义文件被删除后放...

    hadoop动态增加和删除节点方法介绍

    上一篇文章中我们介绍了Hadoop编程基于MR程序实现倒排索引示例的有关内容,这里我们看看如何在Hadoop中动态地增加和删除节点(DataNode)。 假设集群操作系统均为:CentOS 6.7 x64 Hadoop版本为:2.6.3 一、动态...

    windows下安装hadoop所需要的winutil

    3. **启动和停止Hadoop服务**:在Windows上,我们可以使用`winutils.exe`来启动或停止DataNode、NameNode等Hadoop服务。 4. **安全认证**:在Hadoop集群中,如果启用了Kerberos安全模式,`winutils.exe`还可以用来...

    hadoop出错解决方法

    这个问题是由于 /tmp 文件夹是 Hadoop 的必要文件夹,删除它将导致 Hadoop 无法正常工作。解决方法是:不要删除 /tmp 文件夹,避免影响 Hadoop 的正常工作。 这些故障解决方法可以帮助您快速解决 Hadoop 中常见的...

    hadoop配置

    文档《linux创建用户、文件夹、用户组的添加和删除的命令及解说.docx》涵盖了这些基本操作,例如`useradd`、`groupadd`、`mkdir`、`rm`、`chown`、`chmod`等。 六、问题调试与优化 1. **日志查看**:通过检查...

    winutils-master.zip hadoop windows运行插件

    在使用winutils.exe之前,用户需要配置Hadoop的环境变量,确保`winutils.exe`路径被正确添加到`PATH`中。此外,还需要配置Hadoop的配置文件,如`core-site.xml`和`hdfs-site.xml`,以指定HDFS的相关参数。 总之,...

Global site tag (gtag.js) - Google Analytics