在线上的hadoop集群运维过程中,hadoop 的balance工具通常用于平衡hadoop集群中各datanode中的文件块分布,以避免出现部分datanode磁盘占用率高的问题(这问题也很有可能导致该节点CPU使用率较其他服务器高)。
1) hadoop balance工具的用法:
To start:
bin/start-balancer.sh [-threshold <threshold>]
Example: bin/ start-balancer.sh
start the balancer with a default threshold of 10%
bin/ start-balancer.sh -threshold 5
start the balancer with a threshold of 5%
To stop:
bin/ stop-balancer.sh
2)影响hadoop balance工具的几个参数:
-threshold 默认设置:10,参数取值范围:0-100,参数含义:判断集群是否平衡的目标参数,每一个 datanode 存储使用率和集群总存储使用率的差值都应该小于这个阀值 ,理论上,该参数设置的越小,整个集群就越平衡,但是在线上环境中,hadoop集群在进行balance时,还在并发的进行数据的写入和删除,所以有可能无法到达设定的平衡参数值。
dfs.balance.bandwidthPerSec 默认设置:1048576(1 M/S),参数含义:设置balance工具在运行中所能占用的带宽,设置的过大可能会造成mapred运行缓慢
3)hadoop balance工具其他特点:
balance工具在运行过程中,迭代的将文件块从高使用率的datanode移动到低使用率的datanode上,每一个迭代过程中移动的数据量不超过下面两个值的较小者:10G或者指定阀值*容量,且每次迭代不超过20分钟。每次迭代结束后,balance工具将更新该datanode的文件块分布情况。以下为官方文档英文描述:
The tool moves blocks from highly utilized datanodes to poorly utilized datanodes
iteratively. In each iteration a datanode moves or receives no more than the lesser of 10G
bytes or the threshold fraction of its capacity. Each iteration runs no more than 20
minutes. At the end of each iteration, the balancer obtains updated datanodes information
from the namenode.
在要balance的slave执行:
start-balancer.sh -threshold 10%
或 ./hadoop balancer -threshold 10
由于hadoop集群的机器磁盘容量大小不等,造成磁盘使用率不同,有的使用了10%,而有的已经100%,这个对整个系统的运行是有问题的。
暂时还没有找到控制磁盘使用率的参数,可以通过hadoop命令行来手动调节磁盘的使用情况。
> hadoop balancer -Threshold 20
或者 sh $HADOOP_HOME/bin/start-balancer.sh –t 20%
参数20是比例参数,表示20%,也就是平各个DataNode直接磁盘使用率偏差在20%以内。
分享到:
相关推荐
Hadoop 集群配置详解 Hadoop_Hadoop集群(第1期)_CentOS安装配置 Hadoop_Hadoop集群(第2期)_机器信息分布表 Hadoop_Hadoop集群(第4期)_SecureCRT使用 Hadoop_Hadoop集群(第5期)_Hadoop安装配置 Hadoop_Hadoop...
"Hadoop集群虚拟机安装详解概要" 本文档主要讲述了在VMWare Workstation 8.0上安装和配置Hadoop集群环境的详细过程。下面是相关的知识点: 一、VMWare Workstation 8.0的安装和配置 * VMWare Workstation 8.0是...
在搭建Hadoop集群的过程中,首先需要一个可靠的虚拟化平台,VMware Workstation 8.0.0 是一个常用的选择。这个版本支持创建和管理虚拟机,对于初学者来说,它提供了一个理想的环境来实践Hadoop集群的安装和配置。在...
"Hadoop集群安装笔记" Hadoop集群安装笔记是一篇详细的安装指南,旨在帮助新手快速搭建Hadoop学习环境。以下是该笔记中的重要知识点: Hadoop集群安装目录 在安装Hadoop集群之前,需要准备好安装环境。安装环境...
在linux环境下部署的Hadoop集群-WordCount运行详解。
Hadoop 集群部署操作 Hadoop 集群部署操作是指规划、安装和配置 Hadoop 集群的整个过程,以便在生产环境中运行 Hadoop 应用程序。下面是 Hadoop 集群部署操作的详细知识点: 规划 Hadoop 集群 * 规划主机名:...
### Hadoop集群安装配置详解 #### 一、集群部署介绍 **1.1 Hadoop简介** Hadoop是一个开源分布式计算平台,由Apache软件基金会维护。它主要包括两大部分:Hadoop分布式文件系统(HDFS)和MapReduce计算框架。HDFS...
CentOS6.5系统下Hadoop2.6.0集群增加机器详解
总结来说,搭建Hadoop集群环境首先需要准备虚拟机环境,安装操作系统,配置虚拟机工具以便于文件传输,安装并配置JDK环境以支持Java程序的运行,设置SSH免密码登录以便于集群节点之间的安全通信,最后还需要为集群中...
Hadoop作为大数据处理的核心组件,包括HDFS(Hadoop Distributed File System)和MapReduce等模块,构建一个Hadoop集群通常涉及多台服务器的配置、软件安装、服务启动和集群配置。通过Ansible,我们可以简化这个过程...
本篇文档深入浅出地介绍了Hadoop集群的WordCount运行详解,从MapReduce理论到WordCount程序的运行,再到源码分析,内容丰富且详细,对于想要入门和深入了解Hadoop分布式计算和MapReduce模型的读者来说,是一份宝贵的...
自动化安装hadoop集群 脚本搭建hadoop集群 可以自定义主机名和IP地址 可以自定义安装jdk和hadoop(格式为*tar.gz) 注意事项 1、安装完jdk和hadoop请手动source /etc/profile 刷新环境变量 2测试脚本环境为centOS6,...
部署全分布模式Hadoop集群 实验报告一、实验目的 1. 熟练掌握 Linux 基本命令。 2. 掌握静态 IP 地址的配置、主机名和域名映射的修改。 3. 掌握 Linux 环境下 Java 的安装、环境变量的配置、Java 基本命令的使用。 ...
Hadoop集群·WordCount运行详解(第6期) Hadoop集群·Eclipse开发环境设置(第7期) Hadoop集群·HDFS初探之旅(第8期) Hadoop集群·MapReduce初级案例(第9期) Hadoop集群·MySQL关系数据库(第10期) Hadoop...
这个“细细品味Hadoop_Hadoop集群(第9期)_MapReduce初级案例”主题聚焦于Hadoop集群的核心组件——MapReduce,这是一种分布式计算模型,对于处理海量数据具有重要作用。 MapReduce的工作原理可以分为两个主要阶段...
- Maven或Gradle等构建工具可以帮助管理Hadoop项目的依赖关系,方便构建和部署。 - Eclipse和IntelliJ IDEA等IDE提供了Hadoop插件,便于调试和测试Hadoop应用程序。 5. Hadoop集群部署: - 单机模式:用于开发和...
### Hadoop集群构建实训知识点详解 #### 一、运行平台构建 在构建Hadoop集群之前,需要对各台服务器进行必要的配置,确保集群能够稳定运行。主要包括修改主机名称、配置域名解析规则、关闭防火墙以及配置免密登录...
Hadoop集群搭建详解 Hadoop是一个开源的分布式计算平台,由 Apache 软件基金会开发,核心组件包括HDFS(Hadoop Distributed Filesystem)和MapReduce。HDFS是一个分布式文件系统,提供了对文件系统的命名空间和...