Hadoop的data.dir配置导致balancer无法平衡各节点 - BlackWing - ITeye博客

`

BlackWing

浏览: 202487 次
性别:
来自: 广州

最近访客更多访客>>

yr_zhang

haeng

dotjar

swu45

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

永立s：这篇博客帮我解决了一个问题,十分感谢.
HBase表增加snappy压缩
BlackWing：日志是job运行日志，看你怎么配置了，一般就在hadoop安装 ...
解决Exception from container-launch: ExitCodeException exitCode=1的另类错误
heymaomao： heymaomao 写道有两个问题，想请教下楼主第一是日志楼 ...
解决Exception from container-launch: ExitCodeException exitCode=1的另类错误
heymaomao：有两个问题，想请教下楼主第一是日志楼主到底看的是哪个日志文件 ...
解决Exception from container-launch: ExitCodeException exitCode=1的另类错误
atomduan：本地的Unix 进程创建失败，检查下服务器内存是否够用，是不是 ...
解决Exception from container-launch: ExitCodeException exitCode=1的另类错误

Hadoop的data.dir配置导致balancer无法平衡各节点

博客分类：

Linux
hadoop

hadoop balancer

阅读更多

hdfs的data.dir配置如下：

<property>
  <name>dfs.data.dir</name>
  <value>/diska/data/hadoop/data1,/diska/data/hadoop/data2</value>
 </property>

后来在web界面的live nodes中看到，怎么hadoop配置的可用空间比实际的空间要多一倍，所以推测，hadoop不会检测是否相同的盘，只单独计算data.dir配置的每个目录的总容量，简单相加。

因为要运行balancer，但发现log显示信息都正确，也表明要copy block到比较均衡的机器，但实际上却没有发生block的拷贝。

把data.dir修改正确后，balancer能正确均衡集群了。

bin/start-balancer.sh默认的一个判断是否均衡的阀值是10%，也就是说，各个节点间使用率的偏差不超过10%。

PS: hadoop中第dfs.replication设置第数量如果跟机器数一样，则也不能balance，因为这时每台机都已经有一个拷贝，就不会在复制。

从balancer的后台输出中看到，移动block时总是from ... to ... through ...，也就是说，会以一台中间节点来转移数据，但这只是表面看到的情况，实际情况是，through的这台节点，其实是包含要移动block的一个copy，并且是已经balanced的节点。这样的话，移动block就不必真的从非balanced的节点移动，减轻了要移动block的节点第压力。

分享到：

Hadoop使用lzo压缩输出 | Linux下too many open files问题

2012-07-26 17:25
浏览 2319
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

hadoop1.x与hadoop2.x配置异同: 在探讨Hadoop1.x与Hadoop2.x配置的异同之前，我们首先简要回顾一下GridGain In-Memory HDFS的特性，这是基于行业首个高性能双模式内存文件系统，完全兼容HDFS。GridGain FileSystem（GGFS）作为Hadoop HDFS的即插即...

Hadoop 2.x单节点部署学习。: 关键配置项包括`dfs.replication`（默认的文件复制因子），`dfs.namenode.name.dir`（名称节点的数据目录）和`dfs.datanode.data.dir`（数据节点的数据目录）。在单节点部署中，所有这些目录通常都会指向同一台机器...

Hadoop2.X集群安装与配置: 本文将详细介绍如何在三节点环境下安装和配置Hadoop 2.x 集群。一、环境准备在开始Hadoop的安装前，你需要确保你的硬件环境满足基本需求，包括足够的内存、硬盘空间以及至少三台服务器或虚拟机。每台节点应安装...

hadoop3.x盘地址及官方其他版本下载地址.rar: 1. **多名称节点（Multi-Namenode）**：Hadoop 3.x引入了活性名称节点（Active NN）和热备份名称节点（Standby NN）的架构，提高了名称节点的可用性和容错性，减少了单点故障的风险。 2. **更大块大小**：Hadoop 3....

hadoop2.x主要配置: 包含了hadoop配置文件core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml

hadoop-3.1.3.tar.gz: 《Hadoop 3.1.3在CentOS7上的安装与配置详解》 Hadoop，一个由Apache基金会所开发的分布式系统基础架构，是大数据处理领域的重要工具。本文将详细阐述如何在CentOS7操作系统上安装和配置Hadoop 3.1.3版本，旨在帮助...

spark-1.6.0-bin-hadoop2.6.tgz: - 配置`spark-env.sh`文件，根据实际环境设置`JAVA_HOME`, `HADOOP_CONF_DIR`等参数。 - 如果需要运行在Hadoop YARN上，还需要配置`yarn-site.xml`和`core-site.xml`等相关Hadoop配置文件。 - 启动Spark相关服务，如...

spark-3.1.2-bin-hadoop3.2.tgz: 4. 初始化Hadoop环境，确保Hadoop配置正确，并启动Hadoop服务。 5. 启动Spark相关服务，如`sbin/start-all.sh`启动所有Spark组件。 6. 使用`spark-shell`或`pyspark`启动交互式环境，开始编写和执行Spark程序。 **...

hadoop安装与配置 Hadoop的安装与配置可以分成几个主要步骤： 1. 安装Java 2. 下载Hadoop 3. 配: hadoop安装与配置 hadoop安装与配置 Hadoop的安装与配置可以分成几个主要步骤： 1. 安装Java 2. 下载Hadoop 3. 配置Hadoop 4. 格式化Hadoop文件系统 5. 启动Hadoop 以下是基于Linux系统的简化安装与配置步骤： 1. ...

hadoop3.x笔记.docx: Hadoop 是一个基于分布式存储的大数据处理框架，本文档将详细介绍 Hadoop 3.x 的配置和底层原理，从零搭建集群以及解决遇到的问题，通过图形化的方式更好地理解 Hadoop 的作用。一、HDFS 组成 HDFS（Hadoop ...

hadoop的winutils.exe及hadoop.dll文件: 我的报错：Could not locate Hadoop executable: E:\big_data\hadoop-3.3.0\bin\winutils.ex hadoop的winutils.exe及hadoop.dll文件,可以用于hadoop3.3. 下载好直接将两个文件复制到我们hadoop的bin目录下就行了

hadoop2.x 安装文档: ### Hadoop 2.x 安装与配置详解 #### 一、准备工作在开始Hadoop 2.x集群的搭建之前，需要确保以下条件已经满足： 1. **操作系统环境**: 所有的服务器节点均应安装Linux操作系统。 2. **Java Development Kit ...

Hadoop.Essentials.1784396680: MapReduce, HDFS, and other Hadoop ecosystem components, you will soon learn many exciting topics such as MapReduce patterns, data management, and real-time data analysis using Hadoop. You will also ...

Hadoop 2.x与3.x 22点比较,Hadoop 3.x比2.x的改进: Hadoop3版本中添加了哪些新功能，Hadoop3中兼容的Hadoop 2程序，Hadoop 2和Hadoop 3有什么区别？二、Hadoop 2.x与Hadoop 3.x比较本节将讲述Hadoop 2.x与Hadoop 3.x之间的22个差异。现在让我们逐一讨论 2.1...

spark2.3.0-hadoop2.6.tgz: 总结一下，这个“spark2.3.0-hadoop2.6.tgz”压缩包包含Spark 2.3.0 for Hadoop 2.6，你需要先安装Scala 11.x和Hadoop 2.6，然后解压并配置环境，包括修改“spark-env.sh”和“slaves”文件。最后，启动Spark集群以...

hadoop.dll、winutils.exe: 在下载的压缩包`hadoop2.6.3_windows_bin`中，除了`hadoop.dll` 和 `winutils.exe`，通常还包括其他Hadoop的Windows版本二进制文件和配置文件，如`hadoop-env.cmd`（环境变量设置脚本）、`core-site.xml`（核心配置...

Hadoop2.x HA环境搭建: - 将Zookeeper软件分发至其他节点（如node003和node004），并在各节点上完成个性化配置。 - 启动Zookeeper服务，其中node003作为leader节点，其余为follower节点。 6. **Hadoop的配置：** - 备份当前全分布式的...

hadoop2.X配置详解和mapreduce详解: 在Hadoop 1.x中，如果NameNode出现故障，整个集群将无法运行，因为NameNode负责管理文件系统的元数据。但在Hadoop 2.x中，通过引入两个NameNode，即一个处于Active状态，负责处理客户端请求，另一个处于Standby状态...

Apache Hadoop2.x 安装入门详解 PDF: 4. 配置Hadoop配置文件：如`core-site.xml`、`hdfs-site.xml`、`mapred-site.xml`和`yarn-site.xml`，设定HDFS和YARN的相关参数。 5. 初始化HDFS：运行`hdfs namenode -format`命令对NameNode进行格式化。 6. 启动...

Global site tag (gtag.js) - Google Analytics