`
BlackWing
  • 浏览: 200585 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

Hadoop的data.dir配置导致balancer无法平衡各节点

阅读更多
hdfs的data.dir配置如下:
<property>
  <name>dfs.data.dir</name>
  <value>/diska/data/hadoop/data1,/diska/data/hadoop/data2</value>
 </property>


后来在web界面的live nodes中看到,怎么hadoop配置的可用空间比实际的空间要多一倍,所以推测,hadoop不会检测是否相同的盘,只单独计算data.dir配置的每个目录的总容量,简单相加。

因为要运行balancer,但发现log显示信息都正确,也表明要copy block到比较均衡的机器,但实际上却没有发生block的拷贝。

把data.dir修改正确后,balancer能正确均衡集群了。

bin/start-balancer.sh默认的一个判断是否均衡的阀值是10%,也就是说,各个节点间使用率的偏差不超过10%。

PS: hadoop中第dfs.replication设置第数量如果跟机器数一样,则也不能balance,因为这时每台机都已经有一个拷贝,就不会在复制。

从balancer的后台输出中看到,移动block时总是from ... to ... through ...,也就是说,会以一台中间节点来转移数据,但这只是表面看到的情况,实际情况是,through的这台节点,其实是包含要移动block的一个copy,并且是已经balanced的节点。这样的话,移动block就不必真的从非balanced的节点移动,减轻了要移动block的节点第压力。
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics