`

Hadoop节点热拔插

阅读更多

转 :

一、 Hadoop节点热拔插

在Hadoop集群中经常会进行增添节点操作,即实现节点的热拔插。在这些操作中不希望对集群进行重启。

2.在集群中添加节点:

a. 把新节点IP或者主机名字加入到主节点的slaves文件。

b. 登录到新节点,执行:

cd $HADOOP_HOME &&

bin/hadoop-daemon.sh start datanode

bin/hadoop-daemon.sh start tasktracker

3. 从集群中移走节点,且对移走节点的数据进行备份:

a. 在主节点的core-site.xml配置文件中添加

dfs.hosts.exclude

excludes




b. 在主节点的$HADOOP_HOME目录下新建文件excludes,每行为需要移走的节点,该例为s140。

c. 运行命令:hadoop dfsadmin -refreshNodes,该命令可以动态刷新dfs.hosts和dfs.hosts.exclude配置,无需重启NameNode。此刻datanode消失了,但是tasktracker还存在。

d. 然后通过 bin/hadoop dfsadmin -report查看,结果如下:
Name: 192.168.3.140:50010

Decommission Status : Decommission in progress

Configured Capacity: 310716715008 (289.38 GB)

DFS Used: 59891990052 (55.78 GB)

Non DFS Used: 20663939548 (19.24 GB)

DFS Remaining: 230160785408(214.35 GB)

DFS Used%: 19.28%

DFS Remaining%: 74.07%

Last contact: Fri Aug 13 10:17:20 GMT+08:00 2010

Name: 192.168.3.136:50010

Decommission Status : Normal

Configured Capacity: 487925370880 (454.42 GB)

DFS Used: 101679245034 (94.7 GB)

Non DFS Used: 55873218838 (52.04 GB)

DFS Remaining: 330372907008(307.68 GB)

DFS Used%: 20.84%

DFS Remaining%: 67.71%

Last contact: Fri Aug 13 10:17:21 GMT+08:00 2010


e. 在停掉节点Decommission Status不为Normal前, mapreduce操作会出现异常。

f. 节点移走64G数据需要十分钟左右。

二、 数据负载均衡

1. 在Hadoop集群中新添加一个Datanode时,需要对集群数据进行负载均衡。

2. 在主节点运行bin/start-balancer.sh命令,可以添加参数-threshold 5,threshold是平衡阈值,默认是10%,值越小负载越均衡,但需要更长的时间去执行

3. 添加s140到集群,执行负载均衡半个小时共负载了4G的数据

分享到:
评论

相关推荐

    hadoop和hive调优个人总结

    Datanode的热插拔是指在Hadoop集群中动态添加或删除Datanode节点的过程。这种操作可以提高Hadoop集群的可扩展性和灵活性。 添加Datanode的步骤: 1. 在新机器上安装好Hadoop,并配置好和NameNode的SSH连接。 2. 把...

    hadoop分享.pptx

    - 高可用性:Hadoop具有良好的容错机制,节点可以热插拔,不影响集群运行。 - 易于扩展:Hadoop可以轻松添加或删除节点,以适应数据量的变化。 - 高效率:数据在本地节点处理,减少了网络传输,提高了数据处理...

    大数据云计算技术 暴风集团基于hadoop的数据平台总体架构简介(共18页).ppt

    Hadoop集群具有高可用性、可扩展性和可维护性,支持热插拔节点,能在上千台节点上稳定运行,且硬件要求相对较低。 通过暴风集团的数据平台架构,我们可以看到Hadoop如何在实际场景中应对大数据挑战,提升数据处理...

    暴风数据平台简介.pdf

    - **热插拔节点**: 支持在不影响集群整体运行的情况下增加或移除节点,提高了系统的灵活性和扩展性。 - **成功应用案例**: 已有数千台节点的成功部署经验,证明了Hadoop在实际应用场景中的稳定性和可靠性。 综上所...

    基于Hama并行计算框架的多层级作业调度算法的研究及实现.pdf

    在算法实现中,基于Hama 0.6.3版本,采用Java语言开发,并利用Schedulable接口实现作业调度器的热插拔。作业等待队列采用公平共享策略,资源选择策略采用轮询策略,作业选择策略结合FIFO和最大作业优先策略。具体...

    自主研发的一个java版本的分布式的通用爬虫

    这个爬虫系统设计灵活,支持组件的热插拔,这意味着开发者可以在不中断爬虫运行的情况下添加、修改或移除功能模块,提高了系统的可扩展性和维护性。 首先,让我们深入了解一下Java在这个分布式爬虫中的应用。Java...

    华为大数据FusionInsight HD解决方案

    - **数据可靠性**:关键数据采取掉电保护措施,支持硬盘热插拔功能。 - **管理可靠性**:所有管理节点均实现HA配置,确保管理服务的不间断运行。 #### 强大的Hadoop内核团队支持 华为拥有一个强大的Hadoop内核开发...

    戴尔PowerEdge C2100服务器产品手册(英文)

    它可以支持最多12个3.5英寸的热插拔硬盘,包括SATA或SAS接口的高速硬盘,以及内部的两个2.5英寸SATA硬盘或单层单元(SLC)固态硬盘(SSD)。在磁盘组合方面,提供了多种配置,包括选择高容量的SATA硬盘或者高性能的...

    DSC:群集文件系统中异步编码的动态条带构造

    此外,DSC具有足够的通用性,可以应用于任何具有不同纠删码的现有群集文件系统,并且可以以热插拔的方式部署在分布式文件系统上。 4. 实验验证与效果评估:为了验证DSC的有效性,研究人员在HDFS(Hadoop分布式文件...

Global site tag (gtag.js) - Google Analytics