Hadoop性能优化:Hadoop机架感知实现及配置:分布式的集群通常包含非常多的机器,由于受到机架槽位和交换机网口的限制,通常大型的分布式集群都会跨好几个机架,由多个机架上的机器共同组成一个分布式集群。机架内的机器之间的网络速度通常都会高于跨机架机器之间的网络速度,并且机架之间机器的网络通信通常受到上层交换机间网络带宽的限制。
具体到Hadoop集群,由于Hadoop的HDFS对数据文件的分布式存放是按照分块block存储,每个block会有多个副本(默认为3),并且为了数据的安全和高效,所以Hadoop默认对3个副本的存放策略为:
在本地机器的hdfs目录下存储一个block
在另外一个rack的某个datanode上存储一个block
在该机器的同一个rack下的某台机器上存储最后一个block
这样的策略可以保证对该block所属文件的访问能够优先在本rack下找到,如果整个rack发生了异常,也可以在另外的rack上找到该block的副本。这样足够的高效,并且同时做到了数据的容错。
但是,Hadoop对机架的感知并非是自适应的,亦即,Hadoop集群分辨某台slave机器是属于哪个rack并非是只能的感知的,而是需要Hadoop的管理者人为的告知Hadoop哪台机器属于哪个rack,这样在Hadoop的namenode启动初始化时,会将这些机器与rack的对应信息保存在内存中,用来作为对接下来所有的HDFS的写块操作分配datanode列表时(比如3个block对应三台datanode)的选择datanode策略,做到Hadoop allocate block的策略:尽量将三个副本分布到不同的rack。
接下来的问题就是:通过什么方式能够告知Hadoop namenode哪些slaves机器属于哪个rack?以下是配置步骤。
默认情况下,Hadoop的机架感知是没有被启用的。所以,在通常情况下,Hadoop集群的HDFS在选机器的时候,是随机选择的,也就是说,很有可能在写数据时,Hadoop将第一块数据block1写到了rack1上,然后随机的选择下将block2写入到了rack2下,此时两个rack之间产生了数据传输的流量,再接下来,在随机的情况下,又将block3重新又写回了rack1,此时,两个rack之间又产生了一次数据流量。在job处理的数据量非常的大,或者往Hadoop推送的数据量非常大的时候,这种情况会造成rack之间的网络流量成倍的上升,成为性能的瓶颈,进而影响作业的性能以至于整个集群的服务。
要将Hadoop机架感知的功能启用,配置非常简单,在namenode所在机器的Hadoop-site.xml配置文件中配置一个选项:
topology.script.file.name
/path/to/script
这个配置选项的value指定为一个可执行程序,通常为一个脚本,该脚本接受一个参数,输出一个值。接受的参数通常为某台datanode机器的ip地址,而输出的值通常为该ip地址对应的datanode所在的rack,例如”/rack1”。Namenode启动时,会判断该配置选项是否为空,如果非空,则表示已经用机架感知的配置,此时namenode会根据配置寻找该脚本,并在接收到每一个datanode的heartbeat时,将该datanode的ip地址作为参数传给该脚本运行,并将得到的输出作为该datanode所属的机架,保存到内存的一个map中。
至于脚本的编写,就需要将真实的网络拓朴和机架信息了解清楚后,通过该脚本能够将机器的ip地址正确的映射到相应的机架上去。一个简单的实现如下:
#!/usr/bin/perl -w
use strict;
my $ip = $ARGV[0];
my $rack_num = 3;
my @ip_items = split /\./, $ip;
my $ip_count = 0;
foreach my $i (@ip_items) {
$ip_count += $i;
}
my $rack = "/rack".($ip_count % $rack_num);
print "$rack";
功能测试
以下是分别就配置了机架感知信息和没有配置机架感知信息的Hadoop HDFS启动instance进行的数据上传时的测试结果。
写入数据
当没有配置机架信息时,所有的机器Hadoop都默认在同一个默认的机架下,名为 “/default-rack”,这种情况下,任何一台datanode机器,不管物理上是否属于同一个机架,都会被认为是在同一个机架下,此时,就很容易出现之前提到的增添机架间网络负载的情况。例如,对没有机架信息的Hadoop HDFS启动instance上传一个文件,其block信息如下:
在没有机架信息的情况下,namenode默认将所有的slaves机器全部默认为在/default-rack下,根据Hadoop代码的分析也能知道哦啊,此时在写block时,三个datanode机器的选择完全是随机的。
而当配置了机架感知信息以后,Hadoop在选择三个datanode时,就会进行相应的判断:
1.如果上传本机不是一个datanode,而是一个客户端,那么就从所有slave机器中随机选择一台datanode作为第一个块的写入机器(datanode1)。
而此时如果上传机器本身就是一个datanode(例如mapreduce作业中task通过DFSClient向hdfs写入数据的时候),那么就将该datanode本身作为第一个块写入机器(datanode1)。
2.随后在datanode1所属的机架以外的另外的机架上,随机的选择一台,作为第二个block的写入datanode机器(datanode2)。
3.在写第三个block前,先判断是否前两个datanode是否是在同一个机架上,如果是在同一个机架,那么就尝试在另外一个机架上选择第三个datanode作为写入机器(datanode3)。而如果datanode1和datanode2没有在同一个机架上,则在datanode2所在的机架上选择一台datanode作为datanode3。
4.得到3个datanode的列表以后,从namenode返回该列表到DFSClient之前,会在namenode端首先根据该写入客户端跟datanode列表中每个datanode之间的“距离”由近到远进行一个排序。如果此时DFS写入端不是datanode,则选择datanode列表中的第一个排在第一位。客户端根据这个顺序有近到远的进行数据块的写入。在此,判断两个datanode之间“距离”的算法就比较关键,Hadoop目前实现如下,以两个表示datanode的对象DatanodeInfo(node1,node2)为例:
a)首先根据node1和node2对象分别得出两个datanode在整个hdfs集群中所处的层次。这里的层次概念需要解释一下:每个datanode在hdfs集群中所处的层次结构字符串是这样描述的,假设hdfs的拓扑结构如下:
每个datanode都会对应自己在集群中的位置和层次,如node1的位置信息为“/rack1/datanode1”,那么它所处的层次就为2,其余类推。
b)得到两个node的层次后,会沿着每个node所处的拓朴树中的位置向上查找,如“/rack1/datanode1”的上一级就是“/rack1”,此时两个节点之间的距离加1,两个node分别同上向上查找,直到找到共同的祖先节点位置,此时所得的距离数就用来代表两个节点之间的距离。所以,如上图所示,node1和node2之间的距离就为4.
5.当根据“距离”排好序的datanode节点列表返回给DFSClient以后,DFSClient便会创建Block OutputStream,并想这次block写入pipeline中的第一个节点(最近的节点)开始写入block数据。
6.写完第一个block以后,依次按照datanode列表中的次远的node进行写入,直到最后一个block写入成功,DFSClient返回成功,该block写入操作结束。
通过以上策略,namenode在选择数据块的写入datanode列表时,就充分考虑到了将block副本分散在不同机架下,并同时尽量的避免了之前描述的网络多于开销。
对配置了机架信息的Hadoop HDFS启动instance上传一个文件,其block信息如下:
在配置了机架信息的情况下,为了减少机架间的网络流量,namenode会将其中两个副本写在同一个机架上,并且为了尽量做到容错,会将第三个block写道另一个机架上的datanode上。以上介绍Hadoop集群
相关推荐
Hadoop 机架感知配置详解 Hadoop 机架感知是指在 Hadoop 集群中, Namenode 能够感知每个 Datanode 所属的机架,并根据这个信息来分配 block 副本,以确保数据的高效和容错性。 机架感知的必要性是因为,在大型...
博客Hadoop机架感知配置自主实现的jar包 http://blog.csdn.net/lemonZhaoTao/article/details/70991813
机架感知测试.zip"聚焦于Hadoop的一个核心特性——机架感知(Rack Awareness)。这一特性对于优化Hadoop集群的性能和容错性至关重要。以下将详细介绍机架感知的概念、作用以及如何进行测试。 首先,理解什么是机架...
#### 六、Hadoop机架感知 Hadoop支持机架感知特性,即能够根据物理网络结构(例如机架或数据中心)来优化数据的读取和写入操作。这有助于提高数据访问的速度并降低网络带宽消耗。 1. **配置机架感知**:通过在`...
Hadoop通过机架感知来了解集群中每个DataNode所在的物理位置,即所在的机架。这样做有几个好处: - 如果整个机架失效,数据不会全部丢失,因为副本被保存在不同的机架上。 - 可以保持机架内的数据传输,由于机架...
1. 配置机架感知可以确保数据的高可用性和可靠性。 Client 端上传文件 1. Client 端上传文件的时候,会将文件切分为 Block,依次上传。 Hadoop 面试题涵盖了 HDFS、MapReduce、Hive、HBase 等多个方面的知识点,...
机架感知是Hadoop集群的高级功能之一,可以根据机架的拓扑结构来优化数据存储和计算。常用的机架感知工具有Rack Awareness等。 本文旨在帮助大家更好地掌握Hadoop技术,了解Hadoop的基本概念和技术细节,希望能够...
例如,Hadoop的机架感知功能允许系统根据节点所在的机架信息进行更合理的数据分配,从而提高数据处理的效率。 随着Hadoop技术的不断发展,社区中出现了许多工具和框架来简化Hadoop的使用,使得开发者和运维人员可以...
8. **机架感知**:配置机架感知可以提高Hadoop集群的效率和稳定性,当写入数据时,会尽量将副本分布在不同机架的DataNode上,确保数据可用性和网络效率。 9. **文件上传过程**:在客户端上传文件时,数据不经过...
9. 机架感知的配置可以使得数据写入到不同机架的 DataNode 中,提高数据的可用性和可靠性。因此,正确答案是 b) 写入数据的时候会写到不同机架的 DataNode 中。 10. 客户端上传文件时,会将文件切分为 Block,然后...
* 机架感知:Hadoop可以感知机架的信息,实现高效的数据存储和处理。 Hadoop知识学习篇 Hadoop知识学习篇主要包括以下几个方面: * Java接口:Hadoop提供了Java接口,允许开发者使用Java语言开发Hadoop应用程序。...
支持配置推送,hosts文件推送,自动生成机架感知脚本 使用方法: http://github.com/xianglei/easyhadoop 点zip图标下载,然后运行EasyHadoopCentral中的setup_centos_(x).py进行安装 标签:hadoop ...
Hadoop软件设计主要包括文件格式、机架感知、Java接口等几个方面。其中,文件格式是Hadoop文件系统的基本组成部分,用于存储和读取数据;机架感知是Hadoop的高可用性机制,用于确保数据的安全性;Java接口是Hadoop的...
在Hadoop的维护和问题处理上,提到了对槽位利用率的监控、作业提交数的统计、死节点的自动重启、权限管理和资源分组、NameNode的镜像备份以及机架感知。这些都是保证Hadoop集群高效稳定运行的重要措施。例如,通过...
Hadoop具有机架感知能力,能根据网络拓扑将数据副本放置在不同机架上,以优化网络带宽利用率并提高容错性。 七、DATANODE的读数据流程 1. 客户端从NameNode获取数据块的位置信息。 2. 客户端选择最近的DataNode开始...
- **知识点说明**:配置机架感知可以让Hadoop更好地利用网络拓扑结构,将数据块尽可能地放在同一机架内的DataNode上,以减少跨机架的数据传输延迟。正确配置机架感知涉及到设置`dfs.hosts`和`dfs.hosts.exclude`等...
- **机架感知**是指Hadoop能够感知到不同DataNode所在的物理位置(如机架),从而实现更高效的网络数据传输和故障恢复。 - 如果一个机架出现问题,不会立即影响到其他机架上的数据读写操作。 - 写入数据时,系统...
读取时,客户端从NameNode获取文件块的位置,然后并行地从最近的DataNode读取数据,利用机架感知策略优化网络传输效率。 最后,HDFS的安全模式是NameNode启动时的一种保护状态,限制了对文件系统的修改。`hdfs ...