- 浏览: 113684 次
- 性别:
- 来自: 湖南
文章分类
- 全部博客 (107)
- Hadoop (12)
- mysql (2)
- ubuntu (13)
- eclipse (2)
- web (2)
- Linux命令 (10)
- centos (2)
- gcc (1)
- storm (1)
- lisp (1)
- logstash (4)
- Bootstrap (1)
- log4j (1)
- 站点性能分析 (2)
- message (5)
- syncML (1)
- zookeeper (1)
- qr code (1)
- andriod (3)
- redis (1)
- crawler (1)
- rsyslog (1)
- HBASE (4)
- 数据库 (9)
- 负载均衡 (1)
- haproxy (0)
- 游戏 (1)
- antlr (1)
- 版本管理 (4)
- 物联网 (1)
- JAVA (3)
- 操作系统 (5)
- git (1)
- 视频 (1)
- 安全 (2)
- 计算机基础 (1)
- 架构设计 (1)
- 技术牛人 (1)
- opensuse (1)
- open-xchange (1)
- 软考 (1)
最新评论
1.背景
Hadoop在设计时考虑到数据的安全与高效,数据文件默认在HDFS上存放三份,存储策略为本地一份,同机架内其它某一节点上一份,不同机架的某一节点上一份。这样如果本地数据损坏,节点可以从同一机架内的相邻节点拿到数据,速度肯定比从跨机架节点上拿数据要快;同时,如果整个机架的网络出现异常,也能保证在其它机架的节点上找到数据。为了降低整体的带宽消耗和读取延时,HDFS会尽量让读取程序读取离它最近的副本。如果在读取程序的同一个机架上有一个副本,那么就读取该副本。如果一个HDFS集群跨越多个数据中心,那么客户端也将首先读本地数据中心的副本。那么Hadoop是如何确定任意两个节点是位于同一机架,还是跨机架的呢?答案就是机架感知。
默认情况下,hadoop的机架感知是没有被启用的。所以,在通常情况下,hadoop集群的HDFS在选机器的时候,是随机选择的,也就是说,很有可能在写数据时,hadoop将第一块数据block1写到了rack1上,然后随机的选择下将block2写入到了rack2下,此时两个rack之间产生了数据传输的流量,再接下来,在随机的情况下,又将block3重新又写回了rack1,此时,两个rack之间又产生了一次数据流量。在job处理的数据量非常的大,或者往hadoop推送的数据量非常大的时候,这种情况会造成rack之间的网络流量成倍的上升,成为性能的瓶颈,进而影响作业的性能以至于整个集群的服务
2.配置。
默认情况下,namenode启动时候日志是这样的:
2013-09-22 17:27:26,423 INFO org.apache.hadoop.net.NetworkTopology: Adding a new node: /default-rack/192.168.147.92:50010
每个IP 对应的机架ID都是 /default-rack ,说明hadoop的机架感知没有被启用。
要将hadoop机架感知的功能启用,配置非常简单,在NameNode所在节点的/home/bigdata/apps/hadoop-talkyun/etc/hadoop的core-site.xml配置文件中配置一个选项:
<property>
<name>topology.script.file.name</name>
<value>/home/bigdata/apps/hadoop-talkyun/etc/hadoop/topology.sh</value>
</property>
这个配置选项的value指定为一个可执行程序,通常为一个脚本,该脚本接受一个参数,输出一个值。接受的参数通常为某台datanode机器的ip地址,而输出的值通常为该ip地址对应的datanode所在的rack,例如”/rack1”。Namenode启动时,会判断该配置选项是否为空,如果非空,则表示已经启用机架感知的配置,此时namenode会根据配置寻找该脚本,并在接收到每一个datanode的heartbeat时,将该datanode的ip地址作为参数传给该脚本运行,并将得到的输出作为该datanode所属的机架ID,保存到内存的一个map中.
至于脚本的编写,就需要将真实的网络拓朴和机架信息了解清楚后,通过该脚本能够将机器的ip地址和机器名正确的映射到相应的机架上去。一个简单的实现如下:
topology.sh:
#!/bin/bash
HADOOP_CONF=/home/bigdata/apps/hadoop-talkyun/etc/hadoop
while [ $# -gt 0 ] ; do
nodeArg=$1
exec<${HADOOP_CONF}/topology.data
result=""
while read line ; do
ar=( $line )
if [ "${ar[0]}" = "$nodeArg" ]||[ "${ar[1]}" = "$nodeArg" ]; then
result="${ar[2]}"
fi
done
shift
if [ -z "$result" ] ; then
echo -n "/default-rack"
else
echo -n "$result"
fi
done
topology.data,格式为:节点(ip或主机名) /交换机xx/机架xx
192.168.147.91 tbe192168147091 /dc1/rack1
192.168.147.92 tbe192168147092 /dc1/rack1
192.168.147.93 tbe192168147093 /dc1/rack2
192.168.147.94 tbe192168147094 /dc1/rack3
192.168.147.95 tbe192168147095 /dc1/rack3
192.168.147.96 tbe192168147096 /dc1/rack3
需要注意的是,在Namenode上,该文件中的节点必须使用IP,使用主机名无效,而Jobtracker上,该文件中的节点必须使用主机名,使用IP无效,所以,最好ip和主机名都配上。
这样配置后,namenode启动时候日志是这样的:
2013-09-23 17:16:27,272 INFO org.apache.hadoop.net.NetworkTopology: Adding a new node: /dc1/rack3/ 192.168.147.94:50010
说明hadoop的机架感知已经被启用了。
查看HADOOP机架信息命令:
./hadoop dfsadmin -printTopology
Rack: /dc1/rack1
192.168.147.91:50010 (tbe192168147091)
192.168.147.92:50010 (tbe192168147092)
Rack: /dc1/rack2
192.168.147.93:50010 (tbe192168147093)
Rack: /dc1/rack3
192.168.147.94:50010 (tbe192168147094)
192.168.147.95:50010 (tbe192168147095)
192.168.147.96:50010 (tbe192168147096)
3.增加数据节点,不重启NameNode
假设Hadoop集群在192.168.147.68上部署了NameNode和DataNode,启用了机架感知,执行bin/hadoop dfsadmin -printTopology看到的结果:
Rack: /dc1/rack1
192.168.147.68:50010 (dbj68)
现在想增加一个物理位置在rack2的数据节点192.168.147.69到集群中,不重启NameNode。
首先,修改NameNode节点的topology.data的配置,加入:192.168.147.69 dbj69 /dc1/rack2,保存。
192.168.147.68 dbj68 /dc1/rack1
192.168.147.69 dbj69 /dc1/rack2
然后,sbin/hadoop-daemons.sh start datanode启动数据节点dbj69,任意节点执行bin/hadoop dfsadmin -printTopology 看到的结果:
Rack: /dc1/rack1
192.168.147.68:50010 (dbj68)
Rack: /dc1/rack2
192.168.147.69:50010 (dbj69)
说明hadoop已经感知到了新加入的节点dbj69。
注意:如果不将dbj69的配置加入到topology.data中,执行sbin/hadoop-daemons.sh start datanode启动数据节点dbj69,datanode日志中会有异常发生,导致dbj69启动不成功。
2013-11-21 10:51:33,502 FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for block pool Block pool BP-1732631201-192.168.147.68-1385000665316 (storage id DS-878525145-192.168.147.69-50010-1385002292231) service to dbj68/192.168.147.68:9000
org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.net.NetworkTopology$InvalidTopologyException): Invalid network topology. You cannot have a rack and a non-rack node at the same level of the network topology.
at org.apache.hadoop.net.NetworkTopology.add(NetworkTopology.java:382)
at org.apache.hadoop.hdfs.server.blockmanagement.DatanodeManager.registerDatanode(DatanodeManager.java:746)
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.registerDatanode(FSNamesystem.java:3498)
at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.registerDatanode(NameNodeRpcServer.java:876)
at org.apache.hadoop.hdfs.protocolPB.DatanodeProtocolServerSideTranslatorPB.registerDatanode(DatanodeProtocolServerSideTranslatorPB.java:91)
at org.apache.hadoop.hdfs.protocol.proto.DatanodeProtocolProtos$DatanodeProtocolService$2.callBlockingMethod(DatanodeProtocolProtos.java:20018)
at org.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java:453)
at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:1002)
at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1701)
at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1697)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:415)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1408)
at org.apache.hadoop.ipc.Server$Handler.run(Server.java:1695)
at org.apache.hadoop.ipc.Client.call(Client.java:1231)
at org.apache.hadoop.ipc.ProtobufRpcEngine$Invoker.invoke(ProtobufRpcEngine.java:202)
at $Proxy10.registerDatanode(Unknown Source)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:601)
at org.apache.hadoop.io.retry.RetryInvocationHandler.invokeMethod(RetryInvocationHandler.java:164)
at org.apache.hadoop.io.retry.RetryInvocationHandler.invoke(RetryInvocationHandler.java:83)
at $Proxy10.registerDatanode(Unknown Source)
at org.apache.hadoop.hdfs.protocolPB.DatanodeProtocolClientSideTranslatorPB.registerDatanode(DatanodeProtocolClientSideTranslatorPB.java:149)
at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.register(BPServiceActor.java:619)
at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.connectToNNAndHandshake(BPServiceActor.java:221)
at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.run(BPServiceActor.java:660)
at java.lang.Thread.run(Thread.java:722)
备忘:
机架感知
http://wiki.apache.org/hadoop/topology_rack_awareness_scripts
http://f.dataguru.cn/thread-24957-1-1.html
HDFS的副本放置策略(机架感知 rack awareness)
http://blog.csdn.net/fiberlijun/article/details/4820266
查看HADOOP机架信息
./hadoop dfsadmin -printTopology
单机测试HDFS多机架模拟
http://blog.csdn.net/malik76/article/details/6742962
cloudera cdh4.2添加datanode节点 含机架配置
http://www.itinit.net/thread-2539-1-1.html
构建可伸缩Hadoop集群的方法步骤
http://m.it168.com/article_1445304_p1.html
hadoop动态添加datanode和tasktracker
http://mapserver000-gmail-com.iteye.com/blog/1738898
发表评论
-
Hadoop sql
2014-03-05 14:24 382用SQL-on-Hadoop构建互联网数据仓库与商务智能系统 ... -
rdbms hadoop
2013-12-20 11:28 671MySQL推出Applier,可实时复制数据到Hadoop h ... -
hadoop 调度
2013-11-27 09:51 660hadoop 调度 https://github.com/Ne ... -
hadoop etl
2013-11-27 09:50 802Kettle https://github.com/webde ... -
flume
2013-11-26 17:22 551Hadoop Analysis of Apache Logs ... -
hadoop灾备
2013-11-23 13:07 1095master 故障测试(冷备方案NameNode故障手动切换) ... -
hadoop 分布式安装
2013-07-18 16:24 980环境:CentOs6、hadoop-2.0.0 ... -
大数据
2013-04-25 09:55 9862013大数据大会: http://blog.nosqlfan ... -
Hadoop url
2013-03-28 09:25 1165Hadoop集群(第5期)_Hadoop安装配置 http:/ ... -
jps 报process information unavailable解决办法
2013-03-13 15:38 7792jps时出现如下信息: 4791 -- process in ... -
Hadoop Gridmix
2013-01-16 11:15 10651、 概述 Hadoop Grid ...
相关推荐
机架感知测试.zip"聚焦于Hadoop的一个核心特性——机架感知(Rack Awareness)。这一特性对于优化Hadoop集群的性能和容错性至关重要。以下将详细介绍机架感知的概念、作用以及如何进行测试。 首先,理解什么是机架...
Hadoop 机架感知配置详解 Hadoop 机架感知是指在 Hadoop 集群中, Namenode 能够感知每个 Datanode 所属的机架,并根据这个信息来分配 block 副本,以确保数据的高效和容错性。 机架感知的必要性是因为,在大型...
博客Hadoop机架感知配置自主实现的jar包 http://blog.csdn.net/lemonZhaoTao/article/details/70991813
### Hadoop架构深入解析:拓扑感知与机架感知 #### 概述 在深入了解Hadoop的架构设计时,拓扑感知(Topology Awareness)与机架感知(Rack Awareness)是两个非常重要的概念。这些机制使得Hadoop能够在分布式环境...
- **机架感知**:配置机架感知可以在一个机架出现问题时,仍然能保证数据的可用性和读写性能,因为它会尽量将副本放在不同机架上,提高容错性。 6. **MapReduce执行流程** - JobClient将应用程序提交到JobTracker...
本文将深入解析HDFS的数据流,特别是写数据和读数据的过程,以及相关的网络拓扑和机架感知策略。 4.1 HDFS 写数据流程 HDFS的写数据过程涉及多个步骤,确保数据的高效、可靠存储: 1. 客户端通过 Distributed ...
Hadoop通过机架感知来了解集群中每个DataNode所在的物理位置,即所在的机架。这样做有几个好处: - 如果整个机架失效,数据不会全部丢失,因为副本被保存在不同的机架上。 - 可以保持机架内的数据传输,由于机架...
8. **机架感知**:配置机架感知可以提高Hadoop集群的效率和稳定性,当写入数据时,会尽量将副本分布在不同机架的DataNode上,确保数据可用性和网络效率。 9. **文件上传过程**:在客户端上传文件时,数据不经过...
1. 配置机架感知可以确保数据的高可用性和可靠性。 Client 端上传文件 1. Client 端上传文件的时候,会将文件切分为 Block,依次上传。 Hadoop 面试题涵盖了 HDFS、MapReduce、Hive、HBase 等多个方面的知识点,...
多 DC 支持可以通过机架感知功能支持多数据中心部署。建造安装压缩库yum 安装 snappy-devel (适用于 CentOS)apt-get install libsnappy1 libsnappy-dev(适用于 Debian/Ubuntu)brew install snappy (适用于 Mac)...
本文档将覆盖从软件需求、安装过程、配置步骤到重启策略及机架感知等高级特性的一系列关键知识点。 #### 二、前提条件 为了顺利地完成Hadoop集群的搭建,需要确保所有集群节点上都安装了必要的软件。具体来说: 1...
机架感知是指HDFS在进行数据复制时考虑到网络拓扑结构,优先将副本放在同一机架的不同服务器上,其次是不同机架的不同服务器上。这样做的目的是优化数据传输效率,减少跨机架的数据传输开销。 #### 四、网络拓扑 ...
在副本存放策略上,HDFS采用了机架感知(Rack Awareness)策略,以提高数据的可用性和网络效率,确保在同一机架内的节点优先复制,最大化带宽利用。 总结来说,Hadoop分布式文件系统HDFS是为大规模、容错性、高吞吐...
7. **机架感知**:配置机架感知是为了提高Hadoop的性能和容错性,使得数据在不同机架之间更均衡地分布,减少跨机架的数据传输,从而降低网络延迟。 掌握以上知识点,对于面试Hadoop相关职位非常有帮助。理解Hadoop...
机架感知策略,三者的作用(DateNode,NameNode,SecondNameNode)
Hadoop软件设计主要包括文件格式、机架感知、Java接口等几个方面。其中,文件格式是Hadoop文件系统的基本组成部分,用于存储和读取数据;机架感知是Hadoop的高可用性机制,用于确保数据的安全性;Java接口是Hadoop的...
- **机架感知**是指Hadoop能够感知到不同DataNode所在的物理位置(如机架),从而实现更高效的网络数据传输和故障恢复。 - 如果一个机架出现问题,不会立即影响到其他机架上的数据读写操作。 - 写入数据时,系统...
在Hadoop的维护和问题处理上,提到了对槽位利用率的监控、作业提交数的统计、死节点的自动重启、权限管理和资源分组、NameNode的镜像备份以及机架感知。这些都是保证Hadoop集群高效稳定运行的重要措施。例如,通过...