hadoop中hdfs读取文件的原理剖析

snwz

浏览: 68592 次
性别:
来自: 北京

最近访客更多访客>>

肆无忌惮neo

dinyun

hero1122

yokoboy

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hadoop

hadoop 大数据文件读取酸奶王子 hdfs

上一篇文章中简单介绍了一下hadoop文件存储的一些逻辑与简单原理，既然后写入，那肯定要读取分析数据咯，下面我在白话一下hdfs中文件读取的逻辑与简单原理。

第一步：跟写入文件一样，首先客户端会调用DistributedFilesyStem 对象的open（）方法来打开文件，这个方法要做的事情就是：Distributed FilesyStem会通过RPC协议连接来调用namenode，namenode里面存储的都是文件命名空间，也就是文件存储在datanode的地址，我们首先获取到要想读取的文件头所在的位置，块中存在很多个数据节点副本，hadoop会根据一定的标准找到距离客户端最近的一个节点，此时便返回一个FSData InputStream，否则返回ioexception

第二步：紧跟着，客户端会读取返回去的文件输入流，此时文件头存储的datanode会自己寻找这些块中距离自己最近的其他datanode，并且建立起链接，客户端持续read，直到读取到块的末尾。从namenode中找到下一个块的地址，并找到最佳的文件节点位置。持续重复上面的动作。知道读取完成之后，文件输入流会调用close方法关闭流，

下面我们讨论下异常处理的机制：
如果客户端在读取数据流的时候遇到了错误块，怎么办眤？
如果客户端遇到了异常块，那么客户端就会记录下来这个块，并尝试去读取距离这个块最近的一个块，并且不会再去读取这个损坏的块。
同时客户端还会去校验接受到的数据的校验和，若发现一个损坏的块，它就会在客户端试图从别的数据节点中读取一个块的副本之前报告给名称节点。

在之前我们一直提到的hadoop的寻找最近的块或者节点的机制是如何实现呢？
我们都知道。在大数据存储中，限制效率的最主要因素就是带宽。
hadoop将网络看成一棵树，两个节点间的距离是距离它们最近的共同祖先的总和。
对于以下每个场景，可用带宽依次减少：
相同节点中的进程
同一机架上的不同节点
同一数据中心的不同机架上的节点
不同数据中心的节点

分享到：

hadoop单节点部署 | hadoop中hdfs写入文件的原理剖析

2015-01-08 11:45
浏览 818
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论