HDFS的运行原理 - - ITeye博客

`

huangyongxing310

浏览: 508837 次
性别:
来自: 广州

最近访客更多访客>>

hiroada

lixiaoxin

u012363178

wangyy

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

HDFS的运行原理

博客分类：

互联网
Hadoop

HDFS的运行原理

阅读更多

HDFS的运行原理

简介
HDFS（Hadoop Distributed File System ）Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS（Google File System）
Google 文件系统（中文，英文）。
HDFS有很多特点：
    ① 保存多个副本，且提供容错机制，副本丢失或宕机自动恢复。默认存3份。
    ② 运行在廉价的机器上。
    ③ 适合大数据的处理。多大？多小？HDFS默认会将文件分割成block，64M为1个block。然后将block按键值对存储在HDFS上，并将键值
    对的映射存到内存中。如果小文件太多，那内存的负担会很重。

如上图所示，HDFS也是按照Master和Slave的结构。分NameNode、SecondaryNameNode、DataNode这几个角色。
NameNode：是Master节点，是大领导。管理数据块映射；处理客户端的读写请求；配置副本策略；管理HDFS的名称空间；
SecondaryNameNode：是一个小弟，分担大哥namenode的工作量；是NameNode的冷备份；合并fsimage和fsedits然后再发给namenode。
DataNode：Slave节点，奴隶，干活的。负责存储client发来的数据块block；执行数据块的读写操作。
热备份：b是a的热备份，如果a坏掉。那么b马上运行代替a的工作。
冷备份：b是a的冷备份，如果a坏掉。那么b不能马上代替a工作。但是b上存储a的一些信息，减少a坏掉之后的损失。
fsimage:元数据镜像文件（文件系统的目录树。）
edits：元数据的操作日志（针对文件系统做的修改操作记录）
namenode内存中存储的是=fsimage+edits。
SecondaryNameNode负责定时默认1小时，从namenode上，获取fsimage和edits来进行合并，然后再发送给namenode。减少namenode的工作量。

工作原理
写操作：

有一个文件FileA，100M大小。Client将FileA写入到HDFS上。
HDFS按默认配置。
HDFS分布在三个机架上Rack1，Rack2，Rack3。
a. Client将FileA按64M分块。分成两块，block1和Block2;
b. Client向nameNode发送写数据请求，如图蓝色虚线①------>。
c. NameNode节点，记录block信息。并返回可用的DataNode，如粉色虚线②--------->。
    Block1: host2,host1,host3
    Block2: host7,host8,host4
    原理：
        NameNode具有RackAware机架感知功能，这个可以配置。
        若client为DataNode节点，那存储block时，规则为：副本1，同client的节点上；副本2，不同机架节点上；副本3，同第二个副本机架的另一个节点上；其他副本随机挑选。
        若client不为DataNode节点，那存储block时，规则为：副本1，随机选择一个节点上；副本2，不同副本1，机架上；副本3，同副本2相同的另一个节点上；其他副本随机挑选。
d. client向DataNode发送block1；发送过程是以流式写入。
    流式写入过程：
        1>将64M的block1按64k的package划分;
        2>然后将第一个package发送给host2;
        3>host2接收完后，将第一个package发送给host1，同时client想host2发送第二个package；
        4>host1接收完第一个package后，发送给host3，同时接收host2发来的第二个package。
        5>以此类推，如图红线实线所示，直到将block1发送完毕。
        6>host2,host1,host3向NameNode，host2向Client发送通知，说“消息发送完了”。如图粉红颜色实线所示。
        7>client收到host2发来的消息后，向namenode发送消息，说我写完了。这样就真完成了。如图黄色粗实线
        8>发送完block1后，再向host7，host8，host4发送block2，如图蓝色实线所示。
        9>发送完block2后，host7,host8,host4向NameNode，host7向Client发送通知，如图浅绿色实线所示。
        10>client向NameNode发送消息，说我写完了，如图黄色粗实线。。。这样就完毕了。
分析，通过写过程，我们可以了解到：
    ①写1T文件，我们需要3T的存储，3T的网络流量贷款。
    ②在执行读或写的过程中，NameNode和DataNode通过HeartBeat进行保存通信，确定DataNode活着。如果发现DataNode死掉了，就将死掉的DataNode上的数据，放到其他节点去。读取时，要读其他节点去。
    ③挂掉一个节点，没关系，还有其他节点可以备份；甚至，挂掉某一个机架，也没关系；其他机架上，也有备份。

读操作：

读操作就简单一些了，如图所示，client要从datanode上，读取FileA。而FileA由block1和block2组成。
那么，读操作流程为：
a. client向namenode发送读请求。
b. namenode查看Metadata信息，返回fileA的block的位置。
block1:host2,host1,host3
block2:host7,host8,host4
c. block的位置是有先后顺序的，先读block1，再读block2。而且block1去host2上读取；然后block2，去host7上读取；

上面例子中，client位于机架外，那么如果client位于机架内某个DataNode上，例如,client是host6。那么读取的时候，遵循的规律是：
优选读取本机架上的数据。

参考原文：http://www.cnblogs.com/laov/p/3434917.html

查看图片附件

分享到：

java 泛型 | 分布式、集群的一些认识

2016-09-10 16:16
浏览 452
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

大数据平台构建：HDFS运行原理.pptx: 【大数据平台构建：HDFS运行原理】 Hadoop分布式文件系统（HDFS）是大数据处理的基础，它被设计成能够高效地存储和处理海量数据。HDFS的核心特点是将大文件分割成若干个固定大小的Block，并在多台服务器（DataNode...

【Hadoop】HDFS的运行原理1: 【Hadoop HDFS运行原理详解】 Hadoop分布式文件系统（HDFS）是基于Google的GFS（Google File System）论文设计实现的一种大规模分布式存储系统。HDFS的主要目标是为大数据处理提供可靠、可扩展和经济高效的存储解决...

Hadoop介绍，HDFS和MapReduce工作原理: Hadoop介绍，HDFS和MapReduce工作原理

HDFS原理简介: 2. **运行于低成本硬件之上**：HDFS的设计允许其运行在大量低成本、标准硬件组成的集群上，这极大地降低了构建大规模数据处理系统的成本。 3. **面向大数据处理**：HDFS特别适合存储和处理大规模数据集。系统默认...

HDFS原理介绍: ### HDFS原理详解 #### 一、HDFS概述与特性 **Hadoop Distributed File System (HDFS)** 是Hadoop项目的核心之一，专为大规模数据集设计。它具有以下几个显著特点： 1. **副本机制与容错性：** - HDFS能够自动...

大数据 80 道面试题及答案.docx: "大数据 80 道面试题及答案" 以下是从给定的文件中生成的...本资源摘要信息为大数据 80 道面试题及答案的知识点总结，涵盖了 HDFS 运行原理、HDFS 的安全模式、MapReduce 运行原理和 MapReduce 优化等方面的知识点。

大数据HDFS架构原理.pdf: HDFS架构原理 HDFS（Hadoop Distributed File System）是一种分布式文件系统，基于Google发布的GFS论文设计开发。HDFS具有高容错、高吞吐量、大文件存储等特性，适合大文件存储、流式数据访问等场景，但不适合大量...

Hadoop HDFS原理分析，技术详解: "Hadoop HDFS原理分析" HDFS（Hadoop Distributed File System）是Hadoop项目的一部分，是一个分布式文件管理系统。HDFS的设计理念是为了存储和管理大量的数据，具有高容错性、可扩展性和高性能的特点。 HDFS的...

大数据HDFS技术原理与实践.pptx: **大数据HDFS技术原理与实践** Hadoop 分布式文件系统（HDFS）是大数据处理领域中的核心组件，它基于Google的GFS（Google File System）理念设计，旨在处理和存储海量数据。HDFS最初发表于2003年10月，作为一个易于...

实验项目实战 HDFS 实验报告: 实验目的是通过一系列操作，让学生全面理解HDFS的架构、文件存储原理以及数据读写流程。一、HDFS体系架构 HDFS由NameNode、DataNode和SecondaryNameNode等关键组件构成。NameNode作为元数据管理节点，负责文件系统...

6HDFS原理篇.zip: HDFS是Apache Hadoop项目的核心组成部分，它设计为在廉价硬件上运行，提供高容错性和高吞吐量的数据访问。本资料主要涵盖了HDFS的基本原理、架构、工作流程以及其在大数据处理中的应用。 1. **HDFS概述** HDFS是一...

Hadoop2.2.0中HDFS的高可用性实现原理.pdf ): 总结来说，Hadoop2.2.0通过在HDFS集群内部署双NameNode来实现高可用性，这通过JournalNode的协调机制和待命NameNode的快速故障切换来保证整个系统的稳定运行。这种高可用性设计显著提升了大规模数据处理环境下的数据...

Hadoop技术内幕深入解析HADOOP COMMON和HDFS架构设计与实现原理.pdf: 《Hadoop技术内幕：深入解析HADOOP COMMON和HDFS架构设计与实现原理》这本书是Hadoop技术领域的一本深入解析之作，它详尽地探讨了Hadoop的两大核心组件——HADOOP COMMON和HDFS（Hadoop Distributed File System）的...

HDFS原理图: 此图包含内容：HDFS结构/HDFS运行机制、HDFS优缺点、HDFS架构、HDFS数据存储单元(block)、HDFS设计思想、SNN合并流程、Block的副本放置策略、HDFS读流程、HDFS写流程、HDFS文件权限与安全模式，需要使用viso工具打开...

HDFS构架设计和读写流程.docx: - **平台兼容性**：能够运行在多种硬件和软件平台上。 #### 不适用场景 - **大量小文件**：由于文件元数据存储在NameNode内存中，因此不适用于存储大量的小文件。 - **低延迟数据访问**：HDFS设计侧重于高吞吐量而...

Global site tag (gtag.js) - Google Analytics