`

Hadoop 权威指南摘抄(HDFS)

 
阅读更多
Hadoop 分布式文件系统

当数据集的大小超过一台独立物理计算机时,就有必要对它进行分区并存储到若干台单独的计算机上。管理
网路中跨多台计算机存储的文件系统就称为分布式文件系统。

HDFS的设计

HDFS以流式数据访问模式来存储超大文件,运行于商用硬件集群上。
1.超大文件。
2.流式数据访问。
3.商用软件。


不适合HDFS上运行的应用:
1.低时间延迟的数据访问。
2.大量的小文件。
3.多用户写入,任意修改文件。

HDFS的概念

数据块

每个磁盘都有默认的数据块大小,这是磁盘进行数据读写的最小单位。
HDFS同样也是有块(block)的概念,但是大的多,默认为64MB。HDFS上的文件被划为块大小的多个分块(chunk),
作为独立的存储单元。与其他文件系统不同,HDFS中小于一个块大小的文件不会占据整个块空间。

HDFS中的块为何如此大?
其目的是为了最小化寻址开销。

对分布式文件系统中的块进行抽象的好处
1.一个文件的大小可以大于网络中任意一个磁盘的容量。文件的所有块并不需要存储在同一个磁盘上。
2.使用块抽象而非整个文件作为存储单元。大大简化了存储子系统的设计。
将存储子系统控制单元设置为块,可简化存储管理,及非常适合用于进行数据备份进而提供数据容错
能力和可用性。将每个块复制到几个独立的机器上,可以确保发生块,磁盘或机器故障后,数据不丢失。

NAMENODE和DATANODE

HDFS集群有两类节点,并以管理者-工作者模式工作,即一个namenode(管理者)和多个datanode(工作者)。

namenode管理文件系统的命名空间,它维护者文件系统树及整棵数内所有的文件和目录,这些信息以两个
文件形式永久保存在本地磁盘上: 命名空间镜像和编辑日志文件。namenode也记录着每个文件中各个块
所在的数据节点信息,但它并不永久保存块的位置信息,因为这些信息会在系统启动时由数据节点重建。

datanode是文件系统的工作节点,它们根据需要存储并检索数据块(受客户端或namenode调度),并且定期向
namenode发送它们所存储的块的列表。
没有namenode,文件系统将无法使用。因此对于namenode实现容错非常重要,Hadoop为此提供了两种机制。

第一种机制是备份那些组成文件系统元数据持久状态的文件。一般的配置是,将持久状态写入本地磁盘的同时,
写入一个远程挂载的网络文件系统(NFS)。这些写操作时实时同步的,是原子操作。

另一种可行的方法是运行一个辅助namenode,但它不能用作namenode。这个辅助namenode的重要作用是定期
通过编辑日志合并命名空间镜像,以防止编辑日志过大。这个辅助namenode一般在另外一台单独的物理计算机
上运行,因为它需要大量cpu时间与namenode相同容量的内存来执行合并操作。它会保存合并后的命名空间
镜像的副本,并在namenode发生故障时启用。但通常保存的状态总是滞后于主节点。

HDFS联邦
HDFS系统可以同时拥有多个namenode,它解决了namenode的单点问题,一来是减少单点namenode崩溃带来的潜在危险,
另外可以减轻单个namenode的性能瓶颈。
1.目的水平扩展名称服务
2.使用多个独立的namenode和namespaces。每个namenode是独立的,不需要和其他namenode协调合作。
3.datanode作为统一的块存储设备被所有namenode节点使用。
4.每一个datanode节点都在所有namenode进行注册。datanode发送心跳信息,块报告到所有namenode,同时执行
所有namenode发送来的命令。

块池(Block Pool)
块池属于单个命名空间的一组块。
每个datanode为所有的block pool存储块。
Datanode是一个物理概念,而block pool是一个重新将block划分的逻辑概念。
同一个datanode可以属于多个block pool的多个块。
Block pool允许在不通知其他命名空间的情况下为一个新的block创建block id。
一个namenode失效不会影响其下的datanode为其他namenode的服务。

很多分布式系统采用Hash在这一分布式系统里常用的手段,因为同一目录的文件可能散步于各个命名空间,性能
很差,及当一个namenode损坏时,会影响多个目录下的文件。
Hadoop采用Client Side Mount Table的算法,将同一目录下的所有文件映射到同一个namenode中。

HDFS 2.x版本的新特性

HDFS 联邦:解决了单点NAMENODE的性能瓶颈
HDFS HA:  解决了1.x版本NAMENODE在遇到故障时无法自动切换的问题。
HDFS 快照
 
分享到:
评论

相关推荐

    hadoop权威指南4和源码

    8. **版本更新**:《Hadoop权威指南4》相较于早期版本,可能包含了Hadoop的新特性和改进,例如YARN的引入、HDFS的优化、安全性的增强等。这些更新对于跟踪Hadoop的最新进展至关重要。 9. **最佳实践**:书中通常会...

    Hadoop权威指南中文版(完全版)

    《Hadoop权威指南》中文版是全面了解和深入学习Hadoop技术的重要参考资料,它涵盖了Hadoop生态系统中的核心组件以及相关的分布式计算概念。这本书详细解析了Hadoop的设计原理、架构、安装配置、操作维护以及实际应用...

    hadoop权威指南第三版 中文 pdf

    《Hadoop权威指南》第三版是一本深度剖析Hadoop生态系统的经典著作,旨在帮助读者从基础知识到高级技术全面掌握这个大数据处理平台。Hadoop作为开源的分布式计算框架,以其高可扩展性和容错性,成为了大数据时代的...

    hadoop权威指南第四版高清 pdf下载

    《Hadoop权威指南》第四版是Hadoop领域的经典著作,由Tom White撰写,该书深入浅出地介绍了Hadoop生态系统的核心技术和应用场景。这本书对于想要理解、学习和掌握Hadoop技术的人来说,具有极高的参考价值。 Hadoop...

    Hadoop权威指南(第4版)(修订版) 中英文PDF(含源码)

    在《Hadoop权威指南(第四版)》中文PDF中,读者可以了解到关于Hadoop的基础知识,如HDFS的架构、数据块的管理、NameNode和DataNode的角色以及如何进行数据读写操作。此外,书中还会详细解析MapReduce的工作原理,...

    Hadoop权威指南,hadoop权威指南pdf,Hadoop

    《Hadoop权威指南》是大数据领域的一本经典著作,它深入浅出地介绍了Apache Hadoop这一开源分布式计算框架。Hadoop是由Doug Cutting和Mike Cafarella共同创建,最初是为了支持Google的MapReduce计算模型和Google ...

    【免费】Hadoop权威指南(第3版) 修订版(带目录书签) 中文高清晰PDF

    《Hadoop权威指南》(第3版) 修订版是一本专门为那些想要深入理解Hadoop技术的读者准备的专业书籍。Hadoop是当前大数据处理领域的重要工具,它基于分布式计算模型,能够处理和存储海量数据。这本书以其详尽的介绍和...

    高清中文PDf附带目录标签《Hadoop权威指南》

    《Hadoop权威指南》是一本深入探讨大数据处理和分布式计算技术的经典著作,尤其对Hadoop生态系统的核心组件进行了详尽的阐述。这本书对于理解Hadoop集群、MapReduce编程模型以及HBase分布式数据库有着极大的帮助。接...

    Hadoop权威指南 第四版 大数据 中文版 pdf

    绝对第四版!绝对中文!绝对完整!绝对第四版!绝对中文!绝对完整! Hadoop权威指南 大数据 第四版 修订版&升级版 中文版 pdf格式。Tom White 著,王海 等译,清华大学出版社,最新第4版。

    hadoop权威指南代码(Hadoop: The Definitive Guide code)

    《Hadoop权威指南》是Hadoop领域的经典著作,其配套代码资源可以帮助读者深入理解Hadoop的内部机制和实际应用。这本书全面介绍了Hadoop生态系统,包括HDFS、MapReduce、YARN以及相关的工具和扩展。代码库`tomwhite-...

    史上最全--HADOOP权威指南 第3版带目录书签 完整版

    《HADOOP权威指南》第三版是一本全面深入解析Hadoop生态系统的经典之作,由知名的IT专家撰写,旨在为读者提供最全面、最权威的Hadoop学习资源。这本书以其详尽的内容、清晰的结构和实用的示例,深受广大开发者和数据...

    hadoop权威指南中文版

    总结来说,《Hadoop权威指南中文版》是一本全面介绍Hadoop生态系统及相关技术的书籍,它不仅包括了Hadoop的核心技术HDFS、MapReduce,还涵盖了Hive、HBase等数据库技术,以及在云计算环境中的应用。书中内容对Java...

    Hadoop 2.X HDFS源码剖析-高清-完整目录-2016年3月

    Hadoop 2.X HDFS源码剖析-高清-完整目录-2016年3月,分享给所有需要的人!

    《Hadoop权威指南(第四版)》中-英文pdf+源码

    《Hadoop权威指南(第四版)》是一本深入解析Hadoop生态系统的经典著作,适合对大数据处理感兴趣的读者,包括开发者、架构师以及数据分析师。这本书详尽地介绍了Hadoop的核心概念、架构以及实际应用,旨在帮助读者...

    Hadoop权威指南_第四版_中文版(修订升级高清扫描版)

    《Hadoop权威指南》第四版中文版是一本深入解析Hadoop生态系统的重量级书籍,针对大数据处理和分布式计算领域提供了详尽的指导。Hadoop作为开源的分布式计算框架,已经成为了大数据时代的核心技术之一,而这本书正是...

    hadoop权威指南第三版完整版

    ### Hadoop权威指南第三版知识点总结 #### 一、Hadoop概述 - **定义与背景**:Hadoop是一个能够对大量数据进行分布式处理的软件框架。它由Apache基金会开发维护,旨在提供高可靠性、高效性及可扩展性的数据处理...

    Hadoop权威指南_第四版_中文版

    Hadoop权威指南 第四版 修订版&升级版 中文版 pdf格式。大家放心,绝对是中文版,不骗人。原文件很大,稍压缩了一下,页面依然非常清晰。无水印。共732页。 Tom White 著,王海 等译,清华大学出版社,2017年7月第4...

    高清大放送 Hadoop权威指南第3版 和 第4版 PDF

    《Hadoop权威指南》是大数据领域的一本经典著作,它为读者深入理解并掌握Hadoop提供了全面而详尽的指导。书中的内容涵盖了Hadoop生态系统的各个重要组件,包括核心的Hadoop分布式文件系统(HDFS)和MapReduce计算...

    Hadoop权威指南4-pdf(中英)-code.zip

    《Hadoop权威指南》是Hadoop领域的经典著作,第四版更是涵盖了Hadoop生态系统中的最新发展和技术。这本书深入浅出地介绍了分布式计算的概念,以及如何利用Hadoop进行大规模数据处理。以下将详细介绍其中的关键知识点...

Global site tag (gtag.js) - Google Analytics