架构图
hdfs采用master/slave架构,主要由以下组件组成:client、namenode、secondarynode、datanode
1、client
client通过与namenode和datenode的访问hdfs中文件,client提供一些接口供用户调用
2、namenode
hadoop集群只有一个namenode,它负责管理hdfs目录树以及相关文件的元数据(matedata)信息。
matedata包括:fsimage(hdfs元数据镜像文件)和edits(文件改动日志)。fsimage保存了block块的存储信息,
fsimage和edits保存在本地磁盘:${hadoop.tmp.dir}/dfs/name/current/
注:hdfs上每个文件都要在namenode上建立索引,索引大小大约为150byte。所以大量小文件会产生很多索引,占用大量namenode内存,而且索引太多导致检索速度变慢
3、secondarynode
secondarynode不是namenode的热备份,它的主要任务是合并edits日志到fsimage文件,然后将fsimage传输给namenode。
4、datanode
负责实际数据存储(block),并每隔3s向namenode汇报信息。
一个大文件会被切分成若干个bolck,每个block默认64M,分别存储到不同的datanode。每个block默认会被复制成3份保存到不同的datanode。第二个block保存在不同机架的datanode,第三个block保存在与第二个block相同机架的不同datanode。
相关推荐
《Hadoop技术内幕:深入解析HADOOP COMMON和HDFS架构设计与实现原理》这本书是Hadoop技术领域的一本深入解析之作,它详尽地探讨了Hadoop的两大核心组件——HADOOP COMMON和HDFS(Hadoop Distributed File System)的...
《Hadoop技术内幕:深入解析HADOOP COMMON和HDFS架构设计与实现原理》这本书是IT领域的经典之作,专门探讨了Hadoop的核心组件——Hadoop Common和HDFS(Hadoop Distributed File System)的设计理念、架构及其背后的...
Hadoop 技术内幕:深入解析Hadoop Common 和HDFS 架构设计与实现原理
Hadoop 的分布式文件系统(HDFS)是大数据处理的基石,它为存储大规模数据集提供了一个可靠的基础架构。HDFS 以其高吞吐量、可扩展性和容错性而著称,是 Hadoop 生态系统中不可或缺的一部分。以下是关于 HDFS 架构...
【标题】"Hadoop之hdfs架构详解共2页.pdf.zip" 提供的主题是关于Hadoop的分布式文件系统HDFS(Hadoop Distributed File System)的深入解析,这是一份两页的PDF文档,可能涵盖了HDFS的核心概念、设计原则、工作流程...
Hadoop技术内幕:深入解析Hadoop Common 和HDFS 架构设计与实现原理 (大数据技术丛书) 原版书籍,非扫描版,使用kindle可以打开,也可以转换为epub使用ibooks打开
HDFS架构原理 HDFS(Hadoop Distributed File System)是一种分布式文件系统,基于Google发布的GFS论文设计开发。HDFS具有高容错、高吞吐量、大文件存储等特性,适合大文件存储、流式数据访问等场景,但不适合大量...
《Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理》由腾讯数据平台的资深Hadoop专家、X-RIME的作者亲自执笔,对Common和HDFS的源代码进行了分析,旨在为Hadoop的优化、定制和扩展提供原理性的指导。...
自己根据官网翻译而来,加上个人的整理的思维导图,非常值得一看
hadoop-hdfs架构
《Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理》还从源代码实现中对分布式技术的精髓、分布式系统设计的优秀思想和方法,以及Java语言的编码技巧、编程规范和对设计模式的精妙运用进行了总结和...
《深入解析Hadoop HDFS架构》 Hadoop HDFS(Hadoop Distributed File System)是大数据领域中的关键组件,尤其在处理大规模数据存储方面扮演着重要角色。HDFS的设计旨在处理超大文件,支持流式数据访问,具备高吞吐...
Hadoop HDFS 架构概述推荐系统框架图 Hadoop 是什么?Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构,主要解决海量数据的存储和海量数据的分析计算问题。Hadoop 通常是指一个更广泛的概念——Hadoop ...
《大数据平台构建:深入理解HDFS架构》 大数据技术的核心之一是分布式文件系统,而Hadoop Distributed File System(HDFS)则是其中的杰出代表。HDFS以其高容错性、可扩展性和高效的数据处理能力,成为了大数据存储...
分布式存储系统:HDFS:HDFS架构与原理.docx
Hadoop技术内幕-深入解析HADOOP COMMON和HDFS架构设计与实现原理