HDFS 架构指南
介绍
Hadoop分布式文件系统(HDFS)是一个分布式的文件系统在廉价的硬件上运行。它与现有的分布式文件系统有很多相似之处。然而,从其他的分布式文件系统的差异是显着的。 HDFS是高容错和被设计为低成本硬件上部署。 HDFS的应用数据提供高吞吐量的访问,是适用于具有大型数据集的应用程序。 HDFS的满足一些POSIX的要求,流式方式访问文件系统数据。 HDFS的最初是为Apache Nutch的网络搜索引擎项目的基础。 目前HDFS是一个Apache Hadoop的子项目。该项目的网址是http://hadoop.apache.org/hdfs/。
假设和目标
硬件故障
硬件故障是常态而不是例外。一个HDFS的实例可能包括数百或数千个服务器的机器,每个文件系统的数据存储部分。事实上,有大量的组件,每个组件都有一个可能的概率失败,意味着一些HDFS的组件总是非功能。因此,故障检测和快速自动恢复,是HDFS核心框架实现的目标。
流数据访问
HDFS上运行的应用程序需要访问他们的数据集流。他们不是一般用途的通用文件系统上运行的应用。 HDFS被设计为批量处理,而不是由用户交互式的使用。重点是高吞吐量的数据访问,而不是数据访问的低延迟。 POSIX的规定很多,不完全是HDFS的目标应用要求。POSIX场景在几个关键的领域已经很好,以提高数据吞吐率。
大型数据集
HDFS上运行的应用程序,拥有大型数据集。一个典型的文件在HDFS是从GB到TB级大小。因此,HDFS的调整,以支持大文件。它应该提供高总数据带宽和规模数百个单个群集节点。数以千万计的文件,它应支持在一个单一的实例。
简单的一致性模型
HDFS的应用程序需要一次写入,多次读取一个文件的访问模式。曾经创造了一个文件,不需要再写,写关闭,不需要更改。这一假设简化了数据一致性问题,并实现高吞吐量的数据访问。一个MapReduce的应用程序或网络爬虫应用程序完全符合这个模型。有一个计划,以支持追加写入到在未来的文件。(0.21.0以上版本,已经添加了Append功能,https://issues.apache.org/jira/browse/HDFS-265)
“移动计算比移动数据更便宜”
应用程序所要求的计算是更有效的,如果它运行在附近的数据执行。这是尤其如此,当数据集的规模是巨大的。这最大限度地减少网络拥塞,提高了系统的整体吞吐量。假设是,它常常是更好的迁移计算而不是移动数据的应用程序正在运行。 HDFS的应用程序提供的接口将自己接近的数据开始计算。
跨异构硬件和软件平台的可移植性
HDFS已设计很容易地从一个平台移植到另一个。这有利于HDFS的广泛采用,大量应用的首选平台。
NameNode和Datanode
HDFS中有一个主/从架构。一个HDFS集群由一个单一的NameNode,主服务器管理文件系统命名空间和访问客户端的文件规定。此外,还有一个Datanode的数目,通常一个集群中,每个节点管理连接到存储节点上运行。 HDFS的公开文件系统命名空间,并允许用户将数据存储在文件中。在内部,一个文件被分成一个或多个块,这些块存储在Datanode的集合。 NameNode的执行文件系统命名空间的操作,如打开,关闭,重命名文件和目录。这也决定了Datanode的块映射。 Datanode的是负责为在职读,写从文件系统的客户端的请求。 Datanode的也执行后,从该NameNode的指令块创建,删除和复制。
Namenode和Datanode是件设计商品的机器上运行的软件。这些机器通常运行在GNU / Linux操作系统(OS)。 HDFS是建立使用Java语言,任何支持Java的机器可以运行的NameNode或DataNode软件。高度可移植的Java语言的使用是指,可以广泛的机器上部署的HDFS。一个典型的部署,有一个专门的机器运行的唯一的NameNode的软件。每个集群中的其他机器上运行一个的DataNode软件的实例。该架构并不排除在同一台机器上运行多个Datanode的,但在实际部署中是很少见的情况。
NameNode的单一集群的存在,极大地简化了系统的体系结构。 NameNode的是仲裁员和所有的HDFS元数据信息库。该系统的设计,在这样一种方式,用户数据不会通过NameNode的流动。
分享到:
相关推荐
### HDFS架构指南知识点 #### 一、引言与假设目标 **HDFS**(Hadoop Distributed File System)是专为运行在商品硬件上的分布式文件系统而设计的。虽然它与其他分布式文件系统有许多相似之处,但其差异性也非常...
《HDFS用户指南》是Apache Hadoop项目的一部分,旨在为用户提供关于Hadoop分布式文件系统(HDFS)的详细操作和管理指南。HDFS是大型分布式计算系统的基础,它被广泛应用于像淘宝、京东这样的大型电商企业,以实现...
#### 二、HDFS架构 HDFS采用主从架构模型,由一个NameNode和多个DataNodes组成: 1. **NameNode**:负责管理文件系统的命名空间,包括文件和目录的元数据信息。此外,NameNode还负责维护文件块映射表。 2. **...
"阿里云 专有云企业版 V3.8.1 文件存储HDFS 开发指南 20190910" 本文档旨在指导开发者使用阿里云专有云企业版 V3.8.1 文件存储HDFS,提供了详细的开发指南和使用说明。下面是本文档中的主要知识点: 1. 法律声明:...
《大数据平台基础架构指南》由刘旭晖撰写,是一本深入探讨大数据技术与架构的专业书籍。本书主要关注如何构建高效、稳定且可扩展的大数据处理系统,为读者提供了丰富的实践经验和理论知识。以下是对该书内容的详细...
阿里云专有云企业版V3.8.1文件存储HDFS运维指南20190910 本资源摘要信息旨在总结阿里云专有云企业版V3.8.1文件存储HDFS运维指南的主要内容。该指南提供了阿里云专有云企业版V3.8.1文件存储HDFS的运维指南,旨在帮助...
- 用户指南通常会涵盖HDFS的基本概念解释,如HDFS的工作原理、架构等。 - 快速入门部分将引导用户创建和管理HDFS集群,包括配置、初始化和数据迁移等步骤。 - 进阶内容可能涉及性能调优、监控与报警、安全设置等...
- **HDFS架构**:HDFS是一种分布式文件系统,用于处理和存储大量数据,其核心设计原则是容错性和高可用性。在阿里云专有云环境下,HDFS提供了高效的数据读写能力,支持大数据分析和处理。 - **HDFS组件**:包括...
《董西城--Hadoop技术内幕--深入解析HADOOP COMMON和HDFS架构设计与实现原理》这本书是针对Hadoop生态系统中的核心组件Hadoop Common和HDFS进行深度剖析的权威指南。全书共528页,内容详实且结构清晰,带有完整的...
- **HDFS架构指南**:深入讲解了HDFS的内部结构,包括NameNode和DataNode的角色、数据块的管理和复制策略等,帮助用户更深入地理解HDFS的工作机制。 #### 四、通用工具与库 除了核心组件外,Hadoop还包含了一系列...
《大数据架构师指南》是一本深入探讨大数据领域中架构设计与实践的专业书籍,旨在帮助读者理解和掌握大数据系统的核心概念、架构设计原则以及实际操作技巧。这本书的高清pdf版本提供了清晰的阅读体验,使得学习者...
- **HDFS架构指南**:详细介绍HDFS的内部架构和工作原理。 - **API文档**:提供编程接口的详细说明,便于开发人员集成HDFS。 - **社区论坛和支持**:通过官方论坛和其他社区渠道获取技术支持和交流经验。 总之,...
HDFS 是一种基于主从架构的文件系统,可以 almacenar大量数据,并提供高吞吐量和高可扩展性。 1. HDFS 启动 在学习 HDFS 编程实践前,我们需要启动 Hadoop。执行以下命令可以成功启动 Hadoop: ``` ./bin/hadoop `...
《HDFS——Hadoop分布式文件系统深度实践》这本书是针对Hadoop分布式文件系统(HDFS)的详尽指南,旨在帮助读者深入理解HDFS的工作原理、设计思想以及在实际应用中的最佳实践。HDFS是Apache Hadoop项目的核心组件之...
Hadoop-HDFS实践教程会引导初学者了解HDFS的基本概念和架构,讲解如何安装和配置Hadoop以及HDFS,并展示如何使用HDFS进行数据的存储和访问。此外,教程还会介绍如何通过Java API来操作HDFS,例如:如何读写文件、...
根据提供的文件信息,我们可以从标题、描述以及部分可见的内容中提炼出关于Hadoop分布式文件系统(HDFS)...对于初学者而言,《Hadoop分布式文件系统使用指南》这样的资料无疑是入门和深入了解HDFS的一个非常好的资源。
在传统的HDFS架构中,NameNode是整个文件系统的元数据管理节点,负责维护文件系统的目录结构和数据块的映射关系。然而,随着数据量的增加,NameNode的内存压力也随之增大,成为系统横向扩展的瓶颈。为了解决这个问题...
Hbase利用Hadoop的HDFS作为其文件存储系统,利用Hadoop的MapReduce来处理Hbase中的海量数据。利用zookeeper作为其协调工具。 本篇文章将重点介绍Hbase三个方面的内容:Hbase体系结构(架构)的介绍、Hbase shell的...
阿里云专有云企业版V3.8.1文件存储HDFS技术白皮书,旨在为用户提供详细的文件存储HDFS技术指南。本白皮书将介绍HDFS技术的基本概念、产品优势、系统架构、技术架构、系统部署、系统管理、安全机制、性能优化等方面的...
HDFS架构详细描述了HDFS的工作原理。本用户指南主要关注用户和管理员与HDFS集群的交互。客户端通过NameNode获取文件元数据或进行文件修改,并直接与DataNode执行文件I/O操作。 #### 二、HDFS的特点 - **分布式存储...