微博上看到的一张关于HDFS的图片,形象生动的解释的HDFS的工作原理,再确切一点是 写操作的的基本过程:
1 一个集群中只有一个NameNode,可以有多个DataNodes
2 namenode 承担数据的位置存储信息,并将存储位置信息告诉client端!
3 得到位置信息后,client端开始写数据
4 写数据的时候是将数据分块,并存储为多份(一般为3份),放在不同的datanode 节点!
5 client 先将数据写到第一个节点,在第一个节点接收数据的同时,又将它所接收的数据推送到第二个,第二个推送到第三个节点,如果有多个节点,依次类推。。
6 从图中可以知道 NameNode 不参与 数据块的IO的!相当于mongodb 集群中的 mongos 和config 服务器的双重角色!
点击放大
原文出处:http://space.itpub.net/22664653/viewspace-714716
相关推荐
通过这个高清图解教程,你将能够亲手实践每一个步骤,深入了解Hadoop的分布式架构和工作原理。记得在实际操作中,耐心和细心是成功的关键。如果你在阅读和执行教程的过程中遇到任何困难,可以参考Hadoop的官方文档或...
在本篇【图解Hadoop环境的搭建(5)】中,我们将深入探讨Hadoop分布式文件系统(HDFS)的安装、配置以及如何通过Shell命令进行操作。Hadoop是Apache软件基金会开发的一个开源框架,主要用于处理和存储大量数据,特别...
重点聚焦于Hadoop分布式文件系统(HDFS)的高可用性(HA)以及ZooKeeper在Hadoop生态系统中的应用。 【Hadoop核心组件:HDFS】 Hadoop分布式文件系统(HDFS)是Hadoop框架的核心组成部分,设计目标是处理和存储大规模...
客户端接口和程序(2).ppt"则可能是配合视频的课件,包含了关键概念、步骤图解以及案例分析,帮助学习者更好地理解Greenplum和Hadoop客户端接口的工作原理和使用方法。课件可能涵盖了如何配置客户端环境、连接到...
1. **分布式系统基础**:首先,书籍会介绍分布式系统的概念,包括其组成、工作原理和设计目标。分布式系统是由多台计算机通过网络连接,协同完成任务的系统,它们之间通过网络通信实现数据共享和任务协作。 2. **...
Hadoop完全分布式详细安装图解教程.pdf
HDFS是一个高度容错性的分布式文件系统,能够将大数据分布在大量的廉价硬件上,提供高可用性和数据冗余。而MapReduce则是Hadoop的数据处理模型,它将复杂的计算任务拆分成两个阶段——Map和Reduce,使得并行处理成为...
HDFS是Hadoop的核心组件,它是一个分布式文件系统,设计用于跨大量计算机节点存储和处理大规模数据。HDFS遵循主从结构,其中Namenode是主节点,负责元数据管理,包括文件系统命名空间和文件的块映射信息。Datanodes...
2. **分布式文件系统**:如Google的GFS和Hadoop HDFS也采用了Paxos或其变种来解决一致性问题。 3. **状态机复制**:通过在各个节点上实现状态机,Paxos可以保证状态机的复制状态一致性。 **Xmind图解** Xmind图解...
分布式系统是计算机科学中的一个重要领域,它涉及到多个独立的计算资源协同工作,以实现一个共同的目标。"s_distribution_"可能是课程或讲座的主题,暗示我们将深入探讨分布式系统的概念、原理及其应用。 分布式...
Kerberos-模块小结知识点划分.xlsx”应该包含了更详细的步骤解释、示例配置和Kerberos原理图解,对于理解Hadoop与Kerberos的集成非常有帮助。 **课件-assets**:这个文件夹可能包含了一些课程的辅助材料,如幻灯片...
1. SSH的工作原理: SSH使用对称加密和非对称加密两种方式来确保通信安全。对称加密中,客户端和服务器共享同一密钥进行加解密,但这种方式存在密钥管理的问题。非对称加密则使用一对密钥——公钥和私钥,数据用...
3. **Hive与Hadoop的关系图解** 在关系图中,我们可以看到Hive处于Hadoop之上,作为数据处理的上层接口。Hive接收用户的HQL查询,然后进行解析、优化,生成相应的MapReduce作业。这些作业在Hadoop集群中执行,对...
本压缩包“状态机可视化png.zip”包含与YARN(Yet Another Resource Negotiator)框架中的MapReduce、ResourceManager和NodeManager相关的状态机图,这些图能够帮助我们深入理解Hadoop生态系统的工作原理。...
《图解 Kafka 之实战指南》是一本深入解析Apache Kafka的实用书籍,旨在帮助读者理解和掌握这个分布式消息系统的精髓。Kafka是一个高吞吐、低延迟的开源流处理平台,常用于实时数据管道和流应用的构建。在这个实战...
"大数据技术及架构图解实战派" 本书《大数据技术及架构图解实战派》是一本全面介绍大数据技术及架构的书籍,旨在帮助读者深入理解大数据技术的内涵、应用场景和实际应用。以下是本书的主要知识点: 一、 大数据...
- **文件系统**:文件的组织、存储和检索方式,以及权限管理和文件I/O操作。 - **设备管理**:I/O设备的驱动程序,中断处理和缓冲技术,提高设备利用率。 - **安全与保护**:权限控制、访问控制列表(ACL)和身份...
分布式开发在现代IT行业中扮演着至关重要的角色,尤其在构建大型、高可扩展的应用系统时。本项目聚焦于使用SpringBoot、Zookeeper和Dubbo来搭建微服务架构,旨在提供一个从开发到部署的完整解决方案。 SpringBoot是...
1. 数据源:Kettle支持多种数据源,包括数据库、文件系统、Web服务、API等,能够从这些来源抽取数据。 2. 数据转换:转换由多个步骤组成,每个步骤执行特定的数据处理任务,如清洗、转换、过滤等。步骤之间通过线...