之前,我们已经学习过了HDFS的读写数据流程,详情请看
《Hadoop深入学习:HDFS主要流程——写文件》,近来鄙人在看《Hadoop:The Definiyive Guide(3rd edition)》,发现之前的体会还有些不足,故在本章中,我们再来重温一下Client是如何向Hadoop的HDFS中写数据的。
下面我们来先看看下面的“写”流程图:
假如我们有一个文件test.txt,想要把它放到Hadoop上,执行如下命令:
引用
# hadoop fs -put /usr/bigdata/dataset/input/20130706/test.txt /opt/bigdata/hadoop/dataset/input/20130706 //或执行下面的命令
# hadoop fs -copyFromLocal /usr/bigdata/dataset/input/20130706/test.txt /opt/bigdata/hadoop/dataset/input/20130706
整个写流程如下:
第一步,客户端调用DistributedFileSystem的create()方法,开始创建新文件:DistributedFileSystem创建DFSOutputStream,产生一个RPC调用,让NameNode在文件系统的命名空间中创建这一新文件;
第二步,NameNode接收到用户的写文件的RPC请求后,谁偶先要执行各种检查,如客户是否有相关的创佳权限和该文件是否已存在等,检查都通过后才会创建一个新文件,并将操作记录到编辑日志,然后DistributedFileSystem会将DFSOutputStream对象包装在FSDataOutStream实例中,返回客户端;否则文件创建失败并且给客户端抛IOException。
第三步,客户端开始写文件:DFSOutputStream会将文件分割成packets数据包,然后将这些packets写到其内部的一个叫做data queue(数据队列)。data queue会向NameNode节点请求适合存储数据副本的DataNode节点的列表,然后这些DataNode之前生成一个Pipeline数据流管道,我们假设副本集参数被设置为3,那么这个数据流管道中就有三个DataNode节点。
第四步,首先DFSOutputStream会将packets向Pipeline数据流管道中的第一个DataNode节点写数据,第一个DataNode接收packets然后把packets写向Pipeline中的第二个节点,同理,第二个节点保存接收到的数据然后将数据写向Pipeline中的第三个DataNode节点。
第五步,DFSOutputStream内部同样维护另外一个内部的写数据确认队列——ack queue。当Pipeline中的第三个DataNode节点将packets成功保存后,该节点回向第二个DataNode返回一个确认数据写成功的信息,第二个DataNode接收到该确认信息后在当前节点数据写成功后也会向Pipeline中第一个DataNode节点发送一个确认数据写成功的信息,然后第一个节点在收到该信息后如果该节点的数据也写成功后,会将packets从ack queue中将数据删除。
在写数据的过程中,如果Pipeline数据流管道中的一个DataNode节点写失败了会发生什问题、需要做哪些内部处理呢?如果这种情况发生,那么就会执行一些操作:
首先,Pipeline数据流管道会被关闭,ack queue中的packets会被添加到data queue的前面以确保不会发生packets数据包的丢失;
接着,在正常的DataNode节点上的以保存好的block的ID版本会升级——这样发生故障的DataNode节点上的block数据会在节点恢复正常后被删除,失效节点也会被从Pipeline中删除;
最后,剩下的数据会被写入到Pipeline数据流管道中的其他两个节点中。
如果Pipeline中的多个节点在写数据是发生失败,那么只要写成功的block的数量达到
dfs.replication.min(默认为1),那么就任务是写成功的,然后NameNode后通过一步的方式将block复制到其他节点,最后事数据副本达到
dfs.replication参数配置的个数。
第六步,,完成写操作后,客户端调用close()关闭写操作,刷新数据;
第七步,,在数据刷新完后NameNode后关闭写操作流。到此,整个写操作完成。
- 大小: 56.8 KB
分享到:
相关推荐
《Hadoop技术内幕:深入解析YARN架构设计与实现原理》是一本专注于Hadoop生态系统中资源管理和调度核心组件——YARN(Yet Another Resource Negotiator)的专著。这本书全面介绍了YARN的架构、设计思想以及实际操作...
### Hadoop学习总结之二:深入理解HDFS读写过程 #### 一、HDFS文件读取流程详解 Hadoop的分布式文件系统(HDFS)是大数据存储与处理的重要基石,其读写机制的设计旨在优化大规模数据集的访问效率与容错性。本文将...
《Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理》是一本深入探讨Hadoop核心组件的书籍,其源代码提供了对Hadoop内部工作原理的直观理解。这本书主要关注两个关键部分:Hadoop Common和HDFS...
《Hadoop技术内幕》系列书籍包含了MapReduce、YARN和HDFS三个核心组件的深入解析,是理解Hadoop生态系统不可或缺的资源。以下是这些主题的详细概述: **Hadoop MapReduce** MapReduce是Hadoop处理大数据的主要计算...
根据提供的文件信息,本文将深入解析《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》这本书中的关键知识点,主要包括Hadoop的核心组件——MapReduce的设计理念、架构组成及其具体的实现原理。 ### Hadoop...
《Hadoop技术内幕:深入解析HADOOP COMMON和HDFS架构设计与实现原理》这本书是IT领域的经典之作,专门探讨了Hadoop生态系统中的两大核心组件——Hadoop Common和HDFS(Hadoop Distributed File System)的架构设计与...
本次实验旨在通过对Hadoop分布式文件系统(HDFS)进行运行测试,深入理解并掌握Hadoop及其核心组件之一——HDFS的基本原理与操作方法。随着大数据时代的到来,如何高效地存储和处理海量数据成为了一个重要的技术挑战...
《Hadoop技术内幕:深入解析...为了深入学习Hadoop MapReduce,读者需要获取这本书,并结合实际编程练习来加深理解和应用。对于想要从事大数据处理或已经在该领域工作的专业人士,这本书将是一份宝贵的参考资料。
《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》这本书是理解Hadoop核心组件MapReduce的关键资源。MapReduce是Google提出...对于想要深入学习Hadoop和大数据处理的人来说,这本书是一份不可多得的参考资料。
《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》是董西成撰写的一本专著,专注于探讨Hadoop的核心组件MapReduce的内部机制。这本书涵盖了从基础概念到高级应用,旨在帮助读者深入理解这一分布式计算框架。...
6. **Hadoop分布式文件系统(HDFS)**:MapReduce与HDFS紧密配合,HDFS提供高可用性和可扩展性的分布式存储,使得数据可以跨多台服务器分布,便于MapReduce进行并行处理。 7. **JobTracker与TaskTracker**:在早期...
在学习MapReduce的过程中,还需要了解HDFS(Hadoop Distributed File System),这是Hadoop的基础存储系统,它将大文件分割成小块并复制到多台机器上,提供了高可用性和容错性。同时,理解Hadoop的配置参数调优、...
《Hadoop技术内幕:深入解析HADOOP COMMON和HDFS架构设计与实现原理》是一本专为理解Hadoop生态系统核心组件——Hadoop Common和HDFS(Hadoop Distributed File System)设计与实现细节而编写的书籍。这本书以高清、...
标题《Hadoop技术内幕:深入解析YARN架构设计与实现原理》点明了本书的主题是关于YARN的架构和实现原理的深入解析。YARN是Hadoop 2.0引入的一个核心组件,其目的在于改进原有Hadoop在资源管理和作业调度方面的限制,...
### Hadoop技术内幕:深入解析MapReduce架构设计与实现原理 #### 一、Hadoop概述 Hadoop是一种能够处理大规模数据集的开源软件框架。它最初由Apache开发,旨在为海量数据提供分布式存储和计算能力。Hadoop的核心...
4. MapReduce工作流程:分析job.xml配置文件,理解JobTracker如何解析和调度任务,TaskTracker如何执行任务,以及shuffle和sort过程的实现。 5. 容错机制:探究Hadoop如何实现硬件故障的自动检测和数据恢复,如心跳...