`

hadoop hdfs读写

阅读更多

hadoop hdfs读写

 

hdfs读取文件

1.FSDataInputStream,open创建输入流,建立与nameNode的连接

2.调用getBlockLoction获得hdfs文件的数据块位置

3.FSDataInputStream, read根据数据块位置,建立与datanode的连接,读取数据块

4.在读取到数据块末端的时候,关闭与datanode的连接

5.重复2,3,4,直到文件读取完成,调用close关闭nameNode的连接

 

 

hdfs写入文件

1.FSDataOutputStream,create创建输出流,创建于nameNode的连接,创建空文件

2.addBlock申请数据块,返回LocatedBlock对象(包括LocatedBlock.locs提供数据流管道),对dataNode建立连接

3.write方法,就数据写入,数据被分成文件包存在dfsoutputstream队列中,数据包,发送到管道

4.dataNode之间传送数据包,实例化到本地,心跳nameNode blockReport上报数据块信息,兵反向发送确认包

5.client端收到确认包,从队列中删除文件包

6.当数据写完,close关闭与datanode的连接,文件包都收到了确认包,就complete关闭namenode连接

 

 

 

 

分享到:
评论

相关推荐

    大数据--Hadoop HDFS

    ### 大数据、Hadoop与HDFS详解 随着信息技术的快速发展和互联网的普及,数据量呈爆炸性增长态势。传统的数据处理工具和技术已无法满足如此大规模数据的存储、管理和分析需求。为此,Apache Hadoop应运而生,它提供...

    基于Hadoop HDFS的分布式文件系统操作工具.zip

    基于Hadoop HDFS的分布式文件系统操作工具 项目简介 本项目是一个基于Hadoop HDFS(Hadoop Distributed File System)的分布式文件... 支持获取HDFS文件的详细信息,如读写权限、大小、创建时间等。 4. 用户交互

    《HDFS——Hadoop分布式文件系统深度实践》PDF

    《HDFS——Hadoop分布式文件系统深度实践》这本书是针对Hadoop分布式文件系统(HDFS)的详尽指南,旨在帮助读者深入理解HDFS的工作原理、设计思想以及在实际应用中的最佳实践。HDFS是Apache Hadoop项目的核心组件之...

    I001-hadoophdfs-mkdirs.7z

    标题"I001-hadoophdfs-mkdirs.7z"指向的是一个关于Hadoop HDFS(Hadoop Distributed File System)操作的压缩包文件,特别是关于创建目录(mkdirs)的教程或参考资料。Hadoop是Apache软件基金会开发的一个开源框架,...

    Hadoop HDFS原理分析,技术详解

    "Hadoop HDFS原理分析" HDFS(Hadoop Distributed File System)是Hadoop项目的一部分,是一个分布式文件管理系统。HDFS的设计理念是为了存储和管理大量的数据,具有高容错性、可扩展性和高性能的特点。 HDFS的...

    深入理解Hadoop HDFS高级教程.txt打包整理.zip

    在大数据处理领域,Hadoop HDFS(Hadoop Distributed File System)是核心组件之一,它为大规模数据存储提供了可扩展、高容错性的解决方案。本高级教程将深入剖析HDFS的内部机制,帮助读者掌握其核心概念和实际操作...

    大数据 hdfs hadoop hbase jmeter

    在IT行业中,大数据处理是当前的关键技术之一,而Hadoop、HDFS和HBase则是其中的核心组件。Hadoop是一个开源框架,主要用于存储和处理大规模数据,而HDFS(Hadoop Distributed File System)是Hadoop的核心部分,是...

    apache hadoop HDFS append design

    Apache Hadoop HDFS 的`append/hflush`设计解决了读写一致性和数据持久性的问题,确保了分布式文件系统的可靠性和高效性。通过引入新的块状态管理和一系列故障恢复机制,HDFS能够更好地满足大规模数据处理的需求。...

    Hadoop(HDFS).docx

    ### Hadoop HDFS知识点解析 #### 一、HDFS产出背景及定义 随着信息技术的快速发展,数据量呈现出爆炸性增长的趋势。传统的数据存储方法已经难以满足海量数据的存储需求。在这种背景下,分布式文件系统...

    Hadoop中HDFS源代码分析

    客户端API包含在`org.apache.hadoop.ipc`包下,主要负责发起RPC请求,如打开文件、关闭文件、读写数据等操作。客户端通过创建一个`FSDataInputStream`或`FSDataOutputStream`对象与DataNode通信。 - **3.2.2 ...

    Hadoop HDFS最佳实践攻略.docx

    Hadoop HDFS 最佳实践攻略 HDFS(Hadoop Distribute File System)是一个分布式文件系统,是 Hadoop 的重要成员。它解决了传统文件系统的问题,如单机负载可能极高、数据不安全、文件整理困难等。HDFS 的解决思路是...

    Hadoop学习总结之二:HDFS读写过程解析

    ### Hadoop学习总结之二:深入理解HDFS读写过程 #### 一、HDFS文件读取流程详解 Hadoop的分布式文件系统(HDFS)是大数据存储与处理的重要基石,其读写机制的设计旨在优化大规模数据集的访问效率与容错性。本文将...

    hadoop HDFS增删改

    ### Hadoop HDFS 增删改操作及配置详解 Hadoop 分布式文件系统 (HDFS) 是 Hadoop 的核心组件之一,主要用于存储大量数据并支持这些数据的大规模处理。本文将根据提供的文档信息,深入探讨 HDFS 中涉及的增、删、改...

    Hadoop技术HDFS数据读写流程共7页.pdf.zip

    在IT行业中,Hadoop是一个广泛...由于文件" Hadoop技术HDFS数据读写流程共7页.pdf "未提供具体细节,以上内容是对一般HDFS读写流程的概述。实际文档可能包含更深入的技术细节,例如数据校验、流控制、故障恢复等机制。

    Hadoop HDFS文件系统技术概述.pptx

    Hadoop HDFS文件系统技术概述 Hadoop Distributed File System(HDFS)是一种分布式文件系统,旨在提供高容错、可靠、可扩展的文件存储解决方案。HDFS来自Google的GFS(Google File System),是GFS的开源版本。 ...

    Hadoop_HDFS安装和管理.pdf

    ### Hadoop HDFS安装与管理知识点详解 #### 一、Hadoop HDFS简介 Hadoop是一种分布式计算框架,主要用于处理大规模数据集。它由多个组件组成,其中最核心的是Hadoop Distributed File System (HDFS) 和 MapReduce。...

    Hadoop HDFS文件系统技术概述.pdf

    2. NameNode:master,管理HDFS的名称空间、管理数据块映射信息、配置副本策略、处理客户端读写请求。 3. DataNode:Slave,执行实际的操作、存储实际的数据块、执行数据块的读/写操作。 4. SecondaryNameNode:辅助...

    分布式文件系统Hadoop HDFS与传统文件系统Linux FS的比较与分析.pdf

    分布式文件系统Hadoop HDFS与传统文件系统Linux FS的比较与分析涉及的知识点包括: 1. Hadoop的定义及其在云计算中的作用:Hadoop是一个开源项目,其核心是分布式并行框架,能够利用普通配置的计算机集群进行高效的...

    Hadoop-HDFS-实践教程

    此外,教程还会介绍如何通过Java API来操作HDFS,例如:如何读写文件、如何查看文件系统的状态、如何管理HDFS中的数据。 学习Hadoop-HDFS实践教程,你可以了解到如何进行大规模数据集的存储和处理。Hadoop-HDFS实践...

Global site tag (gtag.js) - Google Analytics