`
bit1129
  • 浏览: 1069581 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

【Hadoop十】HDFS读写流程

 
阅读更多

HDFS读流程



 

读流程详细步骤:

  • HDFS客户端将要读取的HDFS文件封装成DistributedFileSystem对象,然后调用DistributedFileSystem的open方法打开要读取的文件
  • DistributedFileSystem对象通过RPC访问NameNode获取文件的块信息。NameNode返回每个数据块在DataNode上的位置;每个数据块如果有备份,那么备份所在的位置也会返回给客户端,并且会对用户客户端所在的位置按照数据本地优先的策略进行排序。如果客户端在DataNode上,同时该DataNode上有要读取的数据块,那么客户端会进行本地读取,下图是数据访问策略

 

 

 

最终,DistributedFileSystem会返回一个FSDataInputStream对象供客户端读取数据,

  •  客户端调用FSDataInputStream的read方法读取数据

 

 

 

 

HDFS写流程



 

 

 

  • 大小: 68.8 KB
  • 大小: 81 KB
  • 大小: 32 KB
分享到:
评论

相关推荐

    Hadoop技术HDFS数据读写流程共7页.pdf.zip

    在IT行业中,Hadoop是一个广泛...由于文件" Hadoop技术HDFS数据读写流程共7页.pdf "未提供具体细节,以上内容是对一般HDFS读写流程的概述。实际文档可能包含更深入的技术细节,例如数据校验、流控制、故障恢复等机制。

    大数据--Hadoop HDFS

    ### 大数据、Hadoop与HDFS详解 随着信息技术的快速发展和互联网的普及,数据量呈爆炸性增长态势。传统的数据处理工具和技术已无法满足如此大规模数据的存储、管理和分析需求。为此,Apache Hadoop应运而生,它提供...

    Hadoop-HDFS-实践教程

    此外,教程还会介绍如何通过Java API来操作HDFS,例如:如何读写文件、如何查看文件系统的状态、如何管理HDFS中的数据。 学习Hadoop-HDFS实践教程,你可以了解到如何进行大规模数据集的存储和处理。Hadoop-HDFS实践...

    Hadoop中HDFS源代码分析

    客户端API包含在`org.apache.hadoop.ipc`包下,主要负责发起RPC请求,如打开文件、关闭文件、读写数据等操作。客户端通过创建一个`FSDataInputStream`或`FSDataOutputStream`对象与DataNode通信。 - **3.2.2 ...

    hadoop-hdfs.pdf

    它并不直接参与HDFS的日常读写操作,而是定期与主NameNode通信,帮助主NameNode进行元数据的持久化和检查点操作。 - **第一阶段:NameNode启动** - 加载编辑日志和映像文件到内存。 - 当客户端对元数据进行增删改...

    hadoop之hdfs中所依赖jar

    它提供了HDFS的客户端API,供应用程序使用,以便读写HDFS上的文件和目录。 3. `hadoop-common.jar`:这是Hadoop的通用功能模块,包含了一些通用的工具和类,如配置管理、网络通信、I/O处理等,是所有Hadoop组件的...

    Hadoop技术HDFS简介共10页.pdf.zip

    HDFS的工作流程包括读写操作。在写入时,客户端将数据分割成块,然后将这些块分别发送到DataNodes。NameNode会记录这些信息,形成文件的元数据。读取时,客户端通过NameNode获取数据块的位置信息,然后直接从相应的...

    大数据Hadoop中Hdfs的工作原理简洁版

    大数据Hadoop中Hdfs的工作原理可以分为几个主要部分:Hdfs工作原理中主要关键词、SecondaryNamenode的工作机制、Hdfs工作流程、Hdfs的读写流程等。 首先,Hdfs工作原理中主要关键词包括NameNode、SecondaryNameNode...

    Hadoop之hdfs架构详解共2页.pdf.zip

    "Hadoop之hdfs架构详解共2页.pdf.zip" 提供的主题是关于Hadoop的分布式文件系统HDFS(Hadoop Distributed File System)的深入解析,这是一份两页的PDF文档,可能涵盖了HDFS的核心概念、设计原则、工作流程以及相关...

    Hadoop(HDFS).docx

    ### Hadoop HDFS知识点解析 #### 一、HDFS产出背景及定义 随着信息技术的快速发展,数据量呈现出爆炸性增长的趋势。传统的数据存储方法已经难以满足海量数据的存储需求。在这种背景下,分布式文件系统...

    大数据 hdfs hadoop hbase jmeter

    在IT行业中,大数据处理是当前的关键技术之一,而Hadoop、HDFS和HBase则是其中的核心组件。Hadoop是一个开源框架,主要用于存储和处理大规模数据,而HDFS(Hadoop Distributed File System)是Hadoop的核心部分,是...

    Hadoop2.2.0 HDFS开发依赖的jar包

    开发时,你可能会用到的API包括`FileSystem`类用于文件系统操作,`DFSClient`用于低级别操作,`DFSInputStream`和`DFSOutputStream`处理文件读写,以及`Configuration`类用于配置HDFS参数。此外,`DFSAdmin`类提供了...

    Hadoop之HDFS源代码分析 pdf

    数据读取设计涉及到从HDFS读取数据的客户端行为,包括与NameNode的交互以及从DataNode读取数据的具体流程。而数据写入设计则包括如何将数据安全地写入到多个DataNode中,以及在写入过程中NameNode和DataNode的协作。...

    JavaWeb操作hadoop2.6 HDFS,从页面上传,下载,列表展示的demo

    在JavaWeb开发中,将Hadoop 2.6的HDFS(Hadoop Distributed File System)集成进项目,可以实现高效的数据存储和访问。本Demo基于SpringMVC和MyBatis框架,提供了从网页进行文件上传、下载以及列表展示的功能,这...

    Hadoop_HDFS安装和管理.pdf

    本文档详细介绍了Hadoop HDFS的安装和管理流程,特别是针对Hadoop 0.23.x版本。通过这些步骤,用户能够成功搭建一个基本的Hadoop HDFS集群,并实现对海量数据的有效管理和分析。此外,文档还提到了如何配置Namenode...

    动手实验 Hadoop Oracle HDFS直接连接器

    在动手实验“Oracle HDFS直接连接器”中,我们将会了解如何实现Oracle数据库与Apache Hadoop HDFS(Hadoop分布式文件系统)之间的直接连接,从而能够直接访问存储在HDFS中的数据文件。该实验的软件环境主要由Oracle ...

    大数据技术之Hadoop(HDFS).docx

    大数据技术之Hadoop(HDFS) Hadoop是Apache开源组织中的一個大数据处理项目,HDFS(Hadoop Distributed File System)是Hadoop项目中的分布式文件系统组件。HDFS是基于Google的GFS(Google File System)设计的,...

    hadoop 2.9.0 hdfs-default.xml 属性集

    其中HDFS(Hadoop Distributed File System)作为Hadoop项目的核心组件之一,负责数据的存储和管理。Hadoop 2.9.0版本的HDFS配置文件hdfs-site.xml定义了分布式文件系统的主要配置参数,下面详细说明这些属性的关键...

Global site tag (gtag.js) - Google Analytics