文件写入HDFS的流程 - - ITeye博客

`

雨落千木

浏览: 36041 次
性别:
来自: 北京

最近访客更多访客>>

openlok

hooray520

fangwei06056115

wd1282988143

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

文件写入HDFS的流程

博客分类：

Hadoop

阅读更多

假设HDFS客户端为node11，用户A想要将文件apache.log写到HDFS上，该文件大小为100MB，假设用户配置的文件block大小为64MB，请结合你的理解，描述该文件写入HDFS的整个流程（请用步骤1，步骤2,……，描述）

使用HDFS提供的客户端(client)，向远程的namenode发起RPC请求；
namenode会检查要创建的文件apache.log是否已经存在，创建者是否有权限进行操作，成功则会为文件创建一个记录，否则会让客户端抛出异常；
默认block大小为64MB,因此100MB被切分为两个block,客户端会依次写入每个block，client不会把整个block直接写入，而是会将文件切分成多个packets，并在内部以队列的形式管理这些packets，并向namenode申请新的blocks，获取用来存储replicas的合适的datanodes列表，列表的大小根据在namenode中对replication的设置而定。
开始以pipeline（管道）的形式将packet写入所有的replicas中。开发库把packet以流的方式写入第一个datanode，该datanode把该packet存储之后，再将其传递给在此pipeline中的下一个datanode，直到最后一个datanode，这种写数据的方式呈流水线的形式,
最后一个datanode成功存储之后会返回一个ack packet，在pipeline里传递至客户端，在客户端的开发库内部维护着"ack queue"，成功收到datanode返回的ack packet后会从"ack queue"移除相应的packet。
如果传输过程中，有某个datanode出现了故障，那么当前的pipeline会被关闭，出现故障的datanode会从当前的pipeline中移除，剩余的block会继续剩下的datanode中继续以pipeline的形式传输，同时Namenode会分配一个新的datanode，保持replicas设定的数量。

0
顶

0
踩

分享到：

GPFS安装搭建（一）

2015-12-14 00:34
浏览 1671
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

基于Spark Streaming将图片以流的方式写入HDFS分布式文件系统.zip: 本项目聚焦于如何利用Spark Streaming将图片以流的方式写入HDFS（Hadoop Distributed File System）分布式文件系统，这在处理大量图片数据的场景下具有很高的实用价值。首先，我们需要理解Spark Streaming的基本...

利用JAVA代码将本地文件传入HDFS中: 7. **传输数据**：读取本地文件并写入HDFS文件，直到文件结束。 ```java byte[] buffer = new byte[1024]; int bytesRead; while ((bytesRead = in.read(buffer)) != -1) { out.write(buffer, 0, bytesRead); ...

分布式文件系统HDFS原理与操作: 与之相对，当客户端写入数据到HDFS时，会首先向NameNode请求创建新文件，之后数据会被写入DFSOutputStream，建立pipeline依次将目标数据块写入各个DataNode以建立多个副本。 HDFS的可靠性机制包括冗余副本策略、...

HDFS文件读写操作: HDFS的文件写入流程主要包括以下步骤： 1. **客户端发起请求**：客户端向NameNode发起请求，请求上传文件。此时，NameNode会检查目标文件是否已存在，以及其父目录是否存在。 2. **NameNode响应**：如果一切条件...

hadoophdfs写入文件原理详解共2页.pdf.zip: 本文件“hadoophdfs写入文件原理详解共2页.pdf.zip”虽然只有短短两页，但应该涵盖了HDFS文件写入的关键流程。以下是基于该主题的详细知识解析： 1. **HDFS架构**：HDFS是由NameNode和DataNode组成的。NameNode作为...

ＨＤＦＳ　的读写数据流程：: 2. 分布式文件系统：NameNode将文件分配到多个DataNode上，客户端可以将文件写入到多个DataNode上。 3. 新的流失文件：客户端请求写入文件，DataNode返回文件的block信息。 4. 文件写入的packet传输：客户端将写入的...

flume 简介安装使用案例(将log4j数据写到hdfs中): 在大数据处理中，Flume 经常用于从各种数据源（如日志文件、syslog、web 服务器日志等）收集数据，然后将其发送到数据存储系统，如 HDFS（Hadoop 分布式文件系统）。 ### Flume 简介 Flume 主要由三个核心组件构成...

大数据实验二-HDFS编程实践: - **文件复制**：`hdfs dfs -copyFromLocal`将本地文件复制到HDFS，`hdfs dfs -copyToLocal`将HDFS中的文件复制到本地。 ##### Java API实践 1. **环境搭建**：首先需要在开发环境中配置好Hadoop相关的依赖，通常...

分布式文件系统hdfs - 副本.zip: 然后，它将文件块依次写入被选择的DataNode，并在所有副本都成功写入后返回确认。NameNode更新元数据信息。 - **读文件**：读取时，客户端向NameNode请求文件的位置，然后直接从最近或负载较低的DataNode读取数据。...

HDFS存储系统: 6. **文件写入完成**：客户端完成数据写入后，关闭数据流并向Namenode发送文件写入完成信号。 #### 四、HDFS读文件流程 1. **客户端请求打开文件**：客户端向Namenode发起打开文件的请求。 2. **获取数据块信息**...

HDFS构架设计和读写流程.docx: - **一致性模型**：支持一次写入多次读取的模型，文件写入后通常不再发生变化。 - **计算向数据靠拢**：HDFS提供了一种使应用程序能够接近其所需数据的接口。 - **平台兼容性**：能够运行在多种硬件和软件平台上。 ...

分布式文件系统和HDFS那点事: 在检查点过程中，NameNode会将内存中的元数据更新后的状态写入到一个新的FsImage文件中，并清空当前的EditLog文件。这样一来，NameNode就可以在下次启动时更快地恢复元数据的状态。 #### 五、数据块的存储与管理 -...

kafka_hdfs_consumer: 这可能涉及到使用Hadoop的`FileSystem` API来创建文件，打开流，并将数据写入HDFS。同时，可能还需要处理错误和容错机制，比如检查点和数据一致性。 4. **Hive客户端交互**：`HiveClient.java`可能包含了与Hive交互...

HDFS客户端数据流程分析.ppt: HDFS 客户端数据流程分析是指在 Hadoop 分布式文件系统中，客户端如何与 HDFS 进行交互，读取和写入数据的过程。本文将对 HDFS 客户端数据流程进行详细的分析和解释。读取数据流程 1. 客户端发起读取数据请求，...

基于redis的小文件合并应用，合并为Sequence File保存到HDFS.zip: 2. **Redis缓冲**：将这些小文件批量加载到Redis中，作为临时存储，避免直接写入HDFS导致的元数据压力。 3. **文件合并**：定期或达到一定数量后，将Redis中的数据按照一定的规则（如时间戳、文件大小等）进行排序...

Hadoop技术HDFS数据读写流程共7页.pdf.zip: 5. **元数据更新**: 客户端收到所有确认后，通知NameNode文件写入完成。NameNode更新文件系统的元数据，记录文件和数据块的对应关系。 **HDFS数据读取流程** 1. **客户端查询**: 客户端向NameNode询问文件的存储...

HDFS详解和配置文件: 8. **简化的一致性模型**：HDFS文件通常只支持一次写入多次读取，虽然Hadoop2.0开始支持追加写入。 9. **不支持超强的事务**：与关系型数据库相比，HDFS在事务处理方面较弱。 #### 三、HDFS的技术结构 HDFS采用...

【HDFS篇06】HDFS数据读写流程1: 在分布式文件系统HDFS（Hadoop Distributed File System）中，数据的读写流程是其核心功能之一，确保了数据的安全性和高效性。本篇文章主要探讨HDFS的数据读写流程，特别是写数据的过程。首先，我们关注HDFS的写...

Global site tag (gtag.js) - Google Analytics