【漫画系列】HDFS存储原理分析(一)
本次分享共分为三期,结合Maneesh Varshney的漫画改编,为大家分析HDFS存储机制与运行原理。
一、角色出演
如上图所示,HDFS存储相关角色与功能如下:
Client:客户端,系统使用者,调用HDFS API操作文件;与NN交互获取文件元数据;与DN交互进行数据读写。
Namenode:元数据节点,是系统唯一的管理者。负责元数据的管理;与client交互进行提供元数据查询;分配数据存储节点等。
Datanode:数据存储节点,负责数据块的存储与冗余备份;执行数据块的读写操作等。
二、写入数据
1、发送写数据请求
HDFS中的存储单元是block。文件通常被分成64或128M一块的数据块进行存储。与普通文件系统不同的是,在HDFS中,如果一个文件大小小于一个数据块的大小,它是不需要占用整个数据块的存储空间的。
2、文件切分
3、DN分配
4、数据写入
5、完成写入
6、角色定位
三、HDFS存储写操作分析
通过写过程,我们可以了解到:
1、HDFS属于Master与Slave结构。一个集群中只有一个NameNode,可以有多个DataNodes;
2、HDFS存储机制保存了多个副本,当写入1T文件时,我们需要3T的存储,3T的网络流量带宽;系统提供容错机制,副本丢失或宕机可自动恢复,保证系统高可用性。
3、HDFS默认会将文件分割成block。然后将block按键值对存储在HDFS上,并将键值对的映射存到内存中。如果小文件太多,会导致内存的负担很重。
四、思考
1、数据写入时出错怎么办?
2、元数据是如何存储的?
未完待续……
微信扫一扫
关注该公众号
相关推荐
2. **数据存储**:为了应对海量数据的挑战,京东大数据平台采用了分布式存储系统,如Hadoop HDFS(Hadoop Distributed File System)作为基础存储层,保证数据的高可用性和可扩展性。同时,可能还会有NoSQL数据库如...
Hadoop是京东大数据平台的核心组件之一,主要用于存储和处理海量数据。具体包括以下几个方面: 1. **HDFS(Hadoop Distributed File System)**:作为分布式文件系统,HDFS被广泛用于存储原始数据和中间结果。京东...
京东大数据平台是一个全面的数据解决方案,旨在支持公司的运营决策、市场分析、用户行为研究以及产品优化。这份名为"京东大数据平台45.pptx"的文档资料深入探讨了京东在大数据领域的核心技术和应用实践。 首先,...
在大数据存储领域,京东作为一家大型电商平台,积累了丰富的实践经验。本话题主要聚焦于大数据存储的跨域实践与分层策略,旨在深入解析京东如何高效、安全地管理海量数据。在这个过程中,我们将探讨以下几个核心知识...
### 京东大数据平台从无到有的演进历程与关键技术 #### 概述 随着电子商务行业的迅猛发展,数据作为核心资产的地位日益凸显。京东作为一个大型电商平台,对于数据的应用和管理也经历了从无到有的过程,并逐步形成...
【京东大数据存储演化之路】 在数字化时代,大数据已经成为企业竞争力的关键因素,京东作为中国领先的电商平台,其大数据存储的演进历程对于理解大数据处理技术的发展具有重要参考价值。本报告将深入探讨京东如何从...
在实际操作中,京东可能会采用HDFS进行分布式存储,Hive提供SQL接口进行数据分析,Kafka用于实时数据流处理,以及Spark进行复杂的数据计算。这些组件相互配合,构建起高效稳定的大数据生态系统。 此外,文件名如...
总结,京东大数据日志生命周期管理涉及日志的生成、收集、存储、处理、归档等多个环节,而告警避坑指南则强调有效告警策略的制定和实施。通过这些实践,京东能够高效地管理和利用大数据日志,实现业务的稳定运行和...
在大数据存储及分层实践中,京东零售海量日志数据处理是一个关键环节,它涉及到数据的收集、存储、处理和分析等多个方面。在这个过程中,京东利用先进的技术和架构来应对大规模的数据挑战,实现高效的数据管理和价值...
京东金融大数据剖析平台总体架构是金融领域中大数据技术在实际应用中的一个重要实例。该平台旨在通过高效的数据处理、分析和挖掘,为业务决策提供强有力的支持,优化风险控制,提升服务质量,以及实现更精准的市场...
2. 数据存储层:大数据平台需要能够处理PB级别的数据,因此存储系统通常由分布式文件系统如HDFS构成。此外,还包括列式存储如HBase和Parquet,用于优化数据分析性能,以及关系型数据库如MySQL或NoSQL数据库如MongoDB...
京东大数据存储负责人毛宝龙在将EC融入HDFS方面发挥了重要作用。他不仅负责了京东HDFS、Ceph、JDK等组件的开发与维护,还主导了万台规模的大数据分布式文件存储系统的构建。毛宝龙也是Alluxio开源社区的PMC和Hadoop...
在大数据存储及分层实践中,点流采集系统在京东零售的应用是至关重要的一个环节。这一实践不仅涉及到数据的高效获取,还涵盖了数据处理、存储优化以及业务决策支持等多个层面。以下将详细介绍点流采集系统的核心概念...
大数据开发工程师是一种复杂的岗位,它需要掌握多种技术和技能,本 Resume 模板旨在展示大数据开发工程师的个人概况、教育经历、职业技能、工作经历和项目经历等方面的信息。 个人概况 姓名、性别、学历、工作年限...
1. **HDFS (Hadoop Distributed File System)**: HDFS 是一种分布式文件系统,由 Apache Hadoop 项目提供,广泛应用于大数据存储。它的核心特点是将大文件分割为固定大小的块,并在多台服务器(DataNodes)上冗余...
在大数据智能物流管理系统领域,京东青龙系统是一个具有代表性的创新应用,它的系统架构分析对于理解当前智能物流的运作模式和技术支撑具有重要意义。根据标题和描述,本文将详细探讨京东青龙系统的架构特点以及其...
Apache Ozone 是一个正在崛起的分布式存储系统,旨在成为HDFS(Hadoop Distributed File System)的下一代解决方案。HDFS在处理大规模数据存储方面表现出色,但随着数据量的增长和复杂性的增加,它面临着一些挑战,...