`
女子,不认输
  • 浏览: 5146 次
  • 性别: Icon_minigender_2
  • 来自: 济南
最近访客 更多访客>>
社区版块
存档分类
最新评论

Hadoop分布式文件系统

阅读更多

Hadoop有一个被称为HDFS的分布式系统,全称为Hadoop Distributed FileSystem。
HDFS是为以流式数据访问模式(一次写入,多次读取)存储超大文件(指几百MB,几百GB甚至几百TB大小的文件)而设计的文件系统,在商用硬件(在各种零售店都可以买到的普通硬件)的集群上运行。
HDFS不适用的领域: ①低延迟数据访问(HDFS是为达到高数据吞吐量而优化的,这有可能会以延迟为代价)
                                        ②大量的小文件(名称节点存储着文件系统的元数据,因此文件数量的限制也有名称节点的内存量决定)
                                        ③多用户写入,任意修改文件(HDFS中的文件只有一个写入者,而且写操作总是在文件的末尾)
HDFS的块默认为64MB,磁盘的块一般为512字节。HDFS的块比磁盘的块大,目的是为了减小寻址开销。

名称节点与数据节点
HDFS集群有两种节点,以管理者-工作者的模式运行,即一个名称节点(管理者)和多个数据节点(工作者)。
名称节点管理文件系统的命名空间,它维护着这个文件系统树及这个树内所有的文件和索引目录。
数据节点是文件系统的工作者。它们存储并提供定位块的服务(被用户或名称节点调用时),并且定时的向名称节点发送他们存储的块的列表。
Hadoop提供了两种机制来确保名称节点能够经受故障:①复制那些组成文件系统元数据持久状态的文件。(一般的配置选择是,在本地磁盘上写入的同时,写入一个远程NFS挂载)②运行一个二级名称节点,定期的通过编辑日志合并命名空间镜像,以防止编辑日志过大。

压缩和输入分割
gzip格式使用DEFLATE来存储压缩过的数据,DEFLATE将数据作为一系列压缩过的块进行存储。gzip不支持分割(块)机制。
基本压缩格式不为reader提供方法使其与流同步。
bzip2格式的压缩文件提供了块与块之间的同步标记(一个48为的π近似值),因此它支持分割机制。
ZIP文件支持文件边界处分割,每个分片中包括ZIP压缩文件中的一个或多个文件。

分享到:
评论

相关推荐

    Hadoop分布式文件系统——翻译

    ### Hadoop分布式文件系统(HDFS):关键技术与实践 #### 摘要 Hadoop分布式文件系统(HDFS)是Hadoop项目的核心组件之一,旨在为大规模数据集提供高效可靠的存储解决方案。HDFS的设计原则强调了数据的分布式存储与...

    高可用性的HDFS-Hadoop分布式文件系统深度实践.part1.rar

    《高可用性的HDFS——Hadoop分布式文件系统深度实践》专注于Hadoop分布式文件系统(hdfs)的主流ha解决方案,内容包括:hdfs元数据解析、hadoop元数据备份方案、hadoop backup node方案、avatarnode解决方案以及最新...

    《HDFS——Hadoop分布式文件系统深度实践》PDF

    《HDFS——Hadoop分布式文件系统深度实践》这本书是针对Hadoop分布式文件系统(HDFS)的详尽指南,旨在帮助读者深入理解HDFS的工作原理、设计思想以及在实际应用中的最佳实践。HDFS是Apache Hadoop项目的核心组件之...

    Hadoop分布式文件系统:架构和设计.doc

    Hadoop分布式文件系统架构和设计 Hadoop分布式文件系统是Hadoop生态系统的核心组件之一,负责存储和管理大规模数据集。下面将对Hadoop分布式文件系统的架构和设计进行详细介绍。 一、前提和设计目标 Hadoop分布式...

    hadoop分布式文件系统搭建

    ### hadoop分布式文件系统搭建 #### 一、配置hadoop分布式文件系统环境搭建 ##### 1. 准备 在开始搭建Hadoop分布式文件系统之前,首先需要确保环境准备妥当。具体步骤包括: - **检查端口占用情况**:通过`...

    基于Hadoop分布式文件系统的分析与研究.pdf

    HDFS(Hadoop Distributed File System)是Hadoop的分布式文件系统,它设计用来运行在普通的硬件上,具有高容错性的特点,能够检测和处理硬件故障。HDFS的核心概念包括NameNode和DataNode,其中NameNode是管理文件...

    Hadoop分布式文件系统:架构和设计要点

    《Hadoop分布式文件系统:架构和设计要点》 Hadoop分布式文件系统(HDFS)是为处理大规模数据而设计的一种可扩展、可靠的分布式文件系统。本文将深入探讨其架构和设计的核心要点。 首先,HDFS的设计目标是针对硬件...

    基于Java的Hadoop分布式文件系统API操作设计源码

    本项目为“基于Java的Hadoop分布式文件系统API操作设计源码”,包含51个文件,其中包括37个Java源文件、10个XML配置文件、2个Properties配置文件、1个Gitignore忽略配置文件、1个Markdown文档。该系统利用Java语言...

    第四章(Hadoop大数据处理实战)Hadoop分布式文件系统.pdf

    第四章(Hadoop大数据处理实战)Hadoop分布式文件系统.pdf第四章(Hadoop大数据处理实战)Hadoop分布式文件系统.pdf第四章(Hadoop大数据处理实战)Hadoop分布式文件系统.pdf第四章(Hadoop大数据处理实战)Hadoop分布式文件...

    Hadoop分布式文件系统使用指南

    ### Hadoop分布式文件系统使用指南:深度解析与实践 #### 概述 Hadoop分布式文件系统(HDFS)是Hadoop框架的核心组成部分之一,旨在处理大规模数据集的存储与访问需求。HDFS的设计目标是在商用硬件上实现高容错性...

    Hadoop分布式文件系统:结构与设计

    Hadoop 分布式文件系统 (HDFS)是一个设计为用在普通硬件设备上的分布式文件系统。它与现有的分布式文件系统有很多近似的地方,但又和这些文件系统有很明显的不同。HDFS是高容错的,设计为部署在廉价硬件上的。HDFS对...

    高可用性的HDFS:Hadoop分布式文件系统深度实践

    1.1 HDFS系统架构 1.2 HA定义 1.3 HDFS HA原因分析及应对措施 1.3.1 可靠性 1.3.2 可维护性 1.4 现有HDFS HA解决方案 1.4.1 Hadoop的元数据备份方案 1.4.2 Hadoop的SecondaryNameNode方案 1.4.3 Hadoop的Checkpoint ...

    使用Hadoop分布式文件系统检索云存储中的文件.pdf

    【使用Hadoop分布式文件系统检索云存储中的文件】 在当今的云计算时代,云存储系统已成为企业和个人存储大量数据的关键解决方案。这些系统由一系列独立的存储服务器组成,通过网络为用户提供服务,允许经过身份验证...

    高可用性的HDFS-Hadoop分布式文件系统深度实践.part2.rar

    《高可用性的HDFS——Hadoop分布式文件系统深度实践》专注于Hadoop分布式文件系统(hdfs)的主流ha解决方案,内容包括:hdfs元数据解析、hadoop元数据备份方案、hadoop backup node方案、avatarnode解决方案以及最新...

    Hadoop分布式文件系统使用指南hdfs_user_guide.pdf

    根据提供的文件信息,我们可以从标题、描述以及部分可见的内容中提炼出关于Hadoop分布式文件系统(HDFS)的相关知识点。 ### Hadoop分布式文件系统(HDFS) #### 一、简介 Hadoop分布式文件系统(Hadoop ...

    hadoop分布式文件系统

    hadoop的hdfs的0.8版本,下载后直接安装

    hadoop分布式文件系统架构

    hadoop分布式文件系统架构

Global site tag (gtag.js) - Google Analytics