`

Hadoop白皮书(1):分布式文件系统HDFS简介

阅读更多

Hadoop 分布式文件系统 (HDFS) 是运行在通用硬件上的分布式文件系统。HDFS 提供了一个高度容错性和高吞吐量的海量数据存储解决方案。HDFS 已经在各种大型在线服务和大型存储系统中得到广泛应用,已经成为各大网站等在线服务公司的海量存储事实标准,多年来为网站客户提供了可靠高效的服务。

随着信息系统的快速发展,海量的信息需要可靠存储的同时,还能被大量的使用者快速地访问。传统的存储方案已经从构架上越来越难以适应近几年来的信息系统业务的飞速发展,成为了业务发展的瓶颈和障碍。

HDFS 通过一个高效的分布式算法,将数据的访问和存储分布在大量服务器之中,在可靠地多备份存储的同时还能将访问分布在集群中的各个服务器之上,是传统存储构架的一个颠覆性的发展。HDFS 可以提供以下特性:

• 可自我修复的分布式文件存储系统

• 高可扩展性,无需停机动态扩容

• 高可靠性,数据自动检测和复制

• 高吞吐量访问,消除访问瓶颈

• 使用低成本存储和服务器构建

分布式文件系统 HDFS 特性

高吞吐量访问

HDFS 的每个数据块分布在不同机架的一组服务器之上,在用户访问时,HDFS 将会计算使用网络最近的和访问量最小的服务器给用户提供访问。由于数据块的每个复制拷贝都能提供给用户访问,而不是从单数据源读取,HDFS 对于单数据块的访问将是传统存储方案的数倍。

对于一个较大的文件,HDFS 将文件的不同部分存放于不同服务器之上。在访问大型文件时,系统可以并行从服务器阵列中的多个服务器并行读入,增加了大文件读入的访问带宽。

通过以上实现,HDFS 通过分布式计算的算法,将数据访问均摊到服务器阵列中的每个服务器的多个数据拷贝之上,单个硬盘或服务器的吞吐量限制都可以数倍甚至数百倍的突破,提供了极高的数据吞吐量。


无缝容量扩充

HDFS 将文件的数据块分配信息存放在NameNode 服务器之上,文件数据块的信息分布地存放在 DataNode 服务器上。当整个系统容量需要扩充时,只需要增加DataNode 的数量,系统会自动地实时将新的服务器匹配进整体阵列之中。之后,文件的分布算法会将数据块搬迁到新的DataNode 之中,不需任何系统宕机维护或人工干预。通过以上实现,HDFS 可以做到在不停止服务的情况下实时地加入新的服务器作为分布式文件系统的容量升级,不需要人工干预文件的重新分布。

高度容错

HDFS 文件系统假设系统故障(服务器、网络、存储故障等)是常态,而不是异常。因此通过多方面保证数据的可靠性。数据在写入时被复制多份,并且可以通过用户自定义的复制策略分布到物理位置不同的服务器上;数据在读写时将自动进行数据的校验,一旦发现数据校验错误将重新进行复制;HDFS 系统在后台自动连续的检测数据的一致性,并维持数据的副本数量在指定的复制水平上。


ref:http://datacenter.watchstor.com/infra-139859.htm
  • 大小: 95.6 KB
分享到:
评论
1 楼 w156445045 2012-11-24  
Hadoop 有没windows环境下的配置呢,
谢谢。非常感谢。

相关推荐

    Hadoop+分布式文件系统(HDFS)简介

    白皮书英特尔Hadoop大数据解决方案英特尔Hadoop发行版分布式文件系统HDFS简介英特尔Hadoop发行版提供下列核心优势Hadoop分布式文件系统HDFS是运行在通用硬件上的分布式文件系统HD

    阿里云 专有云企业版 V3.8.1 文件存储HDFS 技术白皮书 20190910

    文件存储HDFS(Hadoop Distributed File System)是一种分布式文件系统,主要用于存储和管理大规模数据。HDFS是一个高度可扩展、可靠、fault-tolerant的文件系统,能够满足大数据处理和存储的需求。 2. 文件存储...

    中科曙光XData-Hadoop大数据软件白皮书v2.0.pdf

    - **HDFS(Hadoop Distributed File System)**:分布式文件系统,提供高吞吐量的数据访问能力,适用于大量数据的存储和处理。 - **MapReduce**:分布式数据处理框架,能够实现对大规模数据集的快速批处理。 - **...

    阿里云 专有云企业版 V3.8.2 文件存储HDFS 技术白皮书 20200417.pdf

    【阿里云专有云企业版 V3.8.2 文件存储HDFS 技术白皮书】详述了阿里云为企业级用户提供的高效、稳定、安全的分布式文件系统——HDFS(Hadoop Distributed File System)服务。文件存储HDFS是基于开源HDFS经过优化和...

    基于Hadoop的分布式并行算法在最佳路径中的研究.pdf

    Hadoop由两个核心组件构成:Hadoop分布式文件系统(HDFS)和MapReduce计算模型。HDFS采用主从(Master/Slave)架构,Master节点负责管理,Slave节点存储数据。MapReduce则是一种处理大规模半结构化数据的编程模型,通过...

    阿里云 专有云企业版 V3.9.0 文件存储HDFS 技术白皮书 20191017.pdf

    文件存储HDFS(Hadoop Distributed File System)是阿里云专有云企业版中的一个重要组件,用于提供大规模、高可用的分布式文件系统服务。在V3.9.0版本中,HDFS技术白皮书主要涵盖了产品的基本定义、优势、功能特性、...

    阿里云 专有云企业版 V3.8.0 文件存储HDFS 技术白皮书 20190621.pdf

    HDFS是基于分布式文件系统的原理,特别适合处理和存储海量数据。在V3.8.0版本中,阿里云优化了这一服务,以满足企业对于大数据处理的需求。 1. **设计理念** HDFS的设计核心在于可靠性和可扩展性。它将大文件分割...

    Hbase分析报告白皮书

    HBase可以直接使用本地文件系统存储数据,但为了确保数据的可靠性及系统的稳定性,通常会与Hadoop结合使用,利用Hadoop的分布式文件系统(HDFS)作为数据存储基础。 Hadoop文件系统(HDFS)是一个兼容廉价硬件的...

    vmware虚拟机下hadoop集群安装过程

    Hadoop是一种开源的分布式计算框架,源于谷歌的两份开创性白皮书。由于大数据的崛起,Hadoop在近十年间经历了显著的发展,被誉为下一个Linux,因为其具备强大的扩展性和线性可伸缩性。即使在较小规模的虚拟机集群上...

    Hadoop大数据

    Hadoop是一个重要的大数据处理平台,其设计灵感来源于Google的MapReduce白皮书和Google文件系统(GFS)。它是开源Apache项目的一部分,最初由Yahoo的Doug Cutting领导开发。Hadoop具有高度的可扩展性,适用于在普通...

    Hadoop、HBase、Hive、Pig、Zookeeper资料整理

    1. **Hadoop**:Hadoop是Apache软件基金会的一个开源项目,主要用于大规模数据集的分布式计算。它由两个主要部分组成:Hadoop Distributed File System (HDFS) 和 MapReduce。HDFS提供了高容错性的分布式存储,而...

    大数据白皮书2018

    Hadoop是大数据处理的核心框架之一,其分布式文件系统HDFS(Hadoop Distributed File System)为海量数据提供了可靠的存储解决方案。2018年的Hadoop在性能优化、安全性、易用性方面都有所提升,使得它在企业级大数据...

    hbase分析报告白皮书

    《HBase分析报告白皮书》详述了HBase这一分布式开源数据库的特性与应用,其基于Hadoop分布式文件系统,旨在处理大规模数据。本文将深入解析HBase的关键概念、设计目标以及与Hadoop的关系。 首先,HBase是模仿Google...

    华为FusionInsight HD技术白皮书.pdf

    2.1 分布式文件系统 HDFS HDFS是Hadoop的核心组件之一,为FusionInsight HD提供了可靠的分布式存储。HDFS设计为处理大规模数据集,具有高容错性和高吞吐量,确保数据的持久性和可访问性。 2.2 分布式批处理引擎 ...

    FusionInsight HD技术白皮书.pdf

    - **分布式文件系统HDFS**:基于Hadoop的分布式文件系统,为大数据处理提供可靠的存储服务,支持高容错和高吞吐量的数据读写。 - **统一资源管理和调度框架YARN**:作为Hadoop的第二代资源管理系统,YARN将资源管理...

    vmware虚拟机下hadoop集群安装过程.pdf

    Hadoop是一种开源的分布式计算框架,源于谷歌的两份开创性白皮书。随着大数据时代的到来,Hadoop因其强大的分布式处理能力,被广泛视为下一个Linux级别的操作系统。对于学习和研究Hadoop,搭建一个小型的Hadoop集群...

    FusionInsight HD技术白皮书.docx

    2.2 分布式文件系统 HDFS HDFS是Hadoop的核心组件之一,提供高容错性的文件存储服务。它将大文件分割成块,并在多台机器上冗余存储,确保数据的可靠性。HDFS设计的目标是处理PB级别的数据,并支持低延迟读写。 2.3 ...

    2016、2018、2019、2020大数据白皮书.zip.zip

    Hadoop是分布式文件系统HDFS和MapReduce计算模型的组合,Spark则以其内存计算和流处理能力而著名,Flink则在实时数据处理上表现出色。 3. 数据存储技术:如HBase、Cassandra、MongoDB等NoSQL数据库,用于处理非结构...

    H3C大数据产品技术白皮书.doc

    DataEngine HDP是基于Hadoop的大数据处理平台,可能包括YARN资源调度、HDFS分布式存储、MapReduce并行计算等技术。 3. DataEngine MPP Cluster核心技术: - MPP+Shared Nothing架构:所有计算节点独立,无共享存储...

Global site tag (gtag.js) - Google Analytics