本文转自http://storage.chinabyte.com/107/12416607.shtml。
Hadoop 分布式文件系统 (HDFS) 是运行在通用硬件上的分布式文件系统。HDFS 提供了一个高度容错性和高吞吐量的海量数据存储解决方案。HDFS 已经在各种大型在线服务和大型存储系统中得到广泛应用,已经成为各大网站等在线服务公司的海量存储事实标准,多年来为网站客户提供了可靠高效的服务。
随着信息系统的快速发展,海量的信息需要可靠存储的同时,还能被大量的使用者快速地访问。传统的存储方案已经从构架上越来越难以适应近几年来的信息系统业务的飞速发展,成为了业务发展的瓶颈和障碍。
HDFS 通过一个高效的分布式算法,将数据的访问和存储分布在大量服务器之中,在可靠地多备份存储的同时还能将访问分布在集群中的各个服务器之上,是传统存储构架的一个颠覆性的发展。HDFS 可以提供以下特性:
• 可自我修复的分布式文件存储系统
• 高可扩展性,无需停机动态扩容
• 高可靠性,数据自动检测和复制
• 高吞吐量访问,消除访问瓶颈
• 使用低成本存储和服务器构建
分布式文件系统 HDFS 特性
高吞吐量访问
HDFS 的每个数据块分布在不同机架的一组服务器之上,在用户访问时,HDFS 将会计算使用网络最近的和访问量最小的服务器给用户提供访问。由于数据块的每个复制拷贝都能提供给用户访问,而不是从单数据源读取,HDFS 对于单数据块的访问将是传统存储方案的数倍。
对于一个较大的文件,HDFS 将文件的不同部分存放于不同服务器之上。在访问大型文件时,系统可以并行从服务器阵列中的多个服务器并行读入,增加了大文件读入的访问带宽。
通过以上实现,HDFS 通过分布式计算的算法,将数据访问均摊到服务器阵列中的每个服务器的多个数据拷贝之上,单个硬盘或服务器的吞吐量限制都可以数倍甚至数百倍的突破,提供了极高的数据吞吐量。
无缝容量扩充
HDFS 将文件的数据块分配信息存放在NameNode 服务器之上,文件数据块的信息分布地存放在 DataNode 服务器上。当整个系统容量需要扩充时,只需要增加DataNode 的数量,系统会自动地实时将新的服务器匹配进整体阵列之中。之后,文件的分布算法会将数据块搬迁到新的DataNode 之中,不需任何系统宕机维护或人工干预。通过以上实现,HDFS 可以做到在不停止服务的情况下实时地加入新的服务器作为分布式文件系统的容量升级,不需要人工干预文件的重新分布。
高度容错
HDFS 文件系统假设系统故障(服务器、网络、存储故障等)是常态,而不是异常。因此通过多方面保证数据的可靠性。数据在写入时被复制多份,并且可以通过用户自定义的复制策略分布到物理位置不同的服务器上;数据在读写时将自动进行数据的校验,一旦发现数据校验错误将重新进行复制;HDFS 系统在后台自动连续的检测数据的一致性,并维持数据的副本数量在指定的复制水平上。
相关推荐
总结来说,分布式文件系统HDFS的设计兼顾了硬件成本、数据处理效率和容错性,虽然有一些局限性,但在存储和处理大规模数据集方面具有显著的优势。HDFS的普及和应用为大数据处理技术提供了坚实的基础,极大地推动了...
HDFS概述与架构 HDFS(Hadoop Distributed File System)是...HDFS是一种高效、可靠的分布式文件系统,非常适合大数据处理和批处理应用。但是,它也存在一些缺点和限制,需要根据实际情况选择合适的存储解决方案。
分布式文件系统hdfs 分布式文件系统hdfs 分布式文件系统hdfs 分布式文件系统hdfs 分布式文件系统hdfs
首先介绍分布式文件系统的基本概念、结构和设计需求,然后介绍Hadoop分布式文件系统HDFS,详细阐述它的重要概念、体系结构、存储原理和读写过程,最后,介绍了一些HDFS编程实践方面的知识
"厦门大学-林子雨-大数据技术基础-第3章 分布式文件系统HDFS-上机练习-熟悉常用的HDFS操作" HDFS(Hadoop Distributed File System)是Hadoop生态系统中的核心组件之一,它是基于分布式存储技术的文件系统,旨在...
分布式文件系统hdfs
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错...
分布式文件系统HDFS 大数据技术原理与应用的第三章主要讲述了分布式文件系统HDFS的理论知识点和实践操作。HDFS是Hadoop Distributed File System的缩写,是Hadoop生态系统中的一个核心组件。它是一个分布式文件系统...
分布式文件系统hdfs
hadoop HDFS学习课件,根据hadoop权威指南和apache官网参考手册整理。整个PPT比较大,教学时需要拆分使用
分布式文件系统HDFS(Hadoop Distributed File System)是Hadoop生态系统中的核心组件之一,以下是对HDFS的详细介绍: 一、定义与背景 HDFS是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件...
分布式文件系统HDFS是Hadoop项目中重要的组件之一,它专门设计用于存储大规模数据集,具备高容错性、高吞吐量的特点,并能够在廉价硬件上运行。HDFS借鉴了Google的GFS架构,并在Hadoop环境中实现了类似的功能,用于...
分布式文件系统hdfs
分布式文件系统hdfs
Hadoop分布式文件系统HDFS的实战,需要的Hdfs.java文件 public static void main(String[] args) throws Exception { //上传文件到hadoop uploadFile(); createFile(); createDir(); fileRename(); deleteFile...
第二章 分布式文件系统HDFS
3.1 分布式文件系统 3.2 HDFS简介 3.3 HDFS相关概念 3.4 HDFS体系结构 3.5 HDFS存储原理 3.6 HDFS数据读写过程 3.7 HDFS编程实践
分布式文件系统HDFS 分布式文件系统HDFS(Hadoop Distributed File System)是一种基于分布式计算的文件系统,由Google开发的GFS(Google File System)所启发,旨在处理大规模数据存储和处理。HDFS的设计目标是...