1.HDFS
其实在真正搞过分布式文件系统的人看来,HDFS不能算得上是真正的文件系统。因为他实在太简单,太粗糙。甚至连搞个append接口都搞了老半天,到现在应该还不支持随机读写之类的文件系统最基本的功能。他最大的优势是借助hadoop这个生态系统得以比较稳定。另外还有一个优势就是他是用java写的,这样一帮java程序员也可以号称自己在搞文件系统了。
HDFS到现在应该还是不是真正意义上的分布式,他的nameode的federation相当于静态目录,虽然共享存储池,但是namespace是不共享的。
2.Gluster
Gluster最大的优势在于他继承了传统文件系统的posix接口,而且表现比较稳定。虽然他的元数据的分布式hash带来很多性能上的问题,但如果非要用文件系统接口的似乎也没有更好的选择。
但是Gluster用的是c/c++,对于很多只想拿来就用不想踩坑的同学无疑是个负担,万一出了问题不是很容易解决。
3.Swift
Swift的流行得益于openstack,它应该是目前最流行的对象存储系统,印象中有在生产环节跑到上百PB的case。但总感觉这玩意用python写的,有点粗糙,似乎就是一堆脚本的拼凑。
4.Ceph
最后不得不谈一下笔者的最爱,Ceph。初次接触他是在2012年初。它最大的优势就是同时支持三种存储接口,是真正意义上的融合存储。但它mds的设计过于学术,似乎很难有稳定下来的一天。Ceph真正大火也是得益于跟opestack的结合,现在它已经是openstack快存储的不二之选。它的对象存储也还算稳定,dreamhost,CERN包括最近的yahoo都有PB级的生产级别使用。
总结下来HDFS如果不是离线的大数据计算,应该是最没吸引力的。如果是非要用文件系统接口,那只能是gluster。如果单纯的对象存储推荐swift。如果考虑更好的兼容S3或者跟openstack相结合,当然是ceph。
Gluster和Ceph都是c/c++,对于java和pyhon大行其道的今天,选择要慎重。但如果有点情怀特别是追求底层的性能,可以挑战一下ceph。
http://www.kuqin.com/shuoit/20150512/345990.html
相关推荐
总结来说,分布式文件系统HDFS的设计兼顾了硬件成本、数据处理效率和容错性,虽然有一些局限性,但在存储和处理大规模数据集方面具有显著的优势。HDFS的普及和应用为大数据处理技术提供了坚实的基础,极大地推动了...
分布式文件系统HDFS 分布式文件系统HDFS(Hadoop Distributed File System...HDFS是分布式文件系统的代表,提供了高性能、可靠性和可扩展性的存储解决方案,广泛应用于大数据存储和处理、分布式计算和数据分析等领域。
史上最全大数据技术全套教程,包括: 分布式存储系统 大数据基础 大数据处理框架 大数据管理与监控 实时计算 数据仓库 数据分析工具 数据湖 数据集成工具 消息队列 等流行技术的系列教程
Hadoop是一个开源的分布式计算平台,以其高可靠性、高扩展性和高效性处理大规模数据集而闻名。Hadoop的核心组件HDFS(Hadoop Distributed File System)是实现数据分布式存储的关键。本文将详细探讨Hadoop如何通过...
它是一个分布式文件系统,能够处理大量数据的存储和处理需求。 HDFS架构 HDFS的架构主要包括NameNode和DataNode两个组件。NameNode是Master节点,负责管理命名空间、元数据和Block副本策略。DataNode是Slave节点,...
4. **存储算法与协议**:书中会探讨诸如RAID(冗余磁盘阵列)、Erasure Coding等数据保护技术,以及GFS、HDFS等分布式文件系统的内部机制和通信协议。 5. **性能优化**:包括读写性能提升、I/O调度、缓存策略、并行...
整个HDFS系统将由数百或数千个存储着文件数据片段的服务器组成,故障的检测和自动快速恢复是HDFS一个很核心的设计目标。 高吞吐量:HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。它放宽了一部分...
分布式文件系统hdfs 分布式文件系统hdfs 分布式文件系统hdfs 分布式文件系统hdfs 分布式文件系统hdfs
HDFS(Hadoop Distributed File System)是Hadoop分布式存储平台的核心组件,负责存储和管理数据。下面是HDFS的架构和设计目标: 设计目标 HDFS的设计目标是为了满足大规模数据存储和处理的需求,具有高可靠性、可...
分布式文件系统HDFS(Hadoop Distributed File System)是Hadoop大数据存储解决方案的核心组件之一,它是一个高度容错性的系统,设计用于在廉价硬件上运行。HDFS提供高吞吐量的数据访问,非常适合大规模数据集的应用...
HDFS(Hadoop Distributed File System)是Hadoop生态系统中的核心组件之一,它是基于分布式存储技术的文件系统,旨在提供高可靠性、高可扩展性和高性能的数据存储解决方案。HDFS的主要特点是master-slave架构,名称...
首先介绍分布式文件系统的基本概念、结构和设计需求,然后介绍Hadoop分布式文件系统HDFS,详细阐述它的重要概念、体系结构、存储原理和读写过程,最后,介绍了一些HDFS编程实践方面的知识
Ceph是一种开源的、理论上的无限可扩展、具备高可靠性和高性能的分布式存储解决方案,能够支持对象存储、块存储和文件存储等多种存储方式,广泛应用于云计算和大数据处理场景中。 Ceph系统的优点包括: 1. 高可靠性...
6. Ceph 与 HDFS 的比较:Ceph 和 HDFS 是两种不同的存储系统。Ceph 是一种开源的分布式存储系统,基于 CRUSH 算法,没有中心节点。HDFS 是一种中心化的分布式存储系统,记录每一个文件,下面每一个数据块的存放位置...
HDFS是一个分布式文件系统,专为处理大规模数据而设计,能够运行在普通的商用硬件上,提供高容错性和高可用性。 【HDFS的优势】 1. **高容错性**:HDFS通过副本冗余机制确保数据的安全性。每个文件都有至少三个...
**HDFS metadata**:HDFSmetadata以树状结构存储整个HDFS上的文件和目录,以及相应的权限、配额和副本因子(replication factor)等信息。HDFSmetadata主要存储两种类型的文件: - **simage**:记录某一永久性检查点...
Hadoop是一个开源软件框架,用于分布式存储和处理大规模数据集。它最初由Apache Software Foundation开发,并已成为大数据处理领域的核心工具之一。Hadoop的设计旨在运行在由廉价商用硬件组成的集群上,通过并行处理...
《大规模分布式存储系统:原理解析与架构实战》与《分布式服务框架原理与实践》这两本书深入探讨了现代IT行业中至关重要的两个主题:分布式存储系统和分布式服务框架。这两者都是构建可扩展、高可用性及高性能应用的...
HDFS详解 HDFS(Hadoop Distributed File System)是一种分布式...HDFS是一种分布式文件系统,主要用于存储大规模数据,提供了统一的抽象目录树和分布式存储机制,广泛应用于大数据分析、分布式计算和云存储等领域。
分布式文件系统HDFS(Hadoop Distributed File System)是Hadoop项目的核心组件之一,主要用于存储大规模数据,并在多台计算机上提供高吞吐量的数据访问方式。本文将从HDFS的架构与设计目标、总体架构、数据管理、...