本文对目前数种分布式文件系统进行简单的介绍。当前比较流行的分布式文件系统包括:Lustre、Hadoop、MogileFS、FreeNAS、FastDFS、NFS、OpenAFS、MooseFS、pNFS、以及GoogleFS。
Lustre(
www.lustre.org
)
lustre是一个大规模的、安全可靠的,具备高可用性的集群文件系统,它是由SUN公司开发和维护。该项目主要的目的就是开发下一代的集群文件系统,可以支持超过10000个节点,数以PB的数量存储系统。
lustre是开放源代码的集群文件系统,采取GPL许可协议,目前在集群计算机里,计算机与磁盘间数据交换的提升无法跟上微处理器和内存增长的速
度,从而也拖累了应用程序的性能,一种新兴的集群文件系统软件提高了I/O速度,可能降低企业购买存储设备的成本并改变企业购买存储的方式,集群文件系统
已经在大学、实验室和超级计算机研究中心里使用,而且即将进入通用商业计算市场。新的集群文件系统采用了开源的lustre技术,由美国能源部
(Department Of
Energy)开发,惠普公司(HP)提供商业支持。它显著提高了输入输出(I/O)速度,目前已经在高校、国家实验室和超级计算研究中心产生了一定影
响,未来几年中,它很有可能进入普通的商业计算机领域。
运行在linux下,开发语言c/c++
Hadoop(hadoop.apache.com)
hadoop并不仅仅是一个用于存储的分布式文件系统,而是设计用来在由通用计算设备组成的大型集群上执行分布式应用的框架。
如下图是hadoop的体系结构:
授权协议apache,开发语言java,资源耗费有点大。
MogileFs(www.danga.com)
Mogile Fs是一个开源的分布式文件系统,主要特征包括
1、应用层的组件
2、无单点故障
3、自动文件复制
4、具有比RAID更好的可靠性
5、无需RAID nigukefs支持 ,运行在linux下。
FreeNAS(
www.openqrm.org
)
FreeNAS是网络附加存储(NAS)服务专用操作系统(FreeBSD的简化版
)。基于m0n0wall防火墙,该系统通过提供磁盘管理及RAID软件,可让用户home将PC转换为NAS服务器,支持FTP/NFS/RSYNC
/CIFS/AFP/UNISON/SSH sourceforge.net/pro协议,旨在让人们重新使用旧硬件.
FastDFS(code.google.com/p/fastdfs)
FastDFS是一个开源的分布式文件系统,它对文件进行管理,功能包括:文件存储、文件同步、文件访问(文件上传、文件下载)等,解决了大容量存
储和负载均衡的问题。特别适合以文件为载体的在线服务,
如相册网站,视频网站等等。FastDFS服务端有两个角色:跟踪器(tracker)和存储节点(storage)。跟踪器主要做调度的工作,在访问上
起负载均衡的作用。存储节点存储文件,完成文件管理的所有功能:
存储、同步、和提供存取接口,FastDFS同时对文件的meta data进行管理。所谓文件的meta
data就是文件的相关属性,以键值对(key value
pair)方式表示,如:width=1024,其中的key为width,value为1024。文件meta
data是文件属性列表,可以包含多个键值树。
开发语言c/c++,运行在linux系统下。
NFS(www.tldp.org/HOWTO/NFS-HOWTO/index.html)
网络文件系统是FreeBSD支持的文件系统中的一种,也被称为NFS。
NFS允许一个系统在网络上与它人共享目录和文件。通过使用NFS, 用户和程序可以象访问本地文件一样访问远端系统上的文件。它的好处是:
1、本地工作站使用更少的磁盘空间,因为通常的数据可以存放在一台机器上而且可以通过网络访问到。
2、用户不必在每个网络上机器里面都有一个home目录。home目录可以被放在NFS服务器上并且在网络上处处可用。
3、诸如软驱、CDROM、和ZIP之类的存储设备可以在网络上面被别的机器使用。可以减少整个网络上的可移动介质设备的数量。
开发语言c/c++,可跨平台运行。
OpenAFS(
www.openafs.org
)
OpenAFS是一套开放源代码的分布式文件系统,允许系统之间通过局域网和广域网来分享档案和资源。OpenAFS是围绕一组叫做cell的文件
服务器组织的,每个服务器的标识通常是隐藏在文件系统中,从AFS客户机登陆的用户将分辨不出他们在那个服务器上运行,因为从用户的角度上看,他们想在有
识别的Unix文件系统语义的单个系统上运行。
文件系统内容通常都是跨cell复制,一便一个硬盘的失效不会损害OpenAFS客户机上的运行。OpenAFS需要高达1GB的大容量客户机缓
存,以允许访问经常使用的文件。它是一个十分安全的基于kerbero的系统,它使用访问控制列表(ACL)以便可以进行细粒度的访问,这不是基于通常的
Linux和Unix安全模型。开发协议IBM Public,运行在linux下。
MooseFs(derf.homelinux.org)
Moose File System是一个具备容错功能的网路分布式文件统,它将数据分布在网络中的不同服务器上,MooseFs通过FUSE使之看起来就 是一个Unix的文件系统。但有一点问题,它还是不能解决单点故障的问题。开发语言perl,可跨平台操作。
pNFS(
www.pnfs.com
)
网络文件系统(Network
FileSystem,NFS)是大多数局域网(LAN)的重要的组成部分。但NFS不适用于高性能计算中苛刻的输入书橱密集型程序,至少以前是这样。
NFS标准的罪行修改纳入了Parallel NFS(pNFS),它是文件共享的并行实现,将传输速率提高了几个数量级。
开发语言c/c++,运行在linu下。
googleFs
据说是一个比较不错的一个可扩展分布式文件系统,用于大型的,分布式的,对大量数据进行访问的应用。它运行于廉价的普通硬件上,但可以提供容错功能,它可以给大量的用户提供性能较高的服务。google自己开发的。
分享到:
相关推荐
在当今信息技术高速发展的背景下,分布式文件系统作为处理大规模数据存储和检索的重要技术,已经成为存储领域的核心技术之一。分布式文件系统允许多个客户端并发访问存储在同一物理或虚拟存储资源中的数据,它能够在...
分布式文件系统介绍,包含分布式文件发展历史,设计原理,流行分布式文件系统介绍,如:HDFS TFS FASTDFS CEPH LUSTRE GOOGLEFS MOOSEFS MOGILEFS
"分布式文件系统ppt" ...分布式文件系统是基于客户机 / 服务器模式设计的文件系统,可以提供高性能、安全、可靠的文件存储和访问服务,广泛应用于大规模数据存储、高性能计算、云计算、大数据分析等领域。
与早期依赖专用硬件的并行处理系统不同,分布式文件系统采用的计算机集群通常由标准硬件组成,从而大幅减少了硬件投资成本,使得大规模数据处理更加经济实惠。 HDFS作为分布式文件系统的一种实现,其设计目标是为了...
随着互联网的普及和技术的进步,分布式文件系统开始注重解决更大规模的问题,如数据的安全性和系统的可扩展性。此阶段出现了一些重要的改进和发展: - **NFS版本4**:改进了之前版本的一些局限性,尤其是在跨平台...
分布式文件系统是一种大规模数据存储和管理的技术,它将单一的、大型的数据文件分割成多个小块,分布存储在多台计算机上,通过网络进行通信和协调,以提供高可用性、高并发性和高扩展性。在当今大数据时代,分布式...
而Hadoop分布式文件系统(Hadoop Distributed File System, HDFS)作为分布式文件系统的一种,被广泛应用于大数据处理领域。在对比传统文件系统与分布式文件系统时,需要从多个维度进行分析,这包括文件系统的架构...
例如,Google File System(GFS)是一种高度容错的分布式文件系统,适用于大规模的分布式数据存储;Hadoop Distributed File System(HDFS)则是Hadoop框架的一个核心组件,专门为了大规模数据的存储和分析设计。 ...
1. **分片存储**:GFS将大文件分割成多个固定大小的块,每个块通常为64MB,这样可以并行处理和存储。同样,这个C++实现的系统可能也采用了类似的策略。 2. **主服务器(Master Node)**:GFS有一个中心化的主服务器...
基于Rust的分布式文件系统项目介绍 随着大数据和云计算技术的快速发展,分布式文件系统作为存储和管理海量数据的关键技术之一,受到了越来越多的关注。Rust作为一种安全、高效且并发性能出色的编程语言,为构建高...
总的来说,分布式文件系统是现代计算环境中不可或缺的一部分,它通过创新的体系结构和关键技术,解决了传统本地文件系统在大规模分布式环境下的局限性,为用户提供了一个无缝、高效的文件访问平台。对分布式文件系统...
分布式文件系统是一种在多台计算机之间共享和管理数据的系统,它允许多个节点同时访问和操作同一份文件,以提高数据的可访问性和处理效率。Chubby是一种由Google开发的分布式文件系统,特别设计用于提供粗粒度的锁...
近年来,随着大规模数据分析的驱动,分布式文件系统的需求急剧增长。本文将对比五种典型的分布式文件系统,包括HDFS、Ceph、MooseFS、GlusterFS和LustreFS,介绍其基本架构、数据分布和查询处理流程,然后对这些系统...
这个名为"Distributed-file-system-master"的项目很可能是学生们在期末大作业中模拟的一个简化版的分布式文件系统。让我们深入探讨一下分布式文件系统的关键概念、设计原则以及可能涉及的技术。 分布式文件系统的...
在当今大数据时代,分布式文件系统在云计算、大数据分析、互联网服务等领域扮演着至关重要的角色。 分布式文件系统的概念源于对传统单机文件系统性能和容量的局限性的突破。在单机文件系统中,所有的数据存储和处理...
Hadoop分布式文件系统(Hadoop Distributed File System, HDFS)是一种高度可靠且具有极高可扩展性的分布式文件系统,能够支持大规模的数据存储需求[1]。HDFS的设计理念源于Google的文件系统(Google File System, ...