`
yettie
  • 浏览: 196879 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

几种分布式文件系统的性能对比

阅读更多

大家好

 以下是我从官方网站、论坛,以及网站等获取的信息。总体看来,MongoDB是一个新的宠儿,性能优越。但是用的人少,文档资料过于少。FastDFS是国人改编,目前有20多家企业在用,高效简洁(更少的资源投入,获得更好的效果)。MFS比较成熟,用的人多。但也有一些性能瓶颈的限制。
 
 
分布式文件系统性能对比
  最大文件限制 文件数的限制 最大存储容量(1PB) 冗余备份 集群 优点 缺点 其他
Mongodb 32bit: MongoDB <= 2G
64bit: MongoDB无限制
Wordnik 是一个在线辞典和百科文档库,据其使用经验: 超过120亿的文档存储在MongoDB中,每个Mongo 结点存储大约3TB的数据 据一个Nosql的国外网站介绍,可以轻松实现PB级别的存储。原文:(it’s extermly scalable – up to petabytes with little effort (we don’t need the space for a petabyte, but 10 terrabytes)
   http://www.catify.com/2010/10/19/nosql-vs-sql/
通过同步复制,可以解决分布式文件的备份问题.
通过ARP-ping可以实现一个双机热备切换,类mysql的mysql master master replic 
MongoDB 集群中包含一个自动分片模块 ("mongos"). 自动分片可以用于构建一个大规模的可扩展的数据库集群,这个集群可以并入动态增加的机器。自动建立一个水平扩展的数据库集群系统,将数据库分表存储在sharding的各个节点上。 1、可以存储上百万的文件而无需担心扩容性,据CSDN一篇博客里写道可以轻松实现PB级别的数据存储                                    2、快速!(它比一般的关系型数据库快5位左右。) Mongodb不支持内建的事务
http://www.xueit.com/usenetwork/show-6777-2.aspx
目前使用GridFS有以下三种方式:

   1. 使用脚本读取,这时文件数据会全部读取到脚本中,再调用脚本客户端的输出功能输出给页面。毫无疑问,这种使用方式是效率非常低下的。
   2. 使用gridfs-fuse使GridFS中存的数据可以通过标准磁盘IO方式进行访问,可以说是真正实现了一个文件系统。
   3. 使用nginx-gridfs利用Nginx直接读取gridfs中的数据进行发送,这个类似于Nginx的sendfile机制。
FastDFS 20+公司在使用
规模最大的一家:集群中的存储group数有45个,存储服务器90台,存储容量达到900TB,文件数达到4000万个。Group持续增长中。。。预计下周上线20个Group,到时总容量可以达到1200TB
国人在mogileFS的基础上进行改进的key-value型文件系统,同样不支持FUSE,提供比mogileFS更好的性能。简洁高效 FastDFS与MogileFS比较
FastDFS比MogileFS更高效。表现在如下几个方面:
  1)参见上面的第2点,FastDFS和MogileFS相比,没有文件索引数据库,FastDFS整体性能更高;
  2)从采用的开发语言上看,FastDFS比MogileFS更底层、更高效。FastDFS用C语言编写,代码量不到2万行,没有依赖其他开源软件或程序包,安装和部署特别简洁;而MogileFS用perl编写;
  3)FastDFS直接使用socket通信方式,相对于MogileFS的HTTP方式,效率更高。并且FastDFS使用sendfile传输文件,采用了内存零拷贝,系统开销更小,文件传输效率更高。
5. FastDFS有着详细的设计和使用文档,而MogileFS的文档相对比较缺乏。
6. FastDFS的日志记录非常详细,系统运行时发生的任何错误信息都会记录到日志文件中,当出现问题时方便管理员定位错误所在。
7. FastDFS还对文件附加属性(即meta data,如文件大小、图片宽度、高度等)进行存取,应用不需要使用数据库来存储这些信息。
8. FastDFS从V1.14开始支持相同文件内容只保存一份,这样可以节省存储空间,提高文件访问性能。                                     9.由网络的测试结果(http://hi.baidu.com/leolance/blog/item/8e818815b1522e6fca80c4ae.html)来看。MooseFS的性能效果不理想。I/O的读写速度比较慢。  因此,综上所说,我个人认为,选择FastDFS更加简洁高效。                       
MOOSEFS Master性能瓶颈
master本身的性能瓶颈:类似mysql 主从复制,从的可以扩展,主的不容易扩展。
体系架构存储文件总数的瓶颈:
mfs把文件系统的结构缓存到master的内存中,文件越多,master的内存消耗越大,8G对应
2500kw的文件数,2亿文件就得64GB内存
1、支持FUSE,相对比较轻量级,对master服务器有单点依赖,用perl编写,性能相对较差,国内用的人比较多(豆辩在用),适合数量少的大文件    2、高可用性(数据可以存储在多个机器上的多个副本)  3、3.通用文件系统,不需要修改上层应用就可以使用(那些需要专门api的dfs好麻烦哦!)。
4. 可以在线扩容,体系架构可伸缩性极强。(官方的case可以扩到70台了!)
5. 部署简单。(sa们特别高兴,领导们特别happy!)
6. 体系架构高可用,所有组件无单点故障。 (您还等什么?
7.文件对象高可用,可设置任

 
分享到:
评论

相关推荐

    分布式文件系统GlusterFS性能优化研究.pdf

    分布式文件系统GlusterFS性能优化研究中涉及到的关键知识点包括分布式文件系统的基本概念、GlusterFS的架构特点、性能优化策略以及优化测试和实验平台的搭建和分析方法。 首先,分布式文件系统是一种把数据存储在多...

    Hadoop分布式文件系统的模型分析

    Hadoop分布式文件系统(Hadoop Distributed File System, HDFS)是一种高度可靠且具有极高可扩展性的分布式文件系统,能够支持大规模的数据存储需求[1]。HDFS的设计理念源于Google的文件系统(Google File System, ...

    分布式文件系统试用比较

    ### 分布式文件系统概述与比较 #### 一、分布式文件系统定义与分类 分布式文件系统(Distributed File System, DFS)是一种文件管理系统,它能够跨网络中的多个物理位置存储和管理文件。DFS的设计目标是提供高可用...

    《Hadoop大数据开发实战》教学教案—03HDFS分布式文件系统.pdf

    HDFS 由 NDFS 系统演变而来,主要解决海量大数据存储的问题,也是目前分布式文件系统中应用比较广泛的一个。 HDFS 存储架构 HDFS 存储架构主要由两个部分组成:NameNode 和 DataNode。 * NameNode(名称节点)...

    分布式文件系统选型分析.docx

    在本文中,我们将深入探讨几种常见的分布式文件系统,包括TFS、HDFS、FastDFS、mogileFS、MFS、GlusterFS以及Ceph,分析其特点、适用场景以及潜在的局限性。 1.1 TFS(Team Foundation Server) TFS是一个由...

    海量下的分布式文件系统测试平台设计与实现.pdf

    3. 提高系统性能:容错测试可以评估分布式文件系统的性能,帮助开发者和测试者优化系统的性能。 分布式文件系统测试平台的设计和实现 分布式文件系统测试平台的设计和实现是本文的主要贡献。该平台采用服务层和...

    分布式文件系统试用比较.docx

    本文将针对几个主流的分布式文件系统进行比较分析,包括MooseFS、MogileFS、GlusterFS、Lustre、PVFS2等,并探讨它们的特点、应用场景及优缺点。 #### 二、MooseFS - **特点**: - 易于使用且稳定; - 对小文件...

    分布式文件系统介绍

    除了上述几种分布式文件系统外,还有许多其他的分布式文件系统,如GlusterFS、Lustre等,它们各自有着不同的特点和应用场景。 #### 九、展望未来 随着云计算和大数据技术的发展,分布式文件系统将在未来的数据存储...

    基于云芯一号的分布式文件系统设计与实现.pdf

    **分布式文件系统**:分布式文件系统是一种文件系统,它将数据存储在多个物理存储设备上,并在逻辑上形成一个统一的存储系统。这种系统可以提高数据的可用性和可靠性,使多个客户端可以并发访问数据,而且容错能力也...

    分布式文件系统概要设计-10.docx

    本文主要讨论了几个常见的分布式文件系统,包括MogileFS、FastDFS和MooseFS,并对比了MongoDB和HBase的特点。 MogileFS是一个Key-Value型的元文件系统,主要用于Web领域处理海量小文件,但不支持FUSE(File System ...

    Cumulus:一个基于网络编码的分布式文件系统.pdf

    总的来说,Cumulus 为分布式文件系统提供了一个新的视角,即通过网络编码来优化系统性能和容错性。这一创新不仅对Hadoop生态系统有所贡献,也为其他分布式系统的设计提供了有价值的参考。随着网络编码技术的进一步...

    分布式文件系统MFS(moosefs)实现存储共享.doc

    分布式文件系统MFS(moosefs)实现存储共享 ...MFS 是一种高可靠性、高可扩展性和高可用性的分布式文件系统,解决了 traditional NFS 服务器面临的性能问题和单点故障问题,提供了一个可靠的存储共享解决方案。

    安全高效的分布式加密存储系统设计(英文).pdf

    在系统设计方面,为了实现安全高效的分布式加密存储系统,主要采用了以下几种设计方法: 1. 加密服务集成:在分布式文件系统中集成加密服务,可以实现数据加密和解密的自动化处理,无需用户手动进行数据的加解密...

    简述分布式操作系统.doc

    5. **分布式服务**:系统提供分布式服务,如分布式文件系统、分布式数据库和分布式计算,使得服务可以在网络中的任何位置被访问。 接下来,我们对比了网络操作系统和分布式操作系统: **网络操作系统**(Network ...

    基于RDMA的分布式存储系统研究综述.pdf

    这些节点通过网络连接,并通过分布式文件系统协议协调彼此之间的数据读写请求,共同管理数据的存储位置和备份。 3. 数据一致性与副本管理:由于数据在多个节点上可能有副本,因此保证数据一致性和同步是一大挑战。...

    分布式I/O日志收集系统的设计与实现

    对于I/O子系统的研究可以帮助我们理解数据是如何在分布式系统中进行读写的,进而评估和对比不同存储系统的性能,这在实际应用中尤为重要。 2. 分布式I/O日志收集系统的设计目标: 设计并实现了一种新的跟踪工具,即...

    发电系统Simulink仿真模型燃料电池分布式发电系统Simulink仿真模型

    根据提供的文件信息,本文将详细解析“发电系统Simulink仿真模型燃料电池分布式发电系统Simulink仿真模型”这一主题,并围绕其标题、描述以及部分已知内容展开。 ### 发电系统Simulink仿真模型 #### 一、Simulink...

    主流分布式存储技术架构对比分析.docx

    Google File System(GFS)是谷歌设计的一种分布式文件系统,专为大规模数据处理和分析而构建。GFS采用主从式架构,由一个主控节点(Master)管理和调度整个系统的元数据,多个数据节点(Chunkserver)存储实际的...

    分布式对象存储系统Sheepdog性能测试共4页.pdf.zip

    分布式对象存储系统,如标题所提及的Sheepdog,是一种专为大规模数据存储设计的解决方案。这类系统的主要目标是提供高可用性、可扩展性和数据持久性,通常用于云存储服务、大数据分析以及内容分发网络等场景。...

    动态数据处理平台分布式缓存替换算法仿真.pdf

    以上是对文件标题、描述、标签及部分内容的知识点详细说明,集中阐述了动态数据处理平台下分布式缓存替换算法的仿真研究,以及新提出的算法相较于传统算法在性能上的优势。文章还涉及了对分布式系统、缓存替换策略、...

Global site tag (gtag.js) - Google Analytics