`
lxy2330
  • 浏览: 468643 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

当前比较适用的海量小文件系统架构方案

 
阅读更多
现在的网站越做越大了,存储的东西越来越多,如何解决这些文件存储也成了新的难题。如果把这些文件都完全采用大硬盘存储来解决,并不是一个好主意,因为数据量越大风险就越高,虽然文件能存得下,但是故障率相应会较高,另外重建耗费时间也比较长。所以最好的办法是尽可能考虑分布式存储,把文件想办法利用网络分散到多个机器上。

从我所了解的存储结构来看,分布式存储大致可以分为几种:

1、类googlefs的分布式文件系统

因为目前googlefs没有开源,所以网上出现的分布式文件系统都是利用google的方案自行实现的。这个方案的优点是可用性比较高,基本上基于硬盘的应用都可以处理,可用范围就比较广泛。我看了gfs、gfs2、ocfs2、FastDFS、MogileFS的一些相关介绍,大致有一些认识。

首先是文档比较少而出现的问题倒不少;然后是目前这些还没有一个能称得上是稳定版本,如果有的话,估计也就是其中一些收费的版本。因为磁盘存储乃是致关重要,所以目前建议还是不要轻易把这些东西部署到重要的地方。假如非常想使用的话,最好是做好充分测试,确保它的功能完全能够满足需要;然后还要想办法在传统的文件系统中做好完全的备份,以免造成损失。

另外可以提的一个东西是memcached,这个东西实现了内存的分布式共享,稳定度貌似比以上这些分布式文件系统要稳定。不过是完全基于内存的,如果数据量不是很大,可以一试。

2、手工使用文件路径分散存储

这个结构通常使用在web静态文件中,就以这种情形作为例子。

如果这些文件数量比较大,可以通过分散文件路径,把某个文件的访问指定到特定的一台或几台服务器上。例如:

1)采用域名的分散策略

例如使用a.xxx.com/b.xxx.com...来区分标记为a或b的一系列文件,这些文件存储的时候,依然按照标记,存到a或b的服务器上。这个策略将区分机器的任务交由dns服务器来执行,扩容时会相应轻松。这需要web项目初期就规划好这些东东,后期才转用域名策略的成本比较高甚至不可以实现。

2)采用目录的分散策略

假如域名初期并没有规划使用域名策略,那么可以采用代理服务器来进行目录级的划分。比如一般存储大量文件时,因为文件系统的限制以及效率问题,都会按照一定规则划分了很多级的目录,按这些目录拆分机器也并不是困难的事情。这种架构的问题在于代理服务器的性能和可靠性问题,需要在这点上稍下一点功夫。

以上这两个方案,都要自行制定策略实现分散同步传输,传输一般可以归纳为推送和抓取两种办法,同步的话可以采用日志同步(把要同步的数据记入日志,通过日志记录来传输相应文件)、比较同步(使用rsync等同步软件)或即时同步(有新的修改就立刻传输);另外要实现单点故障剔除的话,首先找一个策略把文件存储到多个节点上,例如,a.xxx.com或目录a的文件相应也存到b和c节点;然后在环境中使用故障剔除技术(lvs或nginx等),就可以解决问题,例如:采用域名的话,可以采用lvs,缺点是使用的机器就会成倍增加;亦可再用一级代理服务器,缺点是会牺牲性能。采用目录的话,因为本身就用到了代理服务器,所以只要存储得当,实现比较容易。

--------------------------------------------------------------------------------
分享到:
评论

相关推荐

    海量数据环境下的Oracle数据库系统架构设计和优化思路

    ### 海量数据环境下Oracle数据库系统架构设计与优化思路 #### 一、分布式数据库系统架构设计 在海量数据处理环境中,传统的单机数据库系统已经难以满足高性能和高可用性的需求。因此,分布式数据库系统成为了一种...

    分布式文件系统FastDFS架构剖析

    分布式文件系统FastDFS架构剖析 ...综上所述,FastDFS是一个优秀的分布式文件系统解决方案,尤其适用于处理大量小文件的场景。通过深入学习和实践,我们可以利用FastDFS来搭建自己的高可用文件存储平台,满足业务需求。

    基于P2P的WebGIS系统架构设计

    本文提出了一种基于P2P技术的WebGIS系统架构设计,旨在解决传统WebGIS系统在处理海量用户访问时面临的瓶颈问题。通过对Napster架构的研究,提出了适用于空间数据管理的具体设计方案。未来的研究方向包括但不限于: ...

    淘宝网图片存储系统架构

    为此,淘宝网研发了一套专门针对海量小文件存储的解决方案——TFS集群文件系统,有效地解决了大规模小文件的读取和访问问题。 二、TFS集群文件系统:小文件存储的革命性突破 ### 1. TFS集群文件系统简介 TFS...

    Hadoop分布式文件系统-架构和设计要点[定义].pdf

    Hadoop分布式文件系统架构和设计要点 Hadoop分布式文件系统(HDFS)是一种高度可靠、可扩展、可维护的分布式文件系统,专门为大规模数据处理和存储而设计。下面是HDFS的架构和设计要点: 一、前提和设计目标 1. ...

    浅谈分布式存储系统架构设计.pdf

    分布式存储系统架构设计是当前IT领域的一个重要话题,特别是在应对大数据和云计算的挑战时显得尤为重要。传统的存储系统由于其独立建设、低资源利用率和高维护成本等问题,已无法满足日益增长的数据存储需求。分布式...

    基于Hadoop的大数据平台架构规划方案.docx

    基于Hadoop的大数据平台架构规划方案旨在构建一个能够有效管理和分析海量数据的系统。Hadoop作为核心组件,提供了一种分布式计算框架,使得企业在面对爆炸式增长的数据时,能够以低成本、高效率的方式处理和存储数据...

    青云对象存储系统架构

    同时,随着非结构化数据的快速增长,现有的文件系统难以有效地管理和检索海量小文件。 针对以上问题,青云科技提出了软件定义的存储解决方案,旨在通过计算与存储的融合来解决现有技术的局限性。该方案采用了多种...

    NAS海量存储解决方案

    总的来说,【NAS海量存储解决方案】是针对当前企业数据快速增长的需求,提供的一种经济、高效、灵活且安全的存储策略,旨在确保数据的高可用性和业务连续性。通过优化现有网络环境,企业可以轻松实现存储扩展和数据...

    2009系统架构师大会PPT:杨明非:存储架构

    本次分享重点讨论了当前文件存储系统存在的问题以及如何通过虚拟化技术来解决这些问题,并对比了基于软件和基于硬件的文件存储虚拟化方案。 #### 二、当前文件存储系统存在的问题 1. **存储架构混乱**:不同厂商的...

    豆瓣网海量数据存储架构

    综上所述,豆瓣网通过对不同类型的海量数据采取有针对性的存储和管理策略,成功构建了一个既能够应对当前挑战又具有良好扩展性的数据存储架构。这一架构不仅支撑了豆瓣网的快速发展,也为其他需要处理大规模用户生成...

    档案管理系统方案

    - **系统设计**:完成《系统总体设计》,明确系统架构和技术方案。 - **系统开发**:分阶段进行开发,确保每个模块的质量。 - **测试验证**:进行全面测试,包括功能测试、性能测试等,确保系统稳定性。 - **...

    大型供应链系统技术架构设计方案.pptx

    本方案旨在通过先进的技术架构来支撑供应链系统的各个核心功能,确保其能够应对海量数据处理及复杂业务逻辑的需求。 #### 二、核心技术解析 ##### 1. 应用架构演进 - **All in One**:最初阶段采用的简单部署方式...

    桃源文件系统v3.3

    桃源企业文件管理系统 v3.3官方免费版 软件介绍:《桃源企业文件管理系统》适用于任何机构内部或内外之间的电子文档存储管理、网络服务、传阅签收、公文审批等业务流程,便于机构全体、部门、个人的电子文档共享,...

    Hdspace分布式机构知识库系统的小文件存储.pdf

    【标题】:“Hdspace分布式机构知识库系统的小文件存储.pdf” 【描述】:“#资源达人分享计划#” 【标签】:“分布式 分布式系统 分布式开发 参考文献 专业指导” 【部分内容】: 本文关注的是Hdspace分布式机构...

    FastDFS 分布式文件系统

    FastDFS是一款开源的高性能、轻量级的分布式文件系统,主要用于解决海量数据存储和高并发访问的问题。它在互联网行业中被广泛应用,尤其适合那些对文件上传、下载需求频繁的网站和服务。FastDFS的设计理念是简单、...

    基于分布式文件系统的图片存储服务的研究

    本文主要探讨基于分布式文件系统(如Hadoop分布式文件系统HDPS)实现的图片存储服务,通过深入分析分布式文件系统的架构特性以及其实现细节,提出了一种高效的图片存储服务方案。 #### 分布式文件系统的三大特性 ...

Global site tag (gtag.js) - Google Analytics