`
wsql
  • 浏览: 11967629 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
文章分类
社区版块
存档分类
最新评论

[探讨]分布式文件系统的应用及选择

 
阅读更多

当下,互联网行业发展非常迅猛,分布式文件系统在其中的应用也非常普遍。一些朋友问起一些相关问题,如:

1. 搜索引擎类的那些页面文本文件存储,用什么DFS比较好?
2. 海量小图片类的,如taobao里头,好多商家图片,用什么存储?
3. 视频类的,如优酷,用什么DFS
4. 海量空间地理图形信息类的?


这都是非常有意义的问题。DFS有很多,各有自己的特点。

1. 这个,HDFS似乎就可以满足。它只需要能把那些文本文件分块分散到各个节点上进行顺序存储就行了。缺点呢,就是:目前Hadoop只支持单用户写,不支持并发多用户写。可以使用Append操作在文件的末尾添加数据,但不支持在文件的任意位置进行修改。所以,它并不一定适合于一些特定的场景应用。比如,某些应用就是要求修改某个文件的局部内容,同时要求没有什么大的性能损失。

2. taobao专门为它开发一套DFS,叫TFS. 它好像是按照默认64M来全局组块的。多个小图片文件可以存到同一个块中。name server有主和备。chunk server或叫data server节点用于存储实际的数据。在单机里头,无数的小文件如果聚集到一个目录下边,访问某个小文件,效率是非常低的,将多个小文件聚成一个大文件,在这里优势就体现出来了。taotao在具体实施过程当中,还弄了个主备中心的要领,主中心可读可写,备中心是主中心的副本,只提供读,这样在主中心失败的情况下,备中心可以继续提供无损的服务。其介绍详见:http://code.taobao.org/p/tfs/wiki/index/

3. 视频类的,单个文件大小大多在几十兆或上百兆,与TAOTAO里的小图片(几K到几十K)又不一样。参照TAOBAO的文件系统,也许可以一试。GFS或者MooseFS也可以一试。商家,国内有个公司叫龙存,不知道费用如何。使用TFS,单文件跨块存储,如果支持的话,倒不妨一试。

4. 这个问题应该分成两块,
矢量图形数据本身,应该还要借助于空间数据库(如Oracle Spatial, PostGIS, ArcSDE引擎等)进行存储,因为它还是涉及到事务处理的。对外展现的图形(影像),分级分块,可以借助于小文件聚合的思想。但是数据量,未必有前边3个那么大。普通的可随机读写的GFS是不是能满足需求?


<script type="text/javascript"><!-- google_ad_client = "ca-pub-7104628658411459"; /* wide1 */ google_ad_slot = "8564482570"; google_ad_width = 728; google_ad_height = 90; //--></script><script type="text/javascript" src="http://pagead2.googlesyndication.com/pagead/show_ads.js"></script>
分享到:
评论

相关推荐

    分布式文件系统的历史与现状.

    本文将深入探讨分布式文件系统的起源、发展历程以及当前的技术趋势,旨在为读者提供一个全面的理解视角。 #### 二、分布式文件系统的定义 分布式文件系统是一种能够跨越多个物理位置存储和管理数据的文件系统。它...

    分布式文件系统现状探讨研究

    本文旨在探讨分布式文件系统的发展历程、当前现状及未来趋势,并重点分析几种流行的分布式文件系统及其应用场景。 #### 1. NFS 网络文件系统 - **历史沿革**:网络文件系统(Network File System, NFS)是首个基于...

    分布式文件系统负载均衡技术探讨.pdf

    分布式文件系统作为解决本地文件系统容量和效率问题而提出的系统,通过网络将多台物理计算机连接起来,共同完成大量文件数据的存储与访问。其发展大体经历了三个阶段:第一阶段是网络文件系统,第二阶段是共享SAN...

    Hadoop分布式文件系统的模型分析

    注:本文旨在从模型分析的角度探讨Hadoop分布式文件系统的设计特点与优势,以及其在云计算领域的应用前景。通过对HDFS与传统分布式文件系统的对比分析,为研究者提供了深入理解Hadoop分布式文件系统的重要参考。

    分布式数据库系统及其应用与答案

    《分布式数据库系统及其应用(第二版)》由邵佩英编著,是中国科大出版社出版的专业教材,旨在深入探讨分布式数据库系统的理论基础和实际应用。 分布式数据库系统的核心思想是将数据分布在多个物理位置上的独立...

    Hadoop分布式文件系统——翻译

    ### Hadoop分布式文件系统(HDFS):关键技术与实践 #### 摘要 Hadoop分布式文件系统(HDFS)是Hadoop项目的核心组件之一,旨在为大规模数据集提供高效可靠的存储解决方案。HDFS的设计原则强调了数据的分布式存储与...

    基于大数据分析的分布式文件系统关键技术.pdf

    本文分析了在大数据形势下分布式文件系统面临的关键技术问题,并探讨了其技术发展的趋势。这些关键技术主要包括数据存储、数据管理和数据分析等多个方面。 数据存储方面,分布式文件系统需要具备高可靠性和高可用性...

    布式系统期末大作业:模拟一个简单的分布式文件系统.zip

    让我们深入探讨一下分布式文件系统的关键概念、设计原则以及可能涉及的技术。 分布式文件系统的核心目标是提供高可用性、可扩展性和性能优化。在这个模拟系统中,学生可能需要实现以下关键组件: 1. **元数据管理*...

    分布式文件系统研究_分布式_分布式文件系统_

    在分布式文件系统的研究中,我们还会探讨如何进行数据一致性保证、故障恢复策略、性能优化方法,以及如何根据业务需求选择合适的分布式文件系统等话题。例如,CAP理论(Consistency、Availability、Partition ...

    一个java实现的分布式文件存储系统,可以实现文件分布存储在不同的服务器中,进行上传、下载、删除

    分布式文件存储系统是一种高效、可扩展的解决方案,用于处理大量数据。Java实现的分布式文件存储系统,如"ctjdfs",提供了一种在多台服务器之间分散存储、管理和访问文件的方法,从而解决了单点存储的性能瓶颈和容错...

    基于Android平台的分布式文件系统协议研究.pdf

    在探讨基于Android平台的分布式文件系统协议时,我们首先需要了解分布式系统的基础知识。分布式系统是一种建立在网络之上的软件系统,其核心特征包括高度的内聚性和透明性。内聚性表现在每一个数据源分布节点具备...

    面向搜索引擎的分布式文件系统性能分析.pdf

    因此,未来的研究可以进一步深入探讨不同分布式文件系统在特定应用场景下的性能差异,并在此基础上提出更针对性的优化方案。 综上所述,本文档提供的内容涉及了分布式文件系统的基本概念、特性、结构分类,以及其在...

    分布式文件系统的写性能优化.pdf

    《分布式文件系统的写性能优化》这篇文章主要探讨了如何提升分布式文件系统的写性能,针对BlueOcean这一基于对象存储技术的大规模分布式存储系统,提出了三个关键的优化策略。 首先,文章提到增大FUSE(File System...

    基于Hadoop分布式文件系统快照技术的研究与改进.pdf

    Hadoop分布式文件系统(HDFS)作为支持大型分布式数据密集型应用的关键技术,其稳定性和数据备份能力受到广泛关注。本文探讨了HDFS的快照技术,并提出了一种低开销的改进方案。 首先,文件系统的快照功能是其核心...

    分布式文件系统在G/S模式中的应用研究

    ### 分布式文件系统在G/S模式中的应用研究 #### 关键知识点解析: **1. G/S模式(Geo-Information Browser/Distributed Spatial Data Servers)** G/S模式是一种结合了B/S(Browser/Server,浏览器/服务器)和C/S...

    分布式文件系统的教程

    本文将深入探讨分布式文件系统的核心概念、关键技术以及其实现过程。 #### 核心概念解析 1. **数据冗余与容错**:分布式文件系统通过数据复制和分布式存储技术,确保即使部分节点发生故障,系统仍能提供稳定的服务...

    分布式应用系统更新及实现方式.pdf

    为了解决上述问题,本文提出了一种基于HDFS(Hadoop分布式文件系统)的版本更新方案。HDFS是分布式计算领域中常用的一种存储解决方案,它以高度的容错性、大数据存储能力以及低成本等特点著称。利用HDFS进行版本更新...

Global site tag (gtag.js) - Google Analytics