【Alluxio介绍】

gaojingsong

浏览: 1239074 次
性别:
来自: 深圳

最近访客更多访客>>

muyuanqiang7

ZZ_lll

boveysmith

zah5897

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

大数据--Alluxio

Alluxio介绍

1、Alluxio是什么？

Alluxio是一个基于内存的分布式文件系统，它是架构在底层分布式文件系统和上层分布式计算框架之间的一个中间件，主要职责是以文件形式在内存或其它存储设施中提供数据的存取服务。

Alluxio的前身为Tachyon。

2、Alluxio架构

在大数据领域，最底层的是分布式文件系统，如Amazon S3、Apache HDFS等，而较高层的应用则是一些分布式计算框架，如Spark、MapReduce、Hbase、Flink等，这些分布式框架，往往都是直接从分布式文件系统中读写数据，效率比较低，性能消耗比较大。而如果我们将其架构与底层分布式文件系统与上层分布式计算框架之间，以文件的形式在内存中对外提供读写访问服务的话，那么Alluxio可以为那些大数据应用提供一个数量级的加速，而且它只要提供通用的数据访问接口，就能很方便的切换底层分布式文件系统。

Alluxio支持多种不同底层(远程)存储系统，具体包括HDFS、Gluster、S3、OpenStack、GCS、NFS、OrangeFS、IBm Spectrum Scake、Ceph、Isilon等等。

Hadoop足够快吗？美国加州大学伯克利分校的AMPLab基于Hadoop的核心组件开发出一个更快的版本Alluxio。AMPLab从底层重建了Hadoop平台“没有最快，只有更快”。

AMPLab在大数据领域最知名的产品是Spark，它是一个内存中并行处理的框架，Spark的创造者声称：使用Shark运行并行处理Job速度要比MapReduce快100倍。又因为Spark是在内存运行，所以Shark可与Druid或者SAP's HANA系统一较高下。Spark也为ClearStory下一代分析和可视化服务提供处理引擎。如果你喜欢用Hive作为Hadoop的数据仓库，那么你一定会喜欢Shark，因为它代表了“Hive on Spark”。

AMPLab的最新目标就是Hadoop分布式文件系统（HDFS），不过HDFS在可用性和速度方面一直受人诟病，所以AMPLab创建了Alluxio（在High Scalability上非常夺目，引起了Derrick Harris的注意）。

当然，AMPLab并不是第一个对HDFS提出质疑的组织，同时也有很多商业版本可供选择，像Quantcast就自己开发了开源文件系统，声称其在运行大规模文件系统时速度更快、更高效。