Tachyon是一个分布式内存文件系统,可以在集群里以访问内存的速度来访问存储在Tachyon里的文件。Tachyon是架构在最底层的分布式文件系统和上层的各种计算框架之间的一种中间件,其主要职责是将那些不需要落地到DFS里的文件,落地到分布式内存文件系统中,来达到共享内存,从而提高效率,减少内存冗余,减少GC时间等。
Tachyon架构
Tachyon的架构是传统的Master—Slave架构,这里和Hadoop类似,TachyonMaster里WorkflowManager是 Master进程,因为是为了防止单点问题,所以通过Zookeeper做了HA,可以部署多台Standby Master。Slave是由Worker Daemon和Ramdisk构成。Ramdisk使用off heap memory。Master和Worker直接的通讯协议是Thrift。
下图是Tachyon的架构:
Fault Tolerant
Tachyon的容错机制是怎么样的呢?
Tachyon使用lineage这个我们在Spark的RDD里已经很熟悉的概念,通过异步的向Tachyon的底层文件系统做Checkpoint。
当我们向Tachyon里面写入文件的时候,Tachyon会在后台异步的把这个文件给checkpoint到它的底层存储,比如HDFS,S3.. etc...
这里用到了一个Edge的算法,来决定checkpoint的顺序。
比较好的策略是每次当前一个checkpoint完成之后,就会checkpoint一个最新生成的文件。当然像Hadoop,Hive这样的中间文件,需要删除的,是不需要checkpoint的。
如下图所示:
关于重新计算时,资源的分配策略:
目前Tachyon支持2种资源分配策略:
1、优先级的资源分配策略
2、公平调度的分配策略
总结
Tachyon是一个基于内存的分布式文件系统,通常位于分布式存储系统和计算框架之间,可以在不同框架之间共享内存,同时可以减少内存冗余和基于JVM内存计算框架的GC时间。
Tachyon也有类似RDD的lineage概念,input文件和output文件都是会有lineage信息,这样来达到容错。并且Tachyon也利用lineage信息,异步的做checkpoint,文件丢失情况下,也能利用两种资源分配策略来优先计算丢失掉的资源。
项目地址:http://tachyon-project.org/index.html
相关推荐
Tachyon是一个分布式内存文件系统,可以在集群里以访问内存的速度来访问存在tachyon里的文件。把Tachyon是架构在最底层的分布式文件存储和上层的各种计算框架之间的一种中间件。主要职责是将那些不需要落地到DFS里的...
1.Spark及其生态圈简介.pdf 2.Spark编译与部署(上)--基础环境搭建.pdf 2.Spark编译与部署(下)--Spark编译安装.pdf 2.Spark编译与部署(中)--Hadoop编译安装.pdf...10.分布式内存文件系统Tachyon介绍及安装部署.pdf
本质上,Tachyon是个分布式的内存文件系统,它在减轻Spark内存压力的同时,也赋予了Spark内存快速大量数据读写的能力。Tachyon把内存存储的功能从Spark中分离出来,使Spark可以更专注计算的本身,以求通过更细的分工...
《Tachyon:分布式内存文件系统详解》 Tachyon,这个名字源于科幻作品中的超光速粒子,寓意其数据访问速度之快。在大数据处理领域,Tachyon作为一个开源的内存级分布式文件系统,旨在提供高吞吐量的数据访问,以...
7. **分布式文件系统**: - HDFS的架构和工作原理:Block、NameNode、DataNode等角色。 - GFS(Google File System)和Tachyon的特性。 8. **分布式协调服务**: - ZooKeeper:提供命名服务、配置管理、集群同步...
《Tachyon:分布式内存文件系统详解》 Tachyon,又名Ratis或TachyonFS,是一款开源的分布式内存文件系统,旨在提供高速、可靠的数据访问。它作为一个内存中的中间层,使得数据能够在Hadoop、Spark等计算框架之间...
Alluxio是一个基于内存的分布式文件系统,它是架构在底层分布式文件系统和上层分布式计算框架之间的一个中间件,主要职责是以文件形式在内存或其它存储设施中提供数据的存取服务。 Alluxio的前身为Tachyon。 ...
- **Alluxio**(前身为Tachyon):作为内存级的分布式文件系统,加速跨集群的数据访问。 - **FUSE(Filesystem in Userspace)**:允许在用户空间实现文件系统,简化分布式文件系统的开发。 此外,文档可能会讨论...
这种设计充分利用了Tachyon的能力,将文件系统用作分布式内存,提供了比传统存储更快的数据读写速度。 最后,架构选项部分提到了Spark和Tachyon的架构选择,暗示了在不同的应用场景和需求下,如何选择合适的技术...
作为分布式内存文件系统,Tachyon能够提供高速的数据访问能力,这使得它成为连接计算框架(如Spark、MapReduce等)与底层存储系统的关键桥梁。 ### Tachyon的发展历程 Tachyon最初由加州大学伯克利分校的AMPLab...
Tachyon3-3.0.0的核心在于提供了一个高效的内存级文件系统,它旨在加速大数据分析和处理过程中的数据访问速度。这个名字“Tachyon”源自物理学中的超光速粒子,象征着该库的快速数据传输能力。通过将数据存储在内存...
Alluxio(以前称为Tachyon)是一个虚拟的分布式存储系统。它弥合了计算框架和存储系统之间的鸿沟,使计算应用程序可以通过公共接口连接到众多存储系统。Alluxio项目源自加州大学伯克利分校AMPLab的一个名为Tachyon的...
Alluxio(以前称为Tachyon)是一个虚拟的分布式存储系统。它弥合了计算框架和存储系统之间的鸿沟,使计算应用程序可以通过公共接口连接到众多存储系统。Alluxio项目源自加州大学伯克利分校AMPLab的一个名为Tachyon的...
总结来说,Tachyon作为一种新型的内存文件系统,不仅显著改善了集群计算框架的读写速度,还通过其独特的容错机制和架构设计,为大数据处理提供了更加稳定和高效的数据共享服务。通过将数据缓存在内存中,它极大地...
11. **分布式计算和存储**:Hadoop、Spark、ElasticSearch等技术用于大数据处理和分析,Tachyon则是内存级文件系统,加速数据访问。 12. **分布式爬虫**和**分布式存储**:Nutch用于网络爬虫,FastDFS和HDFS提供...
Tachyon是一个内存文件系统,它能够实现在集群框架中的工作节点间以内存速度进行可靠的文件共享。Tachyon项目由Haoyuan Li, Ali Ghodsi, Matei Zaharia, Scott Shenker和Ion Stoica等人在加州大学伯克利分校的AMP...
- YARN(资源管理引擎)、Mesos(分布式资源调度引擎)、Tachyon(分布式内存文件系统)等。 这些组件共同构成Hadoop的生态系统,各自负责不同的功能,使得Hadoop能够处理各种大数据场景。 3. 产品选型基本原则:...
Tachyon存储系统是一个内存为中心的分布式文件系统,它由阿帕奇软件基金会(Apache Software Foundation)旗下的项目组Amplab开发,并以高性能和容错能力为特色,为如Spark、MapReduce这样的集群计算框架提供可靠且...