Tachyon是一个高容错的分布式文件系统,允许文件以内存的速度在集群框架中进行可靠的共享,就像Spark和 MapReduce那样。通过利用信息继承,内存侵入,Tachyon获得了高性能。Tachyon工作集文件缓存在内存中,并且让不同的 Jobs/Queries以及框架都能内存的速度来访问缓存文件。因此,Tachyon可以减少那些需要经常使用的数据集通过访问磁盘来获得的次数。
源码下载
源码地址:https://github.com/amplab/tachyon
git clone https://github.com/amplab/tachyon.git
编译
进入 TACHYON_HOME
git tag
v0.1.0
v0.2.0
v0.2.1
v0.3.0
v0.4.0
v0.4.1
v0.4.1-thrift
v0.5.0
v0.6.0
v0.6.1
v0.6.2
v0.6.3
v0.6.4
v0.7.0
v0.7.0-rc1
v0.7.1
切换到v0.7.1版本
git checkout v0.7.1
Note: checking out 'v0.7.1'.
You are in 'detached HEAD' state. You can look around, make experimental
changes and commit them, and you can discard any commits you make in this
state without impacting any branches by performing another checkout.
If you want to create a new branch to retain commits you create, you may
do so (now or later) by using -b with the checkout command again. Example:
git checkout -b new_branch_name
HEAD 目前位于 a2b69c9... [maven-release-plugin] prepare release v0.7.1
执行如下命令:
export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"
mvn clean package -Dhadoop.version=2.3.0-cdh5.1.0 -Dspark.version=1.4.1 -DskipTests
配置
- 创建journal目录
mkdir -p /home/cluster/apps/tachyon/journal - 创建ramdisk
mkdir -p /home/cluster/apps/tachyon/ramdisk - 将tachyon_home/conf/tachyon-env.sh.template 修改为tachyon_home/conf/tachyon-env.sh
mv conf/tachyon-env.sh.template conf/tachyon-env.sh - 编辑tachyon_home/conf/tachyon-env.sh 增加如下内容
export JAVA_HOME=/home/cluster/share/java1.7
export HADOOP_HOME=/home/cluster/apps/hadoop
export TACHYON_HOME=/home/cluster/apps/tachyon
export TACHYON_RAM_FOLDER=$TACHYON_HOME/ramdisk
export TACHYON_MASTER_ADDRESS=master
- 修改tachyon日志存放路径:
tachyon_home/下创建logs目录
mkdir logs
vim conf/log4j.properties 增加如下内容:
tachyon.logs.dir=/home/cluster/apps/tachyon/logs - 将tachyon_home/conf/core-site.xml.template 修改为tachyon_home/conf/core-site.xml
mv conf/core-site.xml.template conf/core-site.xml
编辑 conf/core-site.xml,增加如下内容:
<configuration>
<property>
<name>fs.tachyon.impl</name>
<value>tachyon.hadoop.TFS</value>
</property>
</configuration> - 格式化Tachyon
bin/tachyon format
Connecting to localhost as wangyue...
Formatting Tachyon Worker @ wangyue-um
Connection to localhost closed.
Formatting Tachyon Master @ master
启动
bin/tachyon-start.sh local
Killed 0 processes on wangyue-um
Killed 0 processes on wangyue-um
Connecting to localhost as wangyue...
Killed 0 processes on wangyue-um
Connection to localhost closed.
[sudo] password for wangyue:
Formatting RamFS: /home/cluster/apps/tachyon/ramdisk (1gb)
Starting master @ master
Starting worker @ wangyue-um
jps下:
21025 ZeppelinServer
22214 Worker
21987 Master
21360 TachyonWorker
32212 RemoteInterpreterServer
23361 NameNode
29603 RemoteInterpreterServer
21324 TachyonMaster
23493 DataNode
21412 Jps
27005 RemoteInterpreterServer
已经启动TachyonMaster & TachyonWorker
tachyon-start.sh local命令将同时在本地启动Master和Worker进程。需要注意的是,运行tachyon-start.sh local命令一定要拥有切换root的密码,否者会无法启动。这是因为RamFS的格式化需要root权限。
测试
webui:http://master:19999
/home/cluster/apps/tachyon$ bin/tachyon runTest Basic CACHE_THROUGH
/default_tests_files/BasicFile_CACHE_THROUGH has been removed
2015-09-09 20:00:17,911 INFO (MasterClient.java:connect) - Tachyon client (version 0.7.1) is trying to connect with master @ master/127.0.0.1:19998
2015-09-09 20:00:17,938 INFO (MasterClient.java:connect) - User registered with the master @ master/127.0.0.1:19998; got UserId 5
2015-09-09 20:00:17,964 INFO (CommonUtils.java:printTimeTakenMs) - createFile with fileId 3 took 57 ms.
2015-09-09 20:00:17,999 INFO (WorkerClient.java:connect) - Trying to get local worker host : wangyue-um.local
2015-09-09 20:00:18,013 INFO (WorkerClient.java:connect) - Connecting local worker @ wangyue-um.local/10.32.24.78:29998
2015-09-09 20:00:18,098 INFO (BlockOutStream.java:get) - Writing with local stream. tachyonFile: /default_tests_files/BasicFile_CACHE_THROUGH, blockIndex: 0, opType: CACHE_THROUGH
2015-09-09 20:00:18,136 INFO (CommonUtils.java:createBlockPath) - Folder /home/cluster/apps/tachyon/ramdisk/tachyonworker/5 was created!
2015-09-09 20:00:18,140 INFO (LocalBlockOutStream.java:<init>) - /home/cluster/apps/tachyon/ramdisk/tachyonworker/5/3221225472 was created! tachyonFile: /default_tests_files/BasicFile_CACHE_THROUGH, blockIndex: 0, blockId: 3221225472, blockCapacityByte: 536870912
2015-09-09 20:00:18,203 INFO (CommonUtils.java:printTimeTakenMs) - writeFile to file /default_tests_files/BasicFile_CACHE_THROUGH took 238 ms.
2015-09-09 20:00:18,246 INFO (CommonUtils.java:printTimeTakenMs) - readFile file /default_tests_files/BasicFile_CACHE_THROUGH took 43 ms.
Passed the test!
执行 bin/tachyon runTests 循环测试
停止
wangyue@wangyue-um:/home/cluster/apps/tachyon$ bin/tachyon-stop.sh
Killed 1 processes on wangyue-um
Killed 1 processes on wangyue-um
Connecting to localhost as wangyue...
Killed 0 processes on wangyue-um
Connection to localhost closed.
执行jps:
21025 ZeppelinServer
22214 Worker
21987 Master
32212 RemoteInterpreterServer
23361 NameNode
29603 RemoteInterpreterServer
27469 Jps
23493 DataNode
27005 RemoteInterpreterServer
没有tachyon相关进程
尊重原创,拒绝转载,http://blog.csdn.net/stark_summer/article/details/48321605
相关推荐
标题《Adatao:基于Spark/Tachyon的分布式深度学习框架》和描述《有史以来首个可扩展的分布式深度学习架构,使用Spark & Tachyon》揭示了本文讨论的核心技术议题:Adatao公司开发的分布式深度学习框架以及它如何依托...
1.Spark及其生态圈简介.pdf 2.Spark编译与部署(上)--基础环境搭建.pdf 2.Spark编译与部署(下)--Spark编译安装.pdf 2.Spark编译与部署(中)--Hadoop编译安装.pdf...10.分布式内存文件系统Tachyon介绍及安装部署.pdf
Tachyon是Intel公司推出的一个基于内存的分布式存储系统,它诞生于对数据处理速度的不断追求之中,意图解决传统分布式存储系统在数据处理效率上的不足。传统的存储系统大多依赖于磁盘,而磁盘的读写速度相较于内存来...
Tachyon集群配置编译安装使用教程,hadoop版本对应,maven安装
Tachyon是一个分布式内存文件系统,可以在集群里以访问内存的速度来访问存在tachyon里的文件。把Tachyon是架构在最底层的分布式文件存储和上层的各种计算框架之间的一种中间件。主要职责是将那些不需要落地到DFS里的...
一、Alluxio是什么?...而如果我们将其架构与底层分布式文件系统与上层分布式计算框架之间,以文件的形式在内存中对外提供读写访问服务的话,那么Alluxio可以为那些大数据应用提供一个数量级的加速,
本质上,Tachyon是个分布式的内存文件系统,它在减轻Spark内存压力的同时,也赋予了Spark内存快速大量数据读写的能力。Tachyon把内存存储的功能从Spark中分离出来,使Spark可以更专注计算的本身,以求通过更细的分工...
Tachyon是一个以内存为核心的开源分布式存储系统,也是目前发展最迅速的开源大数据项目之一。Tachyon为不同的大数据计算框架(如ApacheSpark,HadoopMapReduce,ApacheFlink等)提供可靠的内存级的数据共享服务。此外...
Tachyon是一种内存为中心的分布式文件系统,专门设计用于集群计算框架(例如Spark和MapReduce)来提供内存级别的跨集群文件共享服务。这种设计极大地提升了数据的存取速度,能够加快处理大数据时的数据读写效率。 ...
《Tachyon:分布式内存文件系统详解》 Tachyon,这个名字源于科幻作品中的超光速粒子,寓意其数据访问速度之快。在大数据处理领域,Tachyon作为一个开源的内存级分布式文件系统,旨在提供高吞吐量的数据访问,以...
分布式计算系统是一种高级的计算机架构,它通过网络连接多台计算机,协同完成大规模的计算任务。这个"分布式计算系统(中文)ppt"包含了12个章节,全面地讲解了分布式计算系统的各个方面,对于理解并掌握这种技术至关...
作为分布式内存文件系统,Tachyon能够提供高速的数据访问能力,这使得它成为连接计算框架(如Spark、MapReduce等)与底层存储系统的关键桥梁。 ### Tachyon的发展历程 Tachyon最初由加州大学伯克利分校的AMPLab...
### Alluxio 分布式安装知识点 #### 一、Alluxio简介 Alluxio(原名Tachyon)是一个开源的内存数据管理平台,它提供了对大规模数据集的高效支持,尤其适用于需要快速访问大量数据的应用场景。通过将数据缓存在内存...
这意味着tachyon3可能设计用于处理分布式环境中的任务,如数据一致性、服务发现或集群管理,通过与Zookeeper的集成,提供了一种更高效、可靠的解决方案。 “云原生”(Cloud Native)是近年来IT行业的热门概念,...
Tachyon部署通常与Hadoop YARN或Mesos集群结合,利用集群的空闲内存资源。配置包括设置内存大小、数据复制策略、心跳间隔等参数,以适应不同的应用场景。 4. **使用案例** - 在实时数据分析场景中,Tachyon可以...
第2章 构建Spark分布式集群 第3章 Spark开发环境及其测试 第4章 Spark RDD与编程API实战 第5章 Spark运行模式深入解析 第6章 Spark内核解析 第7章 GraphX大规模图计算与图挖掘实战 第8章 Spark SQL原理与实战 第9章 ...
源码简介与安装说明: Alluxio(以前称为Tachyon)是一个虚拟的分布式存储系统。它弥合了计算框架和存储系统之间的鸿沟,使计算应用程序可以通过公共接口连接到众多存储系统。Alluxio项目源自加州大学伯克利分校...
大数据存储系统Tachyon是基于内存的分布式存储系统,由UC Berkeley AMPLab的研究项目发展而来,与Apache Spark和Apache Mesos源自同一实验室。它于2012年夏天启动,并在2015年10月发布了使用Apache License 2.0的...
- 集成:将Tachyon3-3.0.0与你的Python项目集成,使用提供的客户端API进行数据读写操作。 - 调优:根据实际需求调整Tachyon的内存分配、网络设置等参数,以优化性能。 4. 注意事项: - 内存管理:由于Tachyon...