`

spark tachyon 搭建 配置

阅读更多

spark1.5.1 支持 tachyon0.7.1

 

jdk需要1.7

 

1.spark

下载spark source

http://spark.apache.org/downloads.html

 

编译spark

 

 

export MAVEN_OPTS="-Xmx1024m -XX:MaxPermSize=256m"

mvn -Dhadoop.version=2.3.0 -DskipTests clean package

 

spark-env.sh

因为需要访问hdfs,hive,所以需要压缩lzo,和mysql

export SPARK_CLASSPATH=$SPARK_CLASSPATH:/data/hadoop/hadoop-2.3.0-cdh5.1.0/share/hadoop/common/hadoop-lzo-0.4.20-SNAPSHOT.jar
export SPARK_LIBRARY_PATH=$SPARK_LIBRARY_PATH:/data/hadoop/hadoop-2.3.0-cdh5.1.0/share/hadoop/common/hadoop-lzo-0.4.20-SNAPSHOT.jar
export SPARK_CLASSPATH=$SPARK_CLASSPATH:/data/hadoop/spark/spark-1.5.1-bin-hadoop2.3/lib/mysql-connector-java-5.1.20-bin.jar

export SPARK_PID_DIR=/data/hadoop/spark/spark-1.5.1-bin-hadoop2.3

 

写slave文件

host136
host137
host138

 

添加配置文件到conf里:

core-site.xml

hdfs-site.xml

hive-site.xml

 

修改hive-site.xml

<property>
  <name>hive.metastore.warehouse.dir</name>
  <value>tachyon://host136:19998/warehouse</value>
</property>

 

2.tachyon

下载tachyon,http://www.tachyon-project.org/

 

编译tachyon

mvn clean package -Djava.version=1.7 -Dhadoop.version=2.3.0 -DskipTests

 

修改配置:tachyon-env.sh

  export TACHYON_RAM_FOLDER=/data/hadoop/spark/tachyon-0.7.1-2.3/data
//内存数据mount目录
fi

if [ -z "$JAVA_HOME" ]; then
  export JAVA_HOME="$(dirname $(which java))/.."
fi

export JAVA="${JAVA_HOME}/bin/java"
export TACHYON_MASTER_ADDRESS=host136

#hdfs
export TACHYON_UNDERFS_ADDRESS=hdfs://mycluster
#-Dtachyon.master.journal.folder=hdfs://mycluster/tachyon/journal/
#export TACHYON_UNDERFS_ADDRESS=${TACHYON_UNDERFS_ADDRESS:-hdfs://localhost:9000}
#使用内存大小
export TACHYON_WORKER_MEMORY_SIZE=20GB
export TACHYON_UNDERFS_HDFS_IMPL=org.apache.hadoop.hdfs.DistributedFileSystem
export TACHYON_WORKER_MAX_WORKER_THREADS=2048
export TACHYON_MASTER_MAX_WORKER_THREADS=2048

export TACHYON_SSH_FOREGROUND="yes"
export TACHYON_WORKER_SLEEP="0.02"

 可以配置多level数据

export TACHYON_JAVA_OPTS+="
  -Dlog4j.configuration=file:$CONF_DIR/log4j.properties
  -Dtachyon.debug=false
  -Dtachyon.worker.tieredstore.level.max=1
  -Dtachyon.worker.tieredstore.level0.alias=MEM
  -Dtachyon.worker.tieredstore.level0.dirs.path=$TACHYON_RAM_FOLDER
  -Dtachyon.worker.tieredstore.level0.dirs.quota=$TACHYON_WORKER_MEMORY_SIZE
  -Dtachyon.underfs.address=$TACHYON_UNDERFS_ADDRESS
  -Dtachyon.underfs.hdfs.impl=$TACHYON_UNDERFS_HDFS_IMPL
  -Dtachyon.data.folder=$TACHYON_UNDERFS_ADDRESS/tmp/tachyon/data
  -Dtachyon.worker.max.worker.threads=$TACHYON_WORKER_MAX_WORKER_THREADS
  -Dtachyon.workers.folder=$TACHYON_UNDERFS_ADDRESS/tmp/tachyon/workers
  -Dtachyon.worker.memory.size=$TACHYON_WORKER_MEMORY_SIZE
  -Dtachyon.worker.data.folder=/tachyonworker/
  -Dtachyon.master.max.worker.threads=$TACHYON_MASTER_MAX_WORKER_THREADS
  -Dtachyon.master.worker.timeout.ms=60000
  -Dtachyon.master.hostname=$TACHYON_MASTER_ADDRESS
  -Dtachyon.master.journal.folder=$TACHYON_HOME/journal/
  -Dorg.apache.jasper.compiler.disablejsr199=true
  -Djava.net.preferIPv4Stack=true
"

 

写slaves,workers

host136
host137
host138

 

添加配置文件到conf:

hdfs-site.xml

core-site.xml

 

在core-site.xml中添加

<property>
  <name>fs.tachyon.impl</name>
    <value>tachyon.hadoop.TFS</value>
    </property>
    <property>
      <name>fs.tachyon-ft.impl</name>
        <value>tachyon.hadoop.TFSFT</value>
     </property>

 

 

3启动服务:

tachyon:

需要用户有sudo权限,或是用root执行tachyon的mount操作

		如果不想每次启动Tachyon都挂载一次RamFS,可以先使用命令 bin/tachyon-mount.sh Mount workers 或 bin/tachyon-mount.sh SudoMount workers 挂载好所有RamFS,然后使用 bin/tachyon-start.sh all NoMount 命令启动Tachyon。
		
		bin/tachyon format
		bin/tachyon-mount.sh SudoMount workers
		bin/tachyon-start.sh all NoMount
		bin/tachyon-stop.sh

当添加一个tachyon节点

bin/tachyon formatWorker
bin/tachyon-mount.sh  SudoMount local
bin/tachyon-start.sh  worker NoMount

 

 spark:

bin/spark-sql --master spark://host136:7077
bin/spark-shell --master spark://host136:7077

 

 4.spark操作tachyon

用spark直接通过tachyon读取hdfs数据:

var textFile = sc.textFile("tachyon://host136:19998/hdfspath");

用spark在tachyon上建hive表:

CREATE EXTERNAL TABLE `test4`(
  `aaa` string,
  `ccc` string,
  `bbb` string)
PARTITIONED BY (
  `day_id` string,
  `hour_id` string)
ROW FORMAT SERDE
  'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
STORED AS INPUTFORMAT
  'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
  'tachyon://host136:19998/tmp/storm2'

 

 页面:

http://tachyonmasterIP:19999/home

http://sparkIP:8099/

 

 

 

 

 

分享到:
评论
2 楼 blackproof 2016-01-22  
改写他的shell,我也遇到了

DLFSEEIT 写道
为什么我这边使用bin/tachyon-mount.sh Mount workers 报错
说找不到文件:
/tachyon-workers.sh: No such file or directory

1 楼 DLFSEEIT 2016-01-12  
为什么我这边使用bin/tachyon-mount.sh Mount workers 报错
说找不到文件:
/tachyon-workers.sh: No such file or directory

相关推荐

    Spark开发指南

    Spark生态系统是围绕Spark构建的,涵盖了数据存储、处理以及机器学习等多个组件,使用了HDFS、S3或Tachyon等存储技术,并且支持以Mesos、YARN或自身携带的Standalone模式进行资源管理。在Spark生态圈中,Spark应用...

    大数据Spark企业级实战书籍推荐.docx

    书中详细解析了 Spark 的架构设计,包括 Spark 集群的搭建过程,以及 Spark 内核的工作原理。读者将学习如何构建 Spark 集群,包括单机模式、伪分布式和分布式集群的配置。同时,还会深入理解 Spark SQL 的交互式...

    高并发架构一些技术套路杂谈

    1. **LVS负载均衡搭建**:LVS是一个非常成熟且强大的负载均衡工具,在实际部署中需要考虑的因素包括IP配置、虚拟IP设置等。例如,可以使用Keepalived来监控LVS的状态,并在出现问题时自动切换到备用节点,以保证系统...

    信通商务网2025修正版

    中国电子商务平台,打造中国最具影响力的企业电子商务平台,商机信息,产品资料,企业名录,行业展览会,商务新闻。

    经典文学作品阅读体验.doc

    经典文学作品阅读体验

    python-30.判断 2 的幂-反正你没它快.py

    python-30.判断 2 的幂——反正你没它快.py

    基于随机森林实现特征选择降维及回归预测 附Matlab代码.rar

    1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

    元胞自动机模拟病毒传染(SEIR模型) 附Python代码.rar

    1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

    2004-2020年各省货运量数据

    2004-2020年各省货运量数据 1、时间:2004-2020年 2、来源:国家统计j、统计nj 3、指标:行政区划代码、地区、年份、货运量(万吨) 4、范围:31省

    ADC推理软件AI程序

    ADC推理软件AI程序

    【轴承故障检测】滚动轴承中进行基于振动的故障诊断研究 附Matlab代码.rar

    1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

    java-springboot+vue景区民宿预约系统实现源码(完整前后端+mysql+说明文档+LunW+PPT).zip

    java-springboot+vue景区民宿预约系统实现源码(完整前后端+mysql+说明文档+LunW+PPT).zip

    漫画作品与增强现实体验.doc

    漫画作品与增强现实体验

    漫画作品改编舞台剧经验.doc

    漫画作品改编舞台剧经验

    ,,ABC-DQ:基于MATLAB Simulink的三相静止坐标系到两相静止坐标系(Clark变)到两相旋转坐标系变(Park变)的仿真模型 仿真条件:MATLAB Simulink R2015b

    ,,ABC_DQ:基于MATLAB Simulink的三相静止坐标系到两相静止坐标系(Clark变)到两相旋转坐标系变(Park变)的仿真模型。 仿真条件:MATLAB Simulink R2015b ,MATLAB Simulink;三相静止坐标系;两相静止坐标系;Clark变换;Park变换;仿真模型;R2015b,MATLAB Simulink中的Clark-Park变换仿真模型研究

    武汉东湖高新集团智慧园区 22页PPT(21页).pptx

    在智慧城市建设的大潮中,智慧园区作为其中的璀璨明珠,正以其独特的魅力引领着产业园区的新一轮变革。想象一下,一个集绿色、高端、智能、创新于一体的未来园区,它不仅融合了科技研发、商业居住、办公文创等多种功能,更通过深度应用信息技术,实现了从传统到智慧的华丽转身。 智慧园区通过“四化”建设——即园区运营精细化、园区体验智能化、园区服务专业化和园区设施信息化,彻底颠覆了传统园区的管理模式。在这里,基础设施的数据收集与分析让管理变得更加主动和高效,从温湿度监控到烟雾报警,从消防水箱液位监测到消防栓防盗水装置,每一处细节都彰显着智能的力量。而远程抄表、空调和变配电的智能化管控,更是在节能降耗的同时,极大地提升了园区的运维效率。更令人兴奋的是,通过智慧监控、人流统计和自动访客系统等高科技手段,园区的安全防范能力得到了质的飞跃,让每一位入驻企业和个人都能享受到“拎包入住”般的便捷与安心。 更令人瞩目的是,智慧园区还构建了集信息服务、企业服务、物业服务于一体的综合服务体系。无论是通过园区门户进行信息查询、投诉反馈,还是享受便捷的电商服务、法律咨询和融资支持,亦或是利用云ERP和云OA系统提升企业的管理水平和运营效率,智慧园区都以其全面、专业、高效的服务,为企业的发展插上了腾飞的翅膀。而这一切的背后,是大数据、云计算、人工智能等前沿技术的深度融合与应用,它们如同智慧的大脑,让园区的管理和服务变得更加聪明、更加贴心。走进智慧园区,就像踏入了一个充满无限可能的未来世界,这里不仅有科技的魅力,更有生活的温度,让人不禁对未来充满了无限的憧憬与期待。

    自驾游中行程时间灵活调整.doc

    自驾游中行程时间灵活调整

    ,,基于蒙特卡洛法的概率潮流 以IEEE33节点的电网为研究对象 建立了光伏和风电的概率出力模型 采用蒙特卡洛法进行随机抽样 之后基于抽样序列进行概率潮流计算 最后得到电网的电压概率出力曲线 程序

    ,,基于蒙特卡洛法的概率潮流 以IEEE33节点的电网为研究对象 建立了光伏和风电的概率出力模型 采用蒙特卡洛法进行随机抽样 之后基于抽样序列进行概率潮流计算 最后得到电网的电压概率出力曲线 程序有基于matpower和非matpower(效果好一点) ,核心关键词:蒙特卡洛法; 概率潮流; IEEE33节点电网; 光伏风电概率出力模型; 随机抽样; 电压概率出力曲线; matpower; 非matpower方法。,基于蒙特卡洛法的电网概率潮流分析:IEEE33节点光伏风电模型构建与验证

    基于视觉检测的机械臂药品自动分类与搬运仿真系统实现与优化(含详细可运行代码及解释)

    内容概要:本文详细介绍了基于视觉检测的机械臂药品自动分类与搬运仿真的实现方法。首先通过搭建环境和加载相关模型,接着利用 OpenCV 对摄像头捕获的画面进行药瓶识别,再通过 PyBullet 实现机械臂路径规划及其动作控制,最后通过主循环不断地完成对药物的分类抓取操作。为增强系统性能和稳定性进行了多项改进:采用先进的YOLOv8模型实现更精准的物体检测、增加更细致的夹爪开合逻辑提高物品抓取的成功率,同时加入碰撞检测机制保障运动过程的安全性。该仿真是用Python编程语言开发,并涉及多领域的技术集成。 适用人群:适用于自动化设备研究开发的技术专家或从事机器人相关专业学习的研究人员。 使用场景及目标:可用于研究自动化药房、医院仓库管理等医疗物资自动处理流程的设计;帮助理解并实践如何构建一个完整的机器人视觉引导下的机械手作业体系,以及针对具体应用场景提出有效的改进建议和技术路线图。 其他说明:为了使系统更接近真实环境,开发者还可以继续探索更多先进的机器视觉算法,并深入探讨机械臂硬件层面的选择,以期打造出更加智能化的产品应用于各行各业。

Global site tag (gtag.js) - Google Analytics