05、Spark on Yarn

TaoistWar

浏览: 409947 次
性别:
来自: 北京

最近访客更多访客>>

呼呼很安静

bbwang8088

yungaoyue2005

zy_java

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

数据中台

Spark 0.6.0开始支持此功能

准备：

运行Spark-on-YARN需要Spark的二进制发布包。参考编译

配置：

环境变量：

SPARK_YARN_USER_ENV

用户可以在这个参数中设置Spark on YARN的环境变量，可以省略。

例如：SPARK_YARN_USER_ENV="JAVA_HOME=/jdk64,FOO=bar"。

// TODO 具体可配置项

SPARK_JAR

设置Spark jar在HDFS的位置。

例如：export SPARK_JAR=hdfs:///some/path.

在每台Hadoop NodeManager节点上设置变量

启动：

确保HADOOP_CONF_DIR或YARN_CONF_DIR所指向的目录包含Hadoop集群的配置文件。这些配置文件用来连接YARN的ResourceManager并写数据到DFS。

此为提交任务的Spark安装，为了使用spark-submit工具。因此，只在此机器上配置便可。

有两种模式：

yarn-cluster：Spark的driver运行YARN集群启动的一个application master进程中，client在初始化application后可以消失。生产环境

yarn-client：Spark的driver运行在client进程中，而application master只用来向YARN申请资源。测试使用？//TODO 做验证

不像Spark standalon和mesos模式，在那儿master地址使用指定的master参数；在YARN模式中，ResourceManager的地址从Hadoop配置文件中获取。因此，YARN模式中master参数简单的为“yarn-client”或“yarn-cluster”。

在yarn-cluster模式中启动一个application：

./bin/spark-submit --class path.to.your.Class --master yarn-cluster [options] <app jar> [app options]

例如：

SPARK_JAR=hdfs://hansight/libs/spark-assembly-1.0.2-hadoop2.4.0.2.1.4.0-632.jar \

./bin/spark-submit --class org.apache.spark.examples.SparkPI \
    --master yarn-cluster \

    --num-executors 3 \
    --driver-memory 4g \
    --executor-memory 2g \
    --executor-cores 1 \
    lib/spark-examples*.jar \
    10

注：上面启动一个YARN客户端，该客户端启动默认的Application Master。SparkPI将作为一个子线程运行在Application Master中。client将定期的读取Application Master获取状态更新并把更新显示在控制台中。一旦你的application运行完成client会结束。

在yarn-client模式中启动一个application：

./bin/spark-submit --master yarn-client [options] <app jar> [app options]

只是把--master的参数值改为yarn-client，其它都与yarn-cluster相同。

添加其它JAR依赖

在yarn-cluster模式中，driver与client运行在不同的机器上。因此，SparkContext.addJar方法不会像client在本地模式那样开箱即用。为了使SparkContext.addJar可用，需要在启动命令参数--jars后面添加这些jar。

例如：

$ ./bin/spark-submit --class my.main.Class \
 --master yarn-cluster \
 --jars my-other-jar.jar,my-other-other-jar.jar
 my-main-jar.jar
 app_arg1 app_arg2

参考：

http://blog.csdn.net/book_mmicky/article/details/25714287

http://spark.apache.org/docs/latest/running-on-yarn.html

分享到：

TexLive安装 | 04、Spark Standalone运行

2014-09-12 10:08
浏览 524
评论(0)
分类:企业架构
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

05、Spark on Yarn

准备：

配置：

环境变量：

SPARK_YARN_USER_ENV

SPARK_JAR

启动：

有两种模式：

在yarn-cluster模式中启动一个application：

在yarn-client模式中启动一个application：

添加其它JAR依赖

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

05、Spark on Yarn

准备：

配置：

环境变量：

SPARK_YARN_USER_ENV

SPARK_JAR

启动：

有两种模式：

在yarn-cluster模式中启动一个application：

在yarn-client模式中启动一个application：

添加其它JAR依赖

评论

发表评论

相关推荐

ElasticSearch源码分析——入口类Elasticsearch

ElasticSearch Alert 配置邮件服务器

Kibana 7中使用Watcher产生告警，并发送到钉钉

04、Spark Standalone运行

03、Spark 单机版

02、Spark的部署方式

01、Spark编译与打包

Spark1.x 生态圈一览

Logstash + kibana + ElasticSearch

Ambari中开启Hadoop HA，其中一个NN硬件损坏，恢复方法

ZooKeeper安装配置

Hadoop2.x安装 HA（Quorum Journal Manager）

Hadoop 1.x安装配置

Hadoop 2.x 安装配置（无HA用于开发测试）

最近访客更多访客>>