`

spark on yarn 安装笔记,私货总结!浅显易懂!

 
阅读更多

http://blog.csdn.net/jiushuai/article/details/26693569

 

 

spark on yarn 安装笔记,私货总结!浅显易懂!

分类: hadoop 1487人阅读 评论(0) 收藏 举报
 
 
scala和spark的包都在官网找就可以了!
spark 有几种形式,standalon形式就是spark单独集群,这个会起一个进程,提供spark 的job的进度查看,而spark on yarn 不需要启动这个进程了。yarn的resourcemanage的控制台就做了spark的那个控制台的工作。。总的来说spark on yarn 的安装还是特别简单的!
 
java高级交流群:37341439  ,如果文章有看不懂的地方可以加群啊~我会随时回复的!!欢迎学习spark和hadoop和storm和hbase的同志进群分享学习心得啊!咱们群不是培训机构,纯粹个人学习分享,互相学习,互相提高!
 
1:需要在各个机器安装scala ,安装taz包
2:需要编译spark
记得编译的用户要安装scala 并且设置SCALA_HOME变量
如果报protobuf错误,可能是因为protobuf和pom.xml的版本不一致,可以修改pom.xml里面的protobuf版本号
<protobuf.version>2.5.0</protobuf.version>
 
用maven编译:编译命令如下:
export MAVEN_OPTS=“-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m”
mvn -Dyarn.version=2.2.0 -Dhadoop.version=2.2.0  -Pnew-yarn -DskipTests package
 
3:编译完成后要将编译后的内核打成jar包,命令如下:
SPARK_HADOOP_VERSION=2.2.0 SPARK_YARN=true ./sbt/sbt assembly
 
打包完成后会在以下目录下生成一些jar包
assembly/target/scala-2.10/*.jar
examples/target/scala-2.10/*.jar
其中:assembly/target/scala-2.10/spark-assembly-0.9.1-hadoop2.2.0.jar 是内核jar。spark 的job运行需要依赖的jar包
examples/target/scala-2.10/spark-examples-assembly-0.9.1.jar 是官方的hello word程序。
 
4:运行hello world
需要在提交用户添加如下环境变量:
 
export JAVA_HOME=/usr/java/jdk1.7.0_45
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export HADOOP_INSTALL=/opt/hadoop
export HADOOP_HOME=$HADOOP_INSTALL
export PATH=$PATH:$HADOOP_INSTALL/bin
export PATH=$PATH:$HADOOP_INSTALL/sbin
export HADOOP_MAPRED_HOME=$HADOOP_INSTALL
export HADOOP_COMMON_HOME=$HADOOP_INSTALL
export HADOOP_HDFS_HOME=$HADOOP_INSTALL
export YARN_HOME=$HADOOP_INSTALL

export SCALA_HOME=/usr/local/scala
export PATH=$SCALA_HOME/bin:$PATH

export SPARK_HOME=/usr/local/spark
export SPARK_JAR=/usr/local/assembly/target/scala-2.10/spark-assembly-0.9.1-hadoop2.2.0.jar
export PATH=$SPARK_HOME/bin:$PATH
 
5:修改conf目录下的spark-env.sh,添加环境变量
export SPARK_HOME=/usr/local/spark
export SPARK_JAR=/usr/local/spark/assembly/target/scala-2.10/spark-assembly-0.9.1-hadoop2.2.0.jar
export PATH=$SPARK_HOME/bin:$PATH
 
 
提交job 的命令
./spark-class org.apache.spark.deploy.yarn.Client --jar /usr/local/spark/examples/target/scala-2.10/spark-examples-assembly-0.9.1.jar --class org.apache.spark.examples.JavaSparkPi --args yarn-standalone --num-workers 1 --master-memory 1G --worker-memory 1G --worker-cores 1
 
如果执行的时候报这个错误,是因为/usr/local/assembly/target/scala-2.10/ 目录有2个jar包。将spark-assembly_2.10-0.9.1-hadoop2.2.0.jar删除或者移动一下
Found multiple Spark assembly jars in /usr/local/spark/assembly/target/scala-2.10:
 
注意::
不需要在hadoop启停用户添加
spark 和scala环境变量哦~
分享到:
评论

相关推荐

    Spark实验:On Yarn模式安装部署(带答案)1

    总结来说,Spark on Yarn的安装部署涉及到多个环节,包括环境配置、资源管理器的设置、集群启动以及应用的提交和监控。每个步骤都需要仔细操作,以确保Spark能够有效地在Hadoop集群上运行。通过这个实验,不仅可以...

    Spark on Yarn模式部署.docx

    Spark on Yarn 模式部署是一种常见的 Spark 应用场景,本文将详细介绍 Spark on Yarn 模式部署的步骤和配置过程。 标题解释 Spark on Yarn 模式部署是指将 Spark 应用程序部署在 Yarn 集群上,使得 Spark 能够使用 ...

    【讲义-第10期Spark公益大讲堂】Spark on Yarn-.pdf

    **Spark on Yarn** 是指Apache Spark集群管理器与Apache Hadoop YARN资源管理器之间的集成模式。这种模式下,YARN作为资源调度器负责分配资源,而Spark则负责任务的具体执行。这种方式使得Spark能够更好地利用Hadoop...

    Sparkonyarn集群搭建详细过程.pdf

    _description_:本文详细介绍了 Spark on YARN 集群搭建的过程,包括配置主机 hosts 文件、免密码登录、安装 Java、安装 Scala 等步骤。 _tag_:互联网 cs 知识点1: Spark on YARN 集群搭建 Spark on YARN 集群...

    Spark on Yarn模式的电信大数据处理平台.pdf

    此时,Yarn(Yet Another Resource Negotiator)出现了,它是Hadoop 2.0中引入的新资源管理框架,进一步优化了资源管理和任务调度,而Spark on Yarn模式则充分利用了Yarn的资源调度能力和Spark内存计算的优势,显著...

    03_MapReduce 和Spark on YARN.docx

    在大数据处理领域,Hadoop MapReduce 和 Apache Spark 是两种重要的计算框架,它们都在YARN(Yet Another Resource Negotiator)上运行以实现资源管理和任务调度。本文将深入探讨这两个框架以及YARN的相关概念。 ...

    spark初始化源码阅读sparkonyarn的client和cluster区别

    Spark 初始化源码阅读 Spark on YARN 的 Client 和 Cluster 区别 Spark 是一个大数据处理的开源框架,它可以在多种集群管理器上运行,如 YARN、Mesos 和 Standalone。Spark on YARN 是 Spark 在 YARN 集群管理器上...

    Spark on Yarn集群搭建手册

    Spark on Yan集群搭建的详细过程,减少集群搭建的时间

    基于docker搭建spark on yarn及可视化桌面.doc

    基于docker搭建spark on yarn及可视化桌面.doc

    Spark&Yarn手动安装指南

    Spark&Yarn手动安装指南 Spark和Yarn是两种常用的大数据处理工具,Spark是一种基于内存的数据处理引擎,而Yarn是Hadoop的资源管理器。本指南将指导您如何手动安装Spark和Yarn,并将它们集成在一起构建一个大数据...

    Sparkonyarn集群搭建详细过程.docx

    Spark on YARN 集群搭建是一个复杂的过程,涉及到多台服务器的配置和软件的安装。以下是详细步骤和相关知识点: 1. **主机配置与网络通信** - `/etc/hosts` 文件配置至关重要,它用于解析主机名到IP地址的映射。...

    Spark on Yarn之Executor内存管理 - 简书1

    总结来说,Spark on YARN的Executor内存管理是一个复杂的过程,需要综合考虑Executor的内存需求、YARN的资源配置以及Spark自身的内存策略。正确配置和优化这些参数对于确保Spark应用的稳定运行至关重要。

    SPARK2_ON_YARN-2.4.0.cloudera2.jar

    SPARK2_ON_YARN-2.4.0 jar包下载

    基于SparkonYarn的淘宝数据挖掘平台

    基于SparkonYarn的淘宝数据挖掘平台

    基于Spark_on_Yarn的淘宝数据挖掘平台.pdf

    ### 基于Spark_on_Yarn的淘宝数据挖掘平台 #### 一、为什么选择Spark_on_Yarn 在大数据处理领域,随着数据量的急剧增长和技术的发展,传统的数据处理框架如Hadoop MapReduce面临着一系列挑战。淘宝作为中国最大的...

    java提交spark任务到yarn平台的配置讲解共9页.pdf.zip

    Java提交Spark任务到YARN平台是一项常见的大数据处理操作,它结合了Java的编程能力和Spark的高性能计算框架,以及Hadoop的资源管理系统YARN。在这个过程中,开发者需要理解多个关键概念和配置步骤,以便有效地调度和...

    spark yarn模式的搭建.docx

    搭建 Spark On Yarn 集群主要涉及三个组件的安装和配置:Zookeeper、Hadoop 和 Spark。下面将详细介绍这三个阶段的搭建过程。 一、Zookeeper 集群搭建 Zookeeper 是一个分布式的、开放源码的分布式应用程序协调服务...

    Spark源码系列(七)Sparkonyarn具体实现

    本来不打算写的了,但是真的是闲来无事,整天看美剧也没啥意思。这一章打算讲一下Spark onyarn的实现,1.0.0里面...在第一章《spark-submit提交作业过程》的时候,我们讲过Sparkonyarn的在cluster模式下它的main clas

    三种方式的spark on kubernetes对比

    三种方式的spark on kubernetes对比,第一种:spark原生支持Kubernetes资源调度;第二种:google集成的Kubernetes的spark插件sparkoperator;第三种:standalone方式运行spark集群

    spark-yarn_2.10-1.6.0-cdh5.7.3.jar

    Oozie Spark on YARN requirement failed 所需jar包:http://blog.csdn.net/fansy1990/article/details/53856608

Global site tag (gtag.js) - Google Analytics