1,要求你已经成功把Hadoop集群安装完毕,并经过测试,如果不知道如何编译安装Hadoop请参考散仙的这篇文章http://qindongliang.iteye.com/blog/2222145
2,安装Scala2.10.x版本,spark1.4.0最新版本的兼容2.10.x的scala,建议还是安装scala2.10.x的,虽然scala最新的版本是2.11.x了
安装方法:
(1) wget http://downloads.typesafe.com/scala/2.10.4/scala2.10.5.tgz_ga=1.83310549.215870088.1434449855
(2)tar -zxvf scala.xxx.tgz
(3)配置环境变量如下:
- export SCALA_HOME=/ROOT/server/scala-2.10.4
- export PATH=$PATH:$SCALA_HOME/bin
export SCALA_HOME=/ROOT/server/scala-2.10.4 export PATH=$PATH:$SCALA_HOME/bin
(4)测试scala
- [webmaster@any-hadoop-0 ~]$ scala -version
- Scala code runner version 2.10.4 -- Copyright 2002-2013, LAMP/EPFL
- [webmaster@any-hadoop-0 ~]$ scala
- Welcome to Scala version 2.10.4 (Java HotSpot(TM) 64-Bit Server VM, Java 1.7.0_79).
- Type in expressions to have them evaluated.
- Type :help for more information.
- scala> print("scala install success")
- scala install success
- scala>
[webmaster@any-hadoop-0 ~]$ scala -version Scala code runner version 2.10.4 -- Copyright 2002-2013, LAMP/EPFL [webmaster@any-hadoop-0 ~]$ scala Welcome to Scala version 2.10.4 (Java HotSpot(TM) 64-Bit Server VM, Java 1.7.0_79). Type in expressions to have them evaluated. Type :help for more information. scala> print("scala install success") scala install success scala>
3,安装spark
(1)wget 下载hadoop对应版本的二进制包,散仙这里是hadoop2.6.0
wget http://archive.apache.org/dist/spark/spark-1.4.0/spark-1.4.0-bin-hadoop2.6.tgz
(2)解压到某个目录下,并命名为spark,下载下来的包名有点繁琐
(3)配置Spark的环境变量:
- export SPARK_HOME=/ROOT/server/spark
- export PATH=$PATH:$SPARK_HOME/bin
export SPARK_HOME=/ROOT/server/spark export PATH=$PATH:$SPARK_HOME/bin
(4)进入spark/conf目录下,执行命令
- mv spark-env.sh..template spark-env.sh
- mv slaves.template slaves
mv spark-env.sh..template spark-env.sh mv slaves.template slaves
(5)配置spark-env.sh,使用vi spark-env.sh编译此文件,在文末添加如下几行:
- export SCALA_HOME=/ROOT/server/scala-2.10.4
- export JAVA_HOME=$JAVA_HOME
- export HADOOP_HOME=/ROOT/server/hadoop
- export HADOOP_CONF_DIR=/ROOT/server/hadoop/etc/hadoop
- export SPARK_MASTER_IP=master
- export SPARK_DRIVER_MEMORY=1G
export SCALA_HOME=/ROOT/server/scala-2.10.4 export JAVA_HOME=$JAVA_HOME export HADOOP_HOME=/ROOT/server/hadoop export HADOOP_CONF_DIR=/ROOT/server/hadoop/etc/hadoop export SPARK_MASTER_IP=master export SPARK_DRIVER_MEMORY=1G
(6)配置slaves
- master
- slave1
- slave2
master slave1 slave2
(7)执行scp命令,将环境变量,以及scala,spark的目录包,发送到各个节点上
(8)进入spark的根目录(因为hadoop的启动命令,跟这名字一样,所以,为避免冲突),执行sbin/start-all.sh启动spark集群;
(9)访问http://ip:8080查看spark的web界面
4,spark运行例子:
(1)本地模式运行
- bin/run-example SparkPi 10 --master local[2]
bin/run-example SparkPi 10 --master local[2]
(2)Spark Standalone集群运行:
- bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 lib/spark-examples-1.4.0-hadoop2.6.0.jar 100
bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 lib/spark-examples-1.4.0-hadoop2.6.0.jar 100
运行完,在spark的8080界面可以查看任务:
(3)在spark on yarn上 以yarn-cluster模式运行:
- bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn-cluster lib/spark-examples*.jar 10
bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn-cluster lib/spark-examples*.jar 10
(5)以yarn-client模式运行:
- bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn-client lib/spark-examples*.jar 10
bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn-client lib/spark-examples*.jar 10
运行完,在hadoop的8088界面监控如下:
yarn-cluster与yarn-client的区别?
前者是后台挂起的方式运行,终端关了,对我这个任务不影响
后者是交互式的方式运行,终端关了,这个任务就被kill了
相关推荐
"Spark安装指南" Spark是一个开源的大数据处理引擎,它提供了高效、灵活的数据处理能力。本文将详细介绍Spark的安装过程,包括下载、解压、配置环境变量等步骤。 一、安装Hadoop ---------------- 在安装Spark...
- 进入Spark安装目录下的`conf`目录。 - 重命名并编辑`spark-env.sh.template`文件,设置JDK路径、Master IP等配置项。 - 同样地,重命名并编辑`slaves.template`文件,添加Worker节点的信息。 5. **复制配置到...
Spark安装使用教程Spark安装使用教程Spark安装使用教程Spark安装使用教程Spark安装使用教程Spark安装使用教程Spark安装使用教程Spark安装使用教程Spark安装使用教程Spark安装使用教程Spark安装使用教程Spark安装使用...
【Spark安装文档】在Ubuntu环境下搭建Spark基础框架是一项常见的任务,尤其对于数据处理和分析的开发者来说至关重要。Spark是一款高效、通用的并行计算框架,它支持批处理、交互式查询、流处理以及机器学习等多种...
这个“spark安装.zip”文件显然包含了针对大数据分析初学者的Spark安装教程,以及如何使用Python进行测试的步骤。下面将详细介绍Spark的安装过程,以及如何利用Python与Spark进行交互。 首先,安装Spark需要准备...
### Spark安装与开发环境搭建详解 #### 概述 随着大数据技术的发展,Apache Spark作为一款高性能的数据处理框架,被广泛应用于各种数据处理场景之中。本文将详细介绍如何在本地环境中搭建Spark开发环境,并通过一...
Spark 安装与使用实验报告 本实验报告的目的是学习大数据分析引擎 Spark 的安装与使用。Spark 是一个基于内存的分布式计算框架,能够高效地处理大规模数据。 一、实验目的 本实验的目的是学习 Spark 的安装与使用...
### Linux中Scala和Spark安装教程 #### Scala安装步骤详解 在深入探讨如何在Linux系统上安装Scala和Spark之前,我们首先需要确保系统已正确安装了JDK,因为Scala和Spark都依赖于Java运行环境。 ##### 步骤1:安装...
Spark 安装使用教程 PDF Spark 是一个基于内存的计算引擎,可以快速地处理大量数据。下面是 Spark 安装使用教程 PDF 中的知识点总结: 1. Spark 概述 Spark 是一个开源的计算引擎,可以快速地处理大量数据。Spark...
Linux环境下Hadoop与Spark安装配置手册知识点 1. JDK的安装与配置 - 在Linux环境下安装Java Development Kit(JDK)是运行Hadoop和Spark的前提。手册中提到使用的JDK版本为jdk-8u20-linux-i586.tar.gz,这是一个...
#### Spark安装部署环境 ##### 环境部署 **软件需求** - **Spark**: 下载最新稳定版或指定版本。 - **Scala**: 与 Spark 版本兼容的 Scala 版本。 **安装步骤** 1. **下载并安装 Spark** - 下载 Spark 安装包。 -...
适合大数据分析初学者,安装大数据分析工具spark,python语言测试(保姆级教学)。
然而,由于跨平台和依赖性的问题,安装和配置TensorFlow on Spark可能较为复杂,官方文档可能并不完全涵盖所有可能出现的问题,这可能是描述中提到“官方的很坑”的原因。 首先,安装`tensorflowonspark`需要确保...
spark 安装部署 Spark 安装部署是大数据处理的重要组件,本文档将指导用户完成 Spark 的安装和配置,涵盖了 JDK、Scala、SSH 免密码登录、Hadoop 安装等步骤。 一、JDK 安装 JDK 是 Spark 运行环境的基础,需要...
Apache Spark 安装步骤详解: 安装 Apache Spark 对于初学者来说可能会有些难度,但通过本篇指南,您将了解安装 Spark 2.0 所需的全部要求,以及如何安装 Spark 环境和配置 Jupyter Notebook 以便于编写代码。本...
### Spark安装配置教程 #### 一、前提准备 在开始安装Spark之前,有几个重要的准备工作需要完成。 1. **确保Java已安装**: - Spark依赖于Java环境运行,因此需要确保系统上已经安装了JDK,并且正确设置了`JAVA_...
"spark安装手册学习资料" 本文档详细介绍了生产型Hadoop和Spark集群的安装和配置过程。下面是从给定的文件中生成的相关知识点: 1. Spark安装手册概述 Spark安装手册是指用于安装和配置Spark集群的指南。该手册...