下面讲一下linux上安装spark,以 Standalone Mode 安装
1)首先安装JDK
下载JDK:jdk-7u79-linux-x64.tar.gz ,版本是1.7以上都行,解压 tar -zxvf jdk-7u79-linux-x64.tar.gz
然后配置 ~/.bashrc
增加
export JAVA_HOME=/cdh/jdk1.7.0_79
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:${SCALA_HOME}/bin:${SPARK_HOME}/bin:$PATH
source .bashrc
验证: java -version能正常运行则说明安装成功
2)安装scala
请看: http://daizj.iteye.com/blog/2227128
3) 安装spark
1)首先从网 http://spark.apache.org/downloads.html 上下载需要的版本,目前下载的是spark-1.4.0-bin-cdh4.tgz
(2)将spark-1.4.0-bin-cdh4.tgz移到根目录,并解压
tar -zxvf spark-1.4.0-bin-cdh4.tgz
(3)配置环境变量
SPARK_HOME=/spark-1.4.0-bin-cdh4
path=$path:$SPARK_HOME/bin
(4)修改配置文件
1)cd /spark-1.4.0-bin-cdh4/conf
2)mv spark-env.sh.template spark-env.sh
3)vi spark-env.sh
添加以下内容:
export SCALA_HOME=/scala-2.11.6
export JAVA_HOME=/cdh/jdk1.7.0_79
export SPARK_MASTER_IP=192.168.212.15
export SPARK_WORKER_MEMORY=1024m
export master=spark://192.168.212.15:7070
4)修改slaves文件
mv slaves.template slaves
vi slaves
添加一下内容:
slave1
slave2
(5) 将/spark-1.4.0-bin-cdh4目录复制到work节点
(6)启动spark
pwd
/spark-1.4.0-bin-cdh4/sbin
执行 ./start-all.sh 命令。
注意,hadoop也有start-all.sh脚本,因此必须进入具体目录执行脚本,启动界面如下:
(7)验证
1)在master节点上执行jps
30859 Jps
30172 Master
2)在slaves节点上执行jps
30302 Worker
30859 Jps
(7)验证安装情况
1)运行自带示例
启动spark sql
进入spark_home/bin/ 运行 ./spark-sql
2)查看集群环境
http://master:8080/
3)进入spark-shell
$spark-shell
4)查看jobs等信息
http://master:4040/jobs/
相关推荐
以下是安装部署Spark Standalone模式的详细步骤和相关知识点。 **一、实验描述与环境** 1. 实验描述:本实验旨在搭建一个基于Standalone模式的Spark集群,包括解压安装包、配置环境变量、启动集群及验证安装效果。...
### Spark的三种部署模式与基于Anaconda3的Python编程实现 #### 一、Spark的部署模式 Apache Spark作为大数据处理领域的重要工具之一,其部署模式的选择对于应用性能有着至关重要的影响。Spark支持三种主要的部署...
在规划Spark Standalone集群时,需要在每台机器上安装Spark,并配置Master和Worker的相关参数。例如,可以将Master节点设置为node01,两个Slave节点为node02和node03。安装步骤包括将Spark安装包上传至服务器,解压...
本实验旨在通过实践操作,让学生熟悉 Spark 的基本使用,包括安装配置、数据读取、数据处理以及独立应用程序的开发。 1. **安装 Hadoop 和 Spark** 在实验环境中,首先需要安装 Hadoop 和 Spark。Hadoop 是一个...
在Linux环境下部署Spark时,首先需要解压这个tgz文件,然后配置环境变量,比如设置SPARK_HOME,将bin目录添加到PATH。接着,可以启动Spark的独立模式或者与YARN、Mesos等集群管理器结合的集群模式。在开发应用程序时...
Spark是Apache软件基金会下的一个开源大数据处理框架,以其高效、灵活和易用的特性而闻名。...对于运维人员来说,理解Spark的架构和组件,以及如何在Linux上部署和管理Spark,是提升大数据处理效率的关键。
"spark安装手册学习资料" 本文档详细介绍了生产型Hadoop和Spark集群的安装和配置过程。下面是从给定的文件中生成...本手册提供了一个完整的Spark安装手册,涵盖了安装、配置、部署和管理Hadoop和Spark集群的整个过程。
在大数据分析场景中,Spark可以通过YARN、Mesos或独立模式部署在分布式环境中。它可以与其他大数据工具如Hadoop、HBase、Kafka等集成,实现复杂的数据处理工作流程。此外,Spark还支持Scala、Java、Python和R等多种...
虽然Spark可以独立运行,但在很多实际生产环境中,两者通常会一起部署。 - **安装Hadoop**:同样可以通过包管理器安装。 - **验证Hadoop**:运行`hadoop version`命令确认Hadoop版本。 #### 二、下载Spark安装包 ...
在Linux环境下进行Hadoop及其组件的安装,首先要确保操作系统、JDK、Hadoop版本以及其他相关组件的正确选择和配置。本教程将详细讲解Hadoop的伪分布式安装过程,以及部分组件的安装步骤。 1. **操作系统与环境配置*...
本课程旨在通过Spark2.x新闻网大数据实时分析可视化系统,讲解大数据项目的业务分析、技术选型、架构设计、集群规划、安装部署、整合继承与开发和 web可视化交互设计。课程特色包括全方位、全流程讲解、大数据项目的...
结合上述提到的技术点,本书可能还会介绍如何在Linux环境下搭建Hadoop和Spark的开发环境,因为Hadoop和Spark都是基于Linux系统的,其性能在Linux环境下能够得到最佳的发挥。 综上所述,本书涵盖了大数据分析、机器...
2. **资源管理**:SparkJobServer可以管理多个Spark上下文(Contexts),每个上下文可以视为独立的Spark实例,分配特定的资源,如内存和CPU核心。 3. **安全特性**:支持身份验证和授权,确保只有授权的用户可以...
3. **VMware虚拟机**:VMware是一款虚拟化软件,允许在同一台物理机器上运行多个独立的操作系统实例,便于测试和开发环境的建立。 4. **克隆虚拟机**:克隆虚拟机是创建一个与原始虚拟机完全相同的副本,对于构建多...
在实际部署中,Spark可以运行在独立模式、Mesos、YARN或Kubernetes之上,提供了灵活的资源管理和调度。用户可以根据集群环境和应用需求选择合适的部署方式。 总的来说,Apache Spark通过其高效的内存计算、丰富的...
Linux集群体系结构是一种高效、可扩展且高可用的计算架构,它通过将多个独立的Linux服务器连接在一起,形成一个统一的资源池,从而提供比单个服务器更高的性能和可靠性。这种技术广泛应用于大规模数据处理、高并发...
5. **部署Spark on Kubernetes**:利用Kubernetes的Spark Operator或Helm图表安装Spark,配置Spark作业提交、调度和监控。 6. **Elyra**:可能还涉及Elyra,这是一个开源项目,提供了JupyterLab的扩展,用于提升...
#### 四、伪分布式部署Spark **1. 下载Spark** - **版本选择:** 推荐使用与Hadoop 2.2.0相匹配的Spark版本,如Spark 1.0.0。 - **下载方式:** 从官方网站或其他可信源下载Spark的tar.gz包。 **2. 解压安装** - *...