`
落叶留步
  • 浏览: 53290 次
  • 性别: Icon_minigender_1
  • 来自: 上海
文章分类
社区版块
存档分类
最新评论

spark集群安装-Standalone

 
阅读更多

spark集群一共有三种工作方式,分别是:

Standalone Deploy Mode: simplest way to deploy Spark on a private cluster

Apache Mesos

Hadoop YARN

当然第一种安装最简单,当然要先来简单的。

 

1. 准备工作

三台centos:spark01/spark02/spark03

安装jdk 配置好JAVA_HOME

下载spark安装包:

https://mirror.tuna.tsinghua.edu.cn/apache/spark/spark-2.1.0/spark-2.1.0-bin-hadoop2.7.tgz

 

2. 解压

tar -xvf spark-2.1.0-bin-hadoop2.7.tgz

 

3. 启动

首先启动master(spark01):

sbin/start-master.sh

然后启动slave(spark02和spark03)

sbin/start-slave.sh spark://spark01:7077

 

4.测试

提交一个测试任务到集群 使用自带的计算pi的示例,有两种方式:

# 这种方式会提交任务到集群 但是使用的客户端模式 也就是任务的输出会在控制台显示

bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://hadoop01:7077 --executor-memory 1G --total-executor-cores 2 examples/jars/spark-examples_2.11-2.1.0.jar 1000

# 这种方式任务会提交到集群 输出要通过web ui查看,控制台看不到结果

bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://spark01:7077 --deploy-mode cluster --supervise --executor-memory 1G --total-executor-cores 2 examples/jars/spark-examples_2.11-2.1.0.jar 1000

分享到:
评论

相关推荐

    spark-1.6.0-bin-hadoop2.4.tgz

    5. **启动Spark**:启动Spark的Master和Worker节点,如果使用的是standalone模式,可以通过`sbin/start-all.sh`命令启动。 6. **测试运行**:使用简单的Spark应用,如WordCount,验证Spark是否安装和配置成功。 在...

    spark-2.3.0-bin-hadoop2.7版本.zip

    3. **多模式支持**:Spark支持多种工作模式,包括本地模式、Standalone集群模式、YARN模式(与Hadoop2.7集成)以及Mesos模式,适应不同的部署环境。 4. **组件丰富**:Spark包含多个模块,如Spark Core、Spark SQL...

    spark-2.4.0-bin-hadoop2.6.tgz

    5. **运行模式**:Spark支持多种运行模式,包括本地模式(方便开发测试)、standalone模式(Spark自带的集群管理器)、YARN模式(使用Hadoop的资源管理器)和Mesos模式(Mesos集群管理器)。在Hadoop 2.6环境中,...

    spark-2.4.4-bin-hadoop2.6.tgz

    Spark支持多种部署模式,包括本地模式、Standalone模式、YARN模式和Mesos模式,可以根据实际需求选择合适的部署方式。 8. **Spark Job调度**: Spark使用FIFO和Fair Scheduler,根据作业优先级和资源需求进行任务...

    spark集群安装部署与初步开发

    ### Spark集群安装部署与初步开发知识点详述 #### 一、Spark概述 - **定义**:Spark是一款基于内存计算的大数据并行计算框架,旨在提供高效的数据处理能力。 - **特性**: - **内存计算**:利用内存提高数据处理...

    spark-2.2.0-bin-2.6.0-cdh5.14.0.tgz

    Standalone模式是Spark自带的资源管理器,可以快速地在多台机器上搭建Spark集群。而YARN模式则利用了CDH中的资源管理系统,使Spark作业能在更大的Hadoop集群上运行。若要部署在YARN上,需要配置Spark的conf目录中的...

    Spark实验:Standalone模式安装部署(带答案)1

    1. 实验描述:本实验旨在搭建一个基于Standalone模式的Spark集群,包括解压安装包、配置环境变量、启动集群及验证安装效果。 2. 实验环境:使用3台虚拟机,操作系统为Centos 7.5,Hadoop版本为2.7.3,Spark版本为...

    spark-3.2.1 安装包 下载 hadoop3.2

    在安装Spark 3.2.1时,`spark-3.2.1-bin-hadoop3.2-scala2.13.tgz`这个压缩包包含所有必要的组件和依赖项。Scala 2.13是Spark的开发语言,因此需要匹配版本的JDK环境。解压后,你可以配置环境变量,如SPARK_HOME,...

    spark-2.4.0-bin-hadoop2.7.zip

    Spark支持四种运行模式:本地模式(用于测试)、集群模式(如YARN、Mesos或standalone)、Spark on Kubernetes以及云服务提供商的托管Spark。 6. **编程接口**: Spark提供了Python(PySpark)、Java、Scala和R的...

    spark 分布式集群搭建

    ### Spark Standalone 分布式集群搭建详解 #### Spark Standalone 运行模式概述 Spark Standalone 是 Apache Spark 提供的一种自带的集群管理模式,主要用于管理 Spark 应用程序的执行环境。这种模式简单易用,适合...

    spark-2.4.5-bin-without-hadoop.tgz.7z

    同时,可能需要配置其他的资源管理器,如YARN或Mesos,或者使用Standalone模式自建Spark集群。 Spark的核心组件主要包括:Spark Core、Spark SQL、Spark Streaming、MLlib(机器学习库)和GraphX(图计算)。Spark ...

    spark-2.3.3-bin-hadoop2.6.tgz

    用户可以将"spark-2.3.3-bin-hadoop2.6"解压后在本地模式、集群模式(如YARN、Mesos或standalone)下运行Spark。配置文件如`conf/spark-defaults.conf`用于设置各种参数,如内存分配、日志级别等。 5. **编程接口*...

    spark-2.3.1-bin-hadoop2.6.tgz

    10. **资源管理和调度**:Spark使用自己的资源管理器(称为standalone模式),也可以通过YARN或Mesos等外部资源管理系统运行。 11. **性能优化**:Spark利用内存计算,将中间结果存储在内存中,减少磁盘I/O,提高...

    anaconda案例:火花1.6.2-standalone-anaconda

    8. **使用PySpark**:现在,你可以通过Python代码连接到Spark集群,开始编写和执行Spark应用程序。在Anaconda Prompt中,启动PySpark shell: ``` bin\pyspark ``` 9. **测试Spark**:在PySpark shell中,可以...

    spark-standalone-cluster-on-docker:通过在Docker上使用JupyterLab接口构建自己的集群,学习Scala,Python(PySpark)和R(SparkR)中的Apache Spark

    这个方法对于开发者、数据科学家和学习者来说,提供了一个灵活的实验环境,无需在本地安装复杂的软件栈,而是利用容器化技术快速启动和管理Spark集群。 首先,Apache Spark是一个分布式计算框架,它设计用于大规模...

    spark3.0入门到精通

    │ 03-[掌握]-Spark环境搭建-Standalone集群模式.mp4 │ 06-[理解]-Spark环境搭建-On-Yarn-两种模式.mp4 │ 07-[掌握]-Spark环境搭建-On-Yarn-两种模式演示.mp4 │ 09-[掌握]-Spark代码开发-准备工作.mp4 │ 10...

    Spark2.3.0-Hadoop2.7.4集群部署

    - **Master/Worker模式**: Spark集群通常采用Master/Worker架构,其中Master节点负责任务调度,Worker节点执行具体计算任务。 - **部署方式**: 可选择Standalone模式或者YARN模式。本文重点介绍YARN模式下的部署。 ...

    spark-3.0.3-bin-hadoop2.7.tgz

    4. 启动Spark集群,可以是standalone模式、Mesos模式或YARN模式。 5. 编写Spark应用程序,使用Scala、Java、Python或R语言。 6. 使用`spark-submit`工具提交你的Spark应用到集群上执行。 通过Spark,用户可以快速...

    spark-2.0.1集群安装及编写例子提交任务

    首先,我们来看【spark集群安装.doc】。这份文档应该包含详细的Spark集群安装步骤。通常,安装过程包括以下几个关键部分: 1. **系统需求**:确保所有节点满足Spark的硬件和软件要求,例如Java运行环境(JRE)和...

    spark-3.2.1 安装包 集成 hadoop2.7

    5. 使用`spark-submit`脚本提交Spark作业到YARN上运行,或者在本地模式或standalone模式下启动Spark Shell进行交互式测试。 Spark的使用场景广泛,涵盖了数据批处理、实时流处理、机器学习和图计算等。在大数据领域...

Global site tag (gtag.js) - Google Analytics