spark集群安装-Standalone - kibear - ITeye博客

`

落叶留步

浏览: 54585 次
性别:
来自: 上海

最近访客更多访客>>

Smile-lx

红领巾丶

bluesky555

goahead2010

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

全部博客 (48)

社区版块

存档分类

最新评论

spark集群安装-Standalone

阅读更多

spark集群一共有三种工作方式，分别是：

Standalone Deploy Mode: simplest way to deploy Spark on a private cluster

当然第一种安装最简单，当然要先来简单的。

1. 准备工作

三台centos：spark01/spark02/spark03

安装jdk 配置好JAVA_HOME

下载spark安装包：

https://mirror.tuna.tsinghua.edu.cn/apache/spark/spark-2.1.0/spark-2.1.0-bin-hadoop2.7.tgz

2. 解压

tar -xvf spark-2.1.0-bin-hadoop2.7.tgz

3. 启动

首先启动master（spark01）：

sbin/start-master.sh

然后启动slave（spark02和spark03）

sbin/start-slave.sh spark://spark01:7077

4.测试

提交一个测试任务到集群使用自带的计算pi的示例，有两种方式：

# 这种方式会提交任务到集群但是使用的客户端模式也就是任务的输出会在控制台显示

bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://hadoop01:7077 --executor-memory 1G --total-executor-cores 2 examples/jars/spark-examples_2.11-2.1.0.jar 1000

# 这种方式任务会提交到集群输出要通过web ui查看，控制台看不到结果

bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://spark01:7077 --deploy-mode cluster --supervise --executor-memory 1G --total-executor-cores 2 examples/jars/spark-examples_2.11-2.1.0.jar 1000

分享到：

mongodb索引相关 | Java方法重载和覆盖

2017-02-27 13:58
浏览 436
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

spark-1.6.0-bin-hadoop2.4.tgz: 5. **启动Spark**：启动Spark的Master和Worker节点，如果使用的是standalone模式，可以通过`sbin/start-all.sh`命令启动。 6. **测试运行**：使用简单的Spark应用，如WordCount，验证Spark是否安装和配置成功。在...

spark-3.0.3-bin-hadoop2.7.tgz: 4. 启动Spark集群，可以是standalone模式、Mesos模式或YARN模式。 5. 编写Spark应用程序，使用Scala、Java、Python或R语言。 6. 使用`spark-submit`工具提交你的Spark应用到集群上执行。通过Spark，用户可以快速...

spark-2.3.0-bin-hadoop2.7版本.zip: 3. **多模式支持**：Spark支持多种工作模式，包括本地模式、Standalone集群模式、YARN模式（与Hadoop2.7集成）以及Mesos模式，适应不同的部署环境。 4. **组件丰富**：Spark包含多个模块，如Spark Core、Spark SQL...

spark-2.4.0-bin-hadoop2.6.tgz: 5. **运行模式**：Spark支持多种运行模式，包括本地模式（方便开发测试）、standalone模式（Spark自带的集群管理器）、YARN模式（使用Hadoop的资源管理器）和Mesos模式（Mesos集群管理器）。在Hadoop 2.6环境中，...

spark-2.4.4-bin-hadoop2.6.tgz: Spark支持多种部署模式，包括本地模式、Standalone模式、YARN模式和Mesos模式，可以根据实际需求选择合适的部署方式。 8. **Spark Job调度**： Spark使用FIFO和Fair Scheduler，根据作业优先级和资源需求进行任务...

spark集群安装部署与初步开发: ### Spark集群安装部署与初步开发知识点详述 #### 一、Spark概述 - **定义**：Spark是一款基于内存计算的大数据并行计算框架，旨在提供高效的数据处理能力。 - **特性**： - **内存计算**：利用内存提高数据处理...

Spark实验：Standalone模式安装部署（带答案）1: 1. 实验描述：本实验旨在搭建一个基于Standalone模式的Spark集群，包括解压安装包、配置环境变量、启动集群及验证安装效果。 2. 实验环境：使用3台虚拟机，操作系统为Centos 7.5，Hadoop版本为2.7.3，Spark版本为...

spark-2.2.0-bin-2.6.0-cdh5.14.0.tgz: Standalone模式是Spark自带的资源管理器，可以快速地在多台机器上搭建Spark集群。而YARN模式则利用了CDH中的资源管理系统，使Spark作业能在更大的Hadoop集群上运行。若要部署在YARN上，需要配置Spark的conf目录中的...

spark-2.4.0-bin-hadoop2.7.zip: Spark支持四种运行模式：本地模式（用于测试）、集群模式（如YARN、Mesos或standalone）、Spark on Kubernetes以及云服务提供商的托管Spark。 6. **编程接口**： Spark提供了Python（PySpark）、Java、Scala和R的...

spark-3.2.1 安装包下载 hadoop3.2: 在安装Spark 3.2.1时，`spark-3.2.1-bin-hadoop3.2-scala2.13.tgz`这个压缩包包含所有必要的组件和依赖项。Scala 2.13是Spark的开发语言，因此需要匹配版本的JDK环境。解压后，你可以配置环境变量，如SPARK_HOME，...

spark 分布式集群搭建: ### Spark Standalone 分布式集群搭建详解 #### Spark Standalone 运行模式概述 Spark Standalone 是 Apache Spark 提供的一种自带的集群管理模式，主要用于管理 Spark 应用程序的执行环境。这种模式简单易用，适合...

spark-2.4.5-bin-without-hadoop.tgz.7z: 同时，可能需要配置其他的资源管理器，如YARN或Mesos，或者使用Standalone模式自建Spark集群。 Spark的核心组件主要包括：Spark Core、Spark SQL、Spark Streaming、MLlib（机器学习库）和GraphX（图计算）。Spark ...

spark-3.2.1 安装包集成 hadoop2.7: 5. 使用`spark-submit`脚本提交Spark作业到YARN上运行，或者在本地模式或standalone模式下启动Spark Shell进行交互式测试。 Spark的使用场景广泛，涵盖了数据批处理、实时流处理、机器学习和图计算等。在大数据领域...

spark-2.3.3-bin-hadoop2.6.tgz: 用户可以将"spark-2.3.3-bin-hadoop2.6"解压后在本地模式、集群模式（如YARN、Mesos或standalone）下运行Spark。配置文件如`conf/spark-defaults.conf`用于设置各种参数，如内存分配、日志级别等。 5. **编程接口*...

spark-2.3.1-bin-hadoop2.6.tgz: 10. **资源管理和调度**：Spark使用自己的资源管理器（称为standalone模式），也可以通过YARN或Mesos等外部资源管理系统运行。 11. **性能优化**：Spark利用内存计算，将中间结果存储在内存中，减少磁盘I/O，提高...

anaconda案例：火花1.6.2-standalone-anaconda: 8. **使用PySpark**：现在，你可以通过Python代码连接到Spark集群，开始编写和执行Spark应用程序。在Anaconda Prompt中，启动PySpark shell： ``` bin\pyspark ``` 9. **测试Spark**：在PySpark shell中，可以...

spark-standalone-cluster-on-docker：通过在Docker上使用JupyterLab接口构建自己的集群，学习Scala，Python（PySpark）和R（SparkR）中的Apache Spark: 这个方法对于开发者、数据科学家和学习者来说，提供了一个灵活的实验环境，无需在本地安装复杂的软件栈，而是利用容器化技术快速启动和管理Spark集群。首先，Apache Spark是一个分布式计算框架，它设计用于大规模...

spark3.0入门到精通: │ 03-[掌握]-Spark环境搭建-Standalone集群模式.mp4 │ 06-[理解]-Spark环境搭建-On-Yarn-两种模式.mp4 │ 07-[掌握]-Spark环境搭建-On-Yarn-两种模式演示.mp4 │ 09-[掌握]-Spark代码开发-准备工作.mp4 │ 10...

Spark2.3.0-Hadoop2.7.4集群部署: - **Master/Worker模式**: Spark集群通常采用Master/Worker架构，其中Master节点负责任务调度，Worker节点执行具体计算任务。 - **部署方式**: 可选择Standalone模式或者YARN模式。本文重点介绍YARN模式下的部署。 ...

spark-2.0.1集群安装及编写例子提交任务: 首先，我们来看【spark集群安装.doc】。这份文档应该包含详细的Spark集群安装步骤。通常，安装过程包括以下几个关键部分： 1. **系统需求**：确保所有节点满足Spark的硬件和软件要求，例如Java运行环境（JRE）和...

Global site tag (gtag.js) - Google Analytics