`

SPARK动态添加节点

 
阅读更多

spark集群使用hadoop用户运行,集群机器如下:

1 DEV-HADOOP-01 192.168.9.110 Master
2 DEV-HADOOP-02 192.168.9.111 Worker
3 DEV-HADOOP-03 192.168.9.112 Worker

 

现在需要添加一台192.168.9.113 机器名DEV-HADOOP-04的节点作为Worker.需要执行一下操作:

 

  1. 配置Master到新增节点hadoop用户的无密码登录

  2. 每个节点添加的/etc/hosts

  3. 安装JDK1.8.0_60

  4. 安装scala

    1. 从Master拷贝scala scp -r scala-2.11.7 root@192.168.9.113:/data/server/

    2. 设置环境变量 /etc/profile

      1. export SCALA_HOME=/usr/scala/scala-2.11.7

      2. 使配置生效 source /etc/profile

    3. 更改scala-2.11.7的用户和组 chown -R hadoop:hadoop scala-2.11.7

  5. 安装spark

    1. 从Master拷贝spark scp -r spark-1.5.0-bin-hadoop2.6 root@192.168.9.113:/data/server/

    2. 配置环境变量 /etc/profile

      1. export SPARK_HOME=/data/server/spark-1.5.0-bin-hadoop2.6

      2. export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

      3. 使配置生效 source /etc/profile

  6. 修改集群的slaves配置文件,新增新增节点DEV-HADOOP-03

  7. 启动新增节点

    1. sbin/start-slave.sh spark://DEV-HADOOP-01:7077

  8. 新增节点启动验证

    1. 执行jps命令,slave可以看到Worker进程

  9. 查看Spark UI

    1. 看到Workers中有新增节点

分享到:
评论

相关推荐

    spark从节点搭建1

    在本场景中,我们将讨论如何在9台从节点上搭建Spark环境,以实现从Elasticsearch中获取数据,进行计算,并将结果存储回Elasticsearch。 首先,我们需要确保所有从节点满足必要的硬件和软件要求。硬件方面,根据...

    spark单节点调优

    - `spark.executor.extraJavaOptions`可添加JVM参数,例如调整GC策略,如使用G1垃圾收集器并设置`-XX:+UseG1GC`。 8. **日志级别** 通过`spark.logLevel`设置日志级别,平衡调试信息和性能。 在实际调优过程中,...

    spark读取hbase数据,并使用spark sql保存到mysql

    在大数据处理领域,Spark 和 HBase 以及 MySQL 都扮演着重要的角色。Spark 提供了高效的数据处理能力,HBase 是一个分布式、面向列的NoSQL数据库,而 MySQL 是广泛使用的的关系型数据库。本示例将详细介绍如何使用 ...

    springboot与spark整合开发, 练习spark api

    在`pom.xml`文件中添加Spark的Maven依赖,如`spark-core`和`spark-sql`,同时还需要添加Spring Boot的Web依赖,以便创建RESTful API。 在代码实现上,我们可以创建一个`SparkConfig`类,使用Spring Boot的`@...

    spark或mr引擎插入的数据,hive表查询数据为0

    - 或者,在Tez执行的QL语句末尾添加`DISTRIBUTE BY`关键字来强制触发一次Reduce过程,这有助于整理数据分布,并减少子目录带来的影响。 ##### 解决方案二:查询时的引擎配置优化 1. **MR查询时的配置**: - 在MR...

    spark主节点搭建1

    在本文中,我们将详细探讨如何在 Spark 主节点上进行搭建,特别关注 Spark 2.0 版本,这个版本包含了对大数据处理的优化和改进。 首先,Spark 主节点的搭建适用于作为整个 Spark 集群的核心组件,负责调度和管理...

    spark安装包+spark实验安装软件

    - **解压并配置环境变量**: 解压缩后,将Spark的安装路径添加到系统环境变量`SPARK_HOME`中。 - **配置JDK**: Spark运行需要Java环境,确保已安装JDK并设置好`JAVA_HOME`环境变量。 - **选择运行模式**: Spark可以...

    spark相关jar包

    对于本地开发,可以将所有必需的jar包添加到`jars`目录中,并通过`spark-submit`命令行工具提交作业时,指定这些jar的位置。例如: ```bash spark-submit --class com.example.Main --master local[4] --jars /path...

    适配CDH6.3.2的Spark3.2.2

    5. **资源管理**:Spark3.2.2优化了动态资源分配,降低了作业启动时间和资源浪费。YARN和Mesos的资源调度器都得到了改进,以更好地适应混合工作负载。 6. **性能优化**:Spark3.2.2包含了一系列性能优化,如减少...

    大数据spark搭建,spark安装包

    2. **配置环境变量**:在系统的环境变量配置文件(如Linux的`~/.bashrc`或`~/.bash_profile`)中添加SPARK_HOME,指向Spark的安装目录,并更新PATH变量,使命令行可以识别`spark-shell`等Spark命令。 3. **设置Java...

    Spark大数据处理学习笔记

    * 创建 slaves 文件:添加从节点,添加两个从节点。 二、RDD 的创建和算子 * 掌握 RDD 的创建:使用 SparkContext 创建 RDD,了解 RDD 的基本概念和特点。 * 掌握 RDD 算子:了解 RDD 的 map、filter、reduce、...

    Spark安装包、安装文档

    2. **配置环境变量**:在系统环境变量中添加SPARK_HOME,指向Spark的安装目录,并将`bin`目录添加到PATH中。 3. **配置Hadoop**:确保已经安装了与Spark版本兼容的Hadoop,并正确配置Hadoop的`hadoop.conf`文件。 4....

    Spark简单测试案例

    1. **添加 Spark JAR 包**:从 `{spark_home}/lib/` 目录下找到所需的 JAR 文件,并将其添加到工程的构建路径中。 2. **配置用户自定义库**:在项目上右键选择 `Properties` -> `Java Build Path` -> `Libraries` ->...

    spark-2.2.0.tgz源码

    2. **RDD(弹性分布式数据集)**:Spark 2.2.0中的关键概念是RDD,它是Spark的基础数据抽象,是一个不可变、分区的数据集合,可以在集群中的多个节点上并行操作。RDD具有容错性,如果某个分区丢失,可以通过其他分区...

    单机伪分布hadoop-spark配置_Spark!_spark_spark配置_hadoop_

    在IT领域,尤其是在大数据处理和分析中,Hadoop和Spark是两个非常重要的工具。Hadoop提供了分布式存储(HDFS)和分布式计算(MapReduce)的能力,而Spark则是在Hadoop之上构建的一个快速、通用且可扩展的数据处理...

    spark2 安装教程

    随着大数据技术的发展,Apache Spark 已成为处理大规模数据集的重要工具之一。然而,在实际应用过程中,不同的项目可能需要使用不同版本的 Spark 来满足特定的需求。本文将详细介绍如何在现有 Spark1.3 的基础上安装...

    Spark DataFrame

    Apache Spark DataFrame是大数据处理领域的一项重要技术,它在分布式数据集(RDD)的基础上,提供了一个更加高效和易于使用的数据处理模型。Spark DataFrame不仅继承了Spark的强大计算能力,还融入了关系型处理的...

    Spark-Mongodb是一个库允许用户利用SparkSQL读写数据至MongoDB集合

    Spark-MongoDB库是专为Java开发者设计的一个工具,它为Apache Spark提供了与MongoDB集成的能力,使得在大数据处理和分析场景下,可以方便地利用Spark SQL操作MongoDB中的数据。MongoDB是一款流行的NoSQL数据库,以其...

    spark伪分布.docx

    在大数据处理中,Spark是非常流行的计算引擎,它可以快速处理大量数据。然而,为了让Spark正常运行,需要安装和部署Spark伪分布(Standalone)模式。在本文中,我们将介绍如何安装和部署Spark伪分布模式。 一、部署...

Global site tag (gtag.js) - Google Analytics