SPARK动态添加节点 - - ITeye博客

`

primernd

浏览: 78975 次

最近访客更多访客>>

Peak_

随枫而弑

ganxueyun

无赖木乃伊

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

SPARK动态添加节点

博客分类：

Spark调优

阅读更多

spark集群使用hadoop用户运行,集群机器如下:

1	DEV-HADOOP-01	192.168.9.110	Master
2	DEV-HADOOP-02	192.168.9.111	Worker
3	DEV-HADOOP-03	192.168.9.112	Worker

现在需要添加一台192.168.9.113 机器名DEV-HADOOP-04的节点作为Worker.需要执行一下操作:

配置Master到新增节点hadoop用户的无密码登录
每个节点添加的/etc/hosts
安装JDK1.8.0_60
安装scala
1. 从Master拷贝scala scp -r scala-2.11.7 root@192.168.9.113:/data/server/
2. 设置环境变量 /etc/profile
  1. export SCALA_HOME=/usr/scala/scala-2.11.7
  2. 使配置生效 source /etc/profile
3. 更改scala-2.11.7的用户和组 chown -R hadoop:hadoop scala-2.11.7
安装spark
1. 从Master拷贝spark scp -r spark-1.5.0-bin-hadoop2.6 root@192.168.9.113:/data/server/
2. 配置环境变量 /etc/profile
  1. export SPARK_HOME=/data/server/spark-1.5.0-bin-hadoop2.6
  2. export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
  3. 使配置生效 source /etc/profile
修改集群的slaves配置文件,新增新增节点DEV-HADOOP-03
启动新增节点
1. sbin/start-slave.sh spark://DEV-HADOOP-01:7077
新增节点启动验证
1. 执行jps命令,slave可以看到Worker进程
查看Spark UI
1. 看到Workers中有新增节点

分享到：

SPARK启动历史任务查看 | SPARK standlone安装配置

2016-06-27 12:12
浏览 846
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

spark从节点搭建1: 在本场景中，我们将讨论如何在9台从节点上搭建Spark环境，以实现从Elasticsearch中获取数据，进行计算，并将结果存储回Elasticsearch。首先，我们需要确保所有从节点满足必要的硬件和软件要求。硬件方面，根据...

spark单节点调优: - `spark.executor.extraJavaOptions`可添加JVM参数，例如调整GC策略，如使用G1垃圾收集器并设置`-XX:+UseG1GC`。 8. **日志级别** 通过`spark.logLevel`设置日志级别，平衡调试信息和性能。在实际调优过程中，...

spark读取hbase数据，并使用spark sql保存到mysql: 在大数据处理领域，Spark 和 HBase 以及 MySQL 都扮演着重要的角色。Spark 提供了高效的数据处理能力，HBase 是一个分布式、面向列的NoSQL数据库，而 MySQL 是广泛使用的的关系型数据库。本示例将详细介绍如何使用 ...

spark或mr引擎插入的数据，hive表查询数据为0: - 或者，在Tez执行的QL语句末尾添加`DISTRIBUTE BY`关键字来强制触发一次Reduce过程，这有助于整理数据分布，并减少子目录带来的影响。 ##### 解决方案二：查询时的引擎配置优化 1. **MR查询时的配置**： - 在MR...

springboot与spark整合开发, 练习spark api: 在`pom.xml`文件中添加Spark的Maven依赖，如`spark-core`和`spark-sql`，同时还需要添加Spring Boot的Web依赖，以便创建RESTful API。在代码实现上，我们可以创建一个`SparkConfig`类，使用Spring Boot的`@...

spark安装包+spark实验安装软件: - **解压并配置环境变量**: 解压缩后，将Spark的安装路径添加到系统环境变量`SPARK_HOME`中。 - **配置JDK**: Spark运行需要Java环境，确保已安装JDK并设置好`JAVA_HOME`环境变量。 - **选择运行模式**: Spark可以...

spark主节点搭建1: 在本文中，我们将详细探讨如何在 Spark 主节点上进行搭建，特别关注 Spark 2.0 版本，这个版本包含了对大数据处理的优化和改进。首先，Spark 主节点的搭建适用于作为整个 Spark 集群的核心组件，负责调度和管理...

spark相关jar包: 对于本地开发，可以将所有必需的jar包添加到`jars`目录中，并通过`spark-submit`命令行工具提交作业时，指定这些jar的位置。例如： ```bash spark-submit --class com.example.Main --master local[4] --jars /path...

spark快速数据处理第二章: ### Spark快速数据处理第二章知识点解析 #### 2.1 加载一个简单的text文件 **知识点概述：** 在本节中，我们将学习如何通过Spark Shell加载一个简单的文本文件。这是开始进行任何数据处理任务的第一步，也是理解...

适配CDH6.3.2的Spark3.2.2: 5. **资源管理**：Spark3.2.2优化了动态资源分配，降低了作业启动时间和资源浪费。YARN和Mesos的资源调度器都得到了改进，以更好地适应混合工作负载。 6. **性能优化**：Spark3.2.2包含了一系列性能优化，如减少...

大数据spark搭建，spark安装包: 2. **配置环境变量**：在系统的环境变量配置文件（如Linux的`~/.bashrc`或`~/.bash_profile`）中添加SPARK_HOME，指向Spark的安装目录，并更新PATH变量，使命令行可以识别`spark-shell`等Spark命令。 3. **设置Java...

Spark大数据处理学习笔记: * 创建 slaves 文件：添加从节点，添加两个从节点。二、RDD 的创建和算子 * 掌握 RDD 的创建：使用 SparkContext 创建 RDD，了解 RDD 的基本概念和特点。 * 掌握 RDD 算子：了解 RDD 的 map、filter、reduce、...

Spark实验：Standalone模式安装部署（带答案）1: 2. **配置Spark环境变量**：在master节点的`.bash_profile`中添加Spark相关环境变量，如SPARK_HOME，然后在所有节点上使其生效。 3. **配置slaves文件**：将`slaves.template`重命名为`slaves`，并在其中列出所有从...

Spark简单测试案例: 1. **添加 Spark JAR 包**：从 `{spark_home}/lib/` 目录下找到所需的 JAR 文件，并将其添加到工程的构建路径中。 2. **配置用户自定义库**：在项目上右键选择 `Properties` -> `Java Build Path` -> `Libraries` ->...

Spark安装包、安装文档: 2. **配置环境变量**：在系统环境变量中添加SPARK_HOME，指向Spark的安装目录，并将`bin`目录添加到PATH中。 3. **配置Hadoop**：确保已经安装了与Spark版本兼容的Hadoop，并正确配置Hadoop的`hadoop.conf`文件。 4....

spark-2.2.0.tgz源码: 2. **RDD（弹性分布式数据集）**：Spark 2.2.0中的关键概念是RDD，它是Spark的基础数据抽象，是一个不可变、分区的数据集合，可以在集群中的多个节点上并行操作。RDD具有容错性，如果某个分区丢失，可以通过其他分区...

单机伪分布hadoop-spark配置_Spark!_spark_spark配置_hadoop_: 在IT领域，尤其是在大数据处理和分析中，Hadoop和Spark是两个非常重要的工具。Hadoop提供了分布式存储（HDFS）和分布式计算（MapReduce）的能力，而Spark则是在Hadoop之上构建的一个快速、通用且可扩展的数据处理...

spark2 安装教程: 随着大数据技术的发展，Apache Spark 已成为处理大规模数据集的重要工具之一。然而，在实际应用过程中，不同的项目可能需要使用不同版本的 Spark 来满足特定的需求。本文将详细介绍如何在现有 Spark1.3 的基础上安装...

Spark DataFrame: Apache Spark DataFrame是大数据处理领域的一项重要技术，它在分布式数据集（RDD）的基础上，提供了一个更加高效和易于使用的数据处理模型。Spark DataFrame不仅继承了Spark的强大计算能力，还融入了关系型处理的...

Spark-Mongodb是一个库允许用户利用SparkSQL读写数据至MongoDB集合: Spark-MongoDB库是专为Java开发者设计的一个工具，它为Apache Spark提供了与MongoDB集成的能力，使得在大数据处理和分析场景下，可以方便地利用Spark SQL操作MongoDB中的数据。MongoDB是一款流行的NoSQL数据库，以其...

Global site tag (gtag.js) - Google Analytics