`

Spark HA

 
阅读更多

原创转载请注明出处:http://agilestyle.iteye.com/blog/2294076

 

前期准备

zookeeper集群搭建完毕

Scala环境配置完毕

export JAVA_HOME=/home/hadoop/app/jdk1.8.0_77
export HADOOP_HOME=/home/hadoop/app/hadoop-2.6.4
export HIVE_HOME=/home/hadoop/app/apache-hive-1.2.1-bin
export HBASE_HOME=/home/hadoop/app/hbase-1.1.4
export STORM_HOME=/home/hadoop/app/apache-storm-1.0.0
export ZOOKEEPER_HOME=/home/hadoop/app/zookeeper-3.4.8  
export SCALA_HOME=/home/hadoop/app/scala-2.11.8
export SPARK_HOME=/home/hadoop/app/spark-1.6.1-bin-hadoop2.6
export MVN_HOME=/home/hadoop/app/apache-maven-3.3.9
export PATH=$PATH:${JAVA_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:${HIVE_HOME}/bin:${HBASE_HOME}/bin:${STORM_HOME}/bin:${ZOOKEEPER_HOME}/bin:${SCALA_HOME}/bin:${SPARK_HOME}/bin:${MVN_HOME}/bin

 下载解压spark-1.6.1-bin-hadoop2.6.tgz(http://spark.apache.org/downloads.html)

 Standby Masters with ZooKeeper

 

安装步骤

拷贝conf目录下的spark-env.sh.template

cp spark-env.sh.template spark-env.sh


 

修改spark-env.sh

vi spark-env.sh

 添加如下

export JAVA_HOME=/home/hadoop/app/jdk1.8.0_77
export SCALA_HOME=/home/hadoop/app/scala-2.11.8
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=hadoop-0000:2181,hadoop-0001:2181,hadoop-0002:2181 -Dspark.deploy.zookeeper.dir=/spark"


 

拷贝conf目录下的slaves.template

cp slaves.template slaves

 

修改slaves

vi slaves
hadoop-0000
hadoop-0001
hadoop-0002


 

保存退出,scp到其他两个节点(hadoop-0000, hadoop-0001)

scp -r spark-1.6.1-bin-hadoop2.6/ hadoop-0000:/home/hadoop/app/
scp -r spark-1.6.1-bin-hadoop2.6/ hadoop-0001:/home/hadoop/app/

 

启动

首先启动zookeeper集群

zkServer.sh start 

查看状态,一个leader,两个follower

 

接着cd到spark的sbin目录下

./start-all.sh



jps分别查看3台节点上的状态

hadoop-0000


 
hadoop-0001


 
hadoop-0002


 

然后,为了确保HA,我们在hadoop-0001上再启动一个master


 

最后通过http://hadoop-0000:8080访问Master的Spark Web UI,状态为Alive



 

通过http://hadoop-0001:8080访问另一个Master的Spark Web UI,状态为STANDBY



 
 

 

 

 

 

 

 

 

 

 

 

 

 

 

  • 大小: 46.3 KB
  • 大小: 21.1 KB
  • 大小: 35.9 KB
  • 大小: 30.1 KB
  • 大小: 7.8 KB
  • 大小: 6.9 KB
  • 大小: 6.7 KB
  • 大小: 17.5 KB
  • 大小: 111.7 KB
  • 大小: 62.6 KB
分享到:
评论

相关推荐

    Spark学习笔记 (二)Spark2.3 HA集群的分布式安装图文详解

    "Spark学习笔记(二)Spark2.3 HA集群的分布式安装图文详解" 本文主要介绍了Spark2.3 HA集群的分布式安装,结合图文与实例形式详细分析了Spark2.3 HA集群分布式安装具体下载、安装、配置、启动及执行spark程序等...

    【自动化脚本】自动启动hdfs/yarn/spark HA集群

    脚本功能:启动集群 前提:配置好执行脚本的...hadoop2、3是Spark Master;hadoop3还是RM;hadoop4、5、6是DN、NM、Spark Worker。编辑完成后在满足“前提”的任意一台主机运行均可。 脚本声明:原创——By BlackValley

    spark 高可用安装文档

    为了确保Spark集群的稳定性和可靠性,高可用性(HA)成为了构建Spark集群时必须考虑的关键因素之一。本文档将详细介绍如何在CentOS 6.5环境下搭建一个高可用性的Spark集群。 #### 二、准备工作 在开始部署之前,请...

    Spark大数据相关面试1

    本文将深入探讨Spark与高可用性(HA)相关的核心知识点,特别是涉及Spark Master的高可用配置和其对集群运行的影响。 1. **Spark Master与Zookeeper的角色**: Spark Master通过Zookeeper实现高可用性。Zookeeper...

    spark集群部署及入门.docx

    + Itcast08:Master(Spark HA 集群) + Itcast09:StandBy Master + Itcast10-Itcast16:Worker JDK 安装 在安装 Spark 之前,需要先安装 JDK。以下是安装 JDK 1.7 的步骤: 1. 上传 JDK 安装包到 Linux ...

    大数据技术之Spark.docx

    **2.6 配置SparkHA【Standalone】** 高可用性配置是通过在两个或更多的Master节点之间实现故障转移来实现的,这样即使主Master节点失败,集群也能继续正常工作。 **2.7 配置Spark【Yarn】** YARN是Hadoop生态系统...

    【面试宝典】2021年超全超详细的最新大数据开发面试题,附答案解析(一版).pdf

    3. Spark HA和容错:Spark通过RDD持久化机制和检查点(checkpoint)机制来实现容错。 4. RDD持久化原理:RDD持久化是将中间计算结果保存在内存中,以便于后续的重复使用。 5. Spark架构组件:Spark主要包括了...

    通过案例实战掌握高可用HA下的Spark集群部署

    根据提供的信息,我们可以深入探讨如何通过案例实战来掌握高可用(High Availability,简称HA)环境下的Apache Spark集群部署。此部分将重点介绍高可用性在Spark集群中的意义、实现方式以及实战过程中的关键步骤。 ...

    spark 分布式集群搭建

    #### Spark Standalone HA (High Availability) 为了提高集群的可用性和容错能力,可以启用 High Availability (HA) 模式。主要包含两种方式: - **Standby masters with Zookeeper**: 使用 Zookeeper 来协调多个 ...

    spark 191-245课件

    1. 实验:基于文件系统实现HA高可用性及手动主备切换:在Spark集群中,高可用性是关键,本实验将指导如何配置和管理主节点的备份,确保服务的连续性。 2. 作业监控:通过standalone模式下的Web UI,可以直观地查看...

    spark-3.2.1 安装包 集成 hadoop3.2

    2. **增强容错性**:通过改进HA(High Availability)和 Federation功能,提高了系统稳定性和可用性。 3. **跨命名空间复制**:允许用户跨不同的HDFS命名空间复制数据,提高了数据管理和迁移的灵活性。 4. **支持大...

    HA集群部署手册

    手册中涉及的技术包括Hadoop、Spark、Zookeeper以及HA(High Availability,高可用性)的概念。Hadoop是一个开源框架,它允许使用简单的编程模型对大规模数据集进行分布式处理。Spark是基于内存计算的大数据处理引擎...

    spark yarn模式的搭建.docx

    在 Spark On Yarn 中,Zookeeper 主要用于 NameNode 的高可用(HA)以及 HDFS 和 YARN 的元数据管理。 1. 下载并解压 Zookeeper,例如 `zookeeper-3.4.7.tar.gz`。 2. 配置 `conf/zoo.cfg`,设置集群节点信息,例如...

    Spark运维实战

    独立模式又分为无高可用(HA)、单点恢复以及基于ZooKeeper的HA配置。在安装Spark时,可以通过SBT或MAVEN工具进行编译,但是这两种方式生成的包比较大,不适合部署使用。官方通常提供一个较小的tgz包以满足部署需求...

    Hadoop+Spark+Hive+HBase+Oozie+Kafka+Flume+Flink+ES+Redash等详细安装部署

    在大数据领域,构建一个完整的生态系统是至关重要的,其中包括多个组件,如Hadoop、Spark、Hive、HBase、Oozie、Kafka、Flume、Flink、Elasticsearch和Redash。这些组件协同工作,提供了数据存储、处理、调度、流...

    Spark分布式内存计算框架视频教程

    4.Standalone集群及HA 5.Spark 应用开发入门 6.Spark 应用提交 7.Spark on YARN 8.应用部署模式DeployMode 第二章、SparkCore 模块 1.RDD 概念及特性 2.RDD 创建 3.RDD 函数及使用 4.RDD 持久化 5.案例:SogouQ日志...

    开发者最佳实践日-Spark-Ecosystem

    - HA 支持: 提供了高可用性支持,即使在失败情况下也能保证数据处理的正确性。 - 数据丢失问题处理: - Worker 失败: 通过重新启动任务来恢复。 - Driver 失败: 可以配置重启策略。 - 可靠接收器: 确保数据在...

    spark 安装所需包1.zip

    2. **HDFS HA**:高可用性(HA)特性,支持 NameNode 的热备,确保服务不间断。 3. **HDFS Federation**:通过多NameNode 分区,提高了HDFS的可扩展性和管理能力。 4. **MapReduce v2 (MRv2)**:新的 MapReduce 框架...

    spark环境安装(Hadoop HA+Hbase+phoneix+kafka+flume+zookeeper+spark+scala)

    本项目旨在搭建一套完整的Spark集群环境,包括Hadoop HA(高可用)、HBase、Phoenix、Kafka、Flume、Zookeeper以及Scala等多个组件的集成。这样的环境适用于大规模的数据处理与分析任务,能够有效地支持实时数据流...

    Spark环境搭建——HA高可用模式

    Spark的高可用(HA)模式是为了克服其Standalone集群中Master节点的单点故障问题而设计的。在标准模式下,Spark Standalone集群由一个Master节点和多个Slave节点组成,Master负责调度作业和管理资源,但这样的架构...

Global site tag (gtag.js) - Google Analytics