需要的环境:
1.java1.8
2.hadoop-3.1.1(spark用到他的hdfs)
3.zookeeper-3.4.11(spark自动转移master用)
4.spark-2.3.1-bin-without-hadoop
三台服务器主机分别是
host-01
host-02
host-03
关键配置:
hadoop
hadoop/hadoop-3.1.1/etc/hadoop/hadoop-env.sh
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.161-0.b14.el7_4.x86_64 export YARN_RESOURCEMANAGER_USER=root export YARN_NODEMANAGER_USER=root
hadoop/hadoop-3.1.1/etc/hadoop/core-site.xml
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://host-01:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>file:///home/hadoop/tmp</value> </property> <property> <name>ha.zookeeper.quorum</name> <value>host-01:2181,host-02:2181,host-03:2181</value> </property> </configuration>
hadoop/hadoop-3.1.1/etc/hadoop/hdfs-site.xml
<configuration> <property> <name>dfs.replication</name> <value>2</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>/home/hadoop/hdfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/home/hadoop/hdfs/data</value> </property> </configuration>
hadoop/hadoop-3.1.1/etc/hadoop/yarn-site.xml
<configuration> <!-- Site specific YARN configuration properties --> <property> <name>yarn.resourcemanager.hostname</name> <value>host-01</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
hadoop/hadoop-3.1.1/etc/hadoop/workers 没有则新建,配置data节点
host-02 host-03
spark
spark-2.3.1-bin-without-hadoop/conf/spark-env.sh 第一行比较重要,出现“java.lang.ClassNotFoundException: org.slf4j.Logger”、“failed to launch: nice -n”等问题就是没这个导致的
export SPARK_DIST_CLASSPATH=$(/home/hadoop/hadoop-3.1.1/bin/hadoop classpath) export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.161-0.b14.el7_4.x86_64 export SPARK_MASTER_HOST=host-01 export HADOOP_HOME=/home/hadoop/hadoop-3.1.1 export HADOOP_CONF_DIR=/home/hadoop/hadoop-3.1.1/etc/hadoop export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=host-01:2181,host-02:2181,host-03:2181 -Dspark.deploy.zookeeper.dir=/spark"
注:export SPARK_MASTER_HOST=host-01
指定host的ip,三台服务器分别配置各自的hostname
spark-2.3.1-bin-without-hadoop/conf/slaves 设置slave
host-02 host-03
配置完成
启动
1.启动zookeeper
zookeeper-3.4.11/bin/zkServer.sh start
2.启动hdfs
hadoop-3.1.1/sbin/start-dfs.sh
3.启动spark
spark-2.3.1-bin-without-hadoop/sbin/start-all.sh
4.分别启动host-02和host-03上的master(host-01 的是ALIVE,其他是STANDBY状态,host-01挂了其他的zookeeper自动选一台alive替代)
spark-2.3.1-bin-without-hadoop/sbin/start-master.sh
jps命令查看
host-01:
[root@localhost home]# jps 26304 NameNode 24310 QuorumPeerMain 30152 Jps 29946 Master 26622 SecondaryNameNode
host-02:
[root@localhost home]# jps 13857 DataNode 15938 Master 16118 Jps 15752 Worker 12767 QuorumPeerMain
host-03
[root@localhost home]# jps 3186 QuorumPeerMain 14323 Master 6100 DataNode 15966 Jps
相关推荐
本文将介绍Spark集群环境搭建的详细步骤,包括集群规划、前置条件、Spark集群搭建、启动集群、验证集群高可用等。 一、集群规划 在搭建Spark集群之前,需要进行集群规划,确定集群的架构和配置。在本例中,我们将...
Spark 集群环境搭建 在大数据处理中,Spark 集群环境的搭建是非常重要的一步。今天,我们将学习如何搭建 Spark 集群环境,并了解整个过程中的关键步骤。 什么是 Spark 集群环境? Spark 集群环境是指一组计算机...
### Spark集群及开发环境搭建(完整版) #### 一、软件及下载 本文档提供了详细的步骤来指导初学者搭建Spark集群及其开发环境。首先需要准备的软件包括: - **VirtualBox-5.1**:虚拟机软件,用于安装CentOS操作...
Spark集群环境搭建.md
本实验旨在建立一个Hadoop-Spark集群环境,用于处理疏散星团NGC2266的大数据。通过搭建Python环境,特别是使用PySpark,进行数据导入、预处理和聚类分析。实验涵盖了大数据处理的核心技术,包括环境配置、数据读取、...
spark集群安装搭建,step by step,详细记录整个安装过程。
"基于Linux平台下的Hadoop和Spark集群搭建研究" 本文主要研究了基于Linux平台下的Hadoop和Spark集群搭建,旨在提高计算速率和数据性能。Hadoop是最流行的处理平台,主要解决了数据存储和分布式计算的问题,而Spark...
### Spark Standalone 分布式集群搭建详解 #### Spark Standalone 运行模式概述 Spark Standalone 是 Apache Spark 提供的一种自带的集群管理模式,主要用于管理 Spark 应用程序的执行环境。这种模式简单易用,适合...
六、 机器集群搭建 14 1. 复制机器 14 2. 设置静态IP 15 3. 设置机器名hostname 15 4. ssh免密登录 15 5. hadoop集群测试 17 七、 Spark & Scala 集群安装 18 1. scala安装 18 2. spark安装 19 3. 测试...
本文档旨在提供一套完整的Spark集群环境搭建指南,涵盖从基础系统环境的构建到各组件的安装与配置,最终实现一个功能完备的Spark集群环境。该环境适用于Spark 1.6及2.x版本,并支持Standalone与YARN模式下的部署。 ...
#### 四、Spark集群环境搭建 ##### 4.1 搭建Spark集群 1. **主节点配置**:在主节点上配置`conf/spark-env.sh`和`conf/masters`文件。 2. **从节点配置**:在每个从节点上配置`conf/slaves`文件,列出所有从节点的...
Spark 环境搭建 - Windows 本文将指导您在 Windows 平台上搭建 Spark 环境,包括 JDK、Scala、Hadoop、Python 和 Spark 的安装和配置。 Python 的安装与配置 Python 是 Spark 的依赖项之一,需要安装 Python ...
Hadoop-Apache2.7.3和...以上是根据文档提供的信息梳理出的Hadoop和Spark集群搭建的知识点。注意,由于文档中存在部分OCR识别错误,可能会影响对知识点的完整理解,具体操作时需要结合实际情况和官方文档进行校正。
通过使用 Docker,可以快速的在本地搭建一套 Spark 环境,方便大家开发 Spark 应用,或者扩展到...下面这篇文章主要给大家介绍了使用docker快速搭建Spark集群的方法教程,需要的朋友可以参考借鉴,下面来一起看看吧。
Spark 集群搭建的软件环境包括 Ubuntu 16.04 LTS、CentOS 7、Scala 2.10.6、Hadoop 2.7.2、Spark 1.6.1-bin-hadoop2.6、Java 1.8.0_77 等。 知识点9:Spark 集群搭建的硬件环境 Spark 集群搭建的硬件环境包括一个 ...
这篇博客,Alice为大家带来的是Spark集群环境搭建之——standalone集群模式。 文章目录集群角色介绍集群规划修改配置并分发启动和停止查看web界面测试 集群角色介绍 Spark是基于内存计算的大数据并行计算框架,...
本文档主要讲述了如何在 Linux 环境下搭建 Spark 完全分布式环境,包括环境变量的设置、Spark 配置文件的修改、 Slave 节点的配置以及集群的启动过程。 一、环境变量设置 在搭建 Spark 分布式环境之前,需要设置...
2. **Cluster Manager**:管理整个Spark集群的资源,可以是Spark原生的、Apache Mesos或Hadoop YARN。它根据应用需求分配和释放Worker Node上的资源。 3. **Executor**:在Worker Node上运行的进程,每个Executor...
在IT领域,大数据处理是不可或缺的一部分,而Hadoop和...总之,通过学习和实践这个Hadoop及Spark集群搭建文档,你可以掌握大数据处理的基础知识,提升在分布式计算领域的技能,为大数据分析和应用开发打下坚实基础。
单机伪集群环境搭建 集群环境搭建 常用 Shell 命令 Java API 的使用 基于 Zookeeper 搭建 Hadoop 高可用集群 二、Hive 简介及核心概念 Linux 环境下 Hive 的安装部署 CLI 和 Beeline 命令行的基本使用 常用 DDL 操作...