http://blog.csdn.net/u014039577/article/details/50829910
一、Scala安装
- 下载scala安装包,地址:http://www.scala-lang.org/download/
-
配置环境变量
下载完成后,解压到指定的目录下,在/etc/profile文件中配置环境变量:export SCALA_HOME=/usr/local/jiang/scala-2.10.6 export PATH=$PATH:$SCALA_HOME/bin
- 1
- 2
- 1
- 2
-
验证scala的安装
[root@logsrv03 etc]# scala -version Scala code runner version 2.10.6 -- Copyright 2002-2013, LAMP/EPFL
- 1
- 2
- 1
- 2
二、安装Spark
- 下载spark安装包,地址:http://spark.apache.org/downloads.html
-
下载完成后,拷贝到指定的目录下:/usr/local/jiang/,然后解压:
tar -zxvf spark-1.6.0-bin-hadoop2.6.tgz
- 1
- 1
-
解压后在配置中添加Java环境变量、scala环境变量、Hadoop环境变量等conf/spark-env.sh
# set scala environment export SCALA_HOME=/usr/local/jiang/scala-2.10.6 # set java environment export JAVA_HOME=/usr/local/jdk1.7.0_71 # set hadoop export HADOOP_HOME=/usr/local/jiang/hadoop-2.7.1 export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop # set spark SPARK_MASTER_IP=logsrv03 SPARK_LOCAL_DIRS=/usr/local/jiang/spark-1.6.0 SPARK_DRIVER_MEMORY=1G
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
-
配置从机conf/slaves
logsrv02 logsrv04
- 1
- 2
- 1
- 2
当然这里配置的是主机名,所以在/etc/hosts中一定要添加主机名和ip的映射,不然没法识别的:
127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4 ::1 localhost localhost.localdomain localhost6 localhost6.localdomain6 172.17.6.141 logsrv01 172.17.6.142 logsrv02 172.17.6.149 logsrv04 172.17.6.148 logsrv03 172.17.6.150 logsrv05 172.17.6.159 logsrv08 172.17.6.160 logsrv09 172.17.6.161 logsrv10 172.17.6.164 logtest01 172.17.6.165 logtest02 172.17.6.166 logtest03 172.30.2.193 devops172302193 172.30.2.194 devops172302194 172.30.2.195 devops172302195
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
-
将配置好的spark-1.6.0-bin-hadoop2.6文件远程拷贝到相对应的从机中:
[root@logsrv03 jiang]# scp -r spark-1.6.0-bin-hadoop2.6 root@logsrv02:/usr/local/jiang/ [root@logsrv03 jiang]# scp -r spark-1.6.0-bin-hadoop2.6 root@logsrv04:/usr/local/jiang/
- 1
- 2
- 1
- 2
-
启动集群
[root@logsrv03 spark-1.6.0-bin-hadoop2.6]# sbin/start-all.sh
- 1
- 1
-
启动完成后,查看主从机的进程:
主机:[root@logsrv03 spark-1.6.0-bin-hadoop2.6]# jps 25325 NameNode 23973 Master 17643 ResourceManager 25523 SecondaryNameNode 28839 Jps
- 1
- 2
- 3
- 4
- 5
- 6
- 1
- 2
- 3
- 4
- 5
- 6
从机:
[root@logsrv02 spark-1.6.0-bin-hadoop2.6]# jps 744 Worker 4406 Jps 2057 DataNode 2170 NodeManager
- 1
- 2
- 3
- 4
- 5
- 1
- 2
- 3
- 4
- 5
三、安装完成后,可以查看spark的UI:
运行wordcout例子:
命令:
./bin/spark-submit \
--name JavaKafkaWordCount \
--master spark://logsrv03:7077 \
--executor-memory 1G \
--class examples.streaming.JavaKafkaWordCount \
log_spark-0.0.1-SNAPSHOT.jar 172.17.6.142:2181,172.17.6.148:2181,172.17.6.149:2181 11 log-topic 5
- 1
- 2
- 3
- 4
- 5
- 6
- 1
- 2
- 3
- 4
- 5
- 6
运行后spark的UI:
相关推荐
Spark on YARN 集群搭建详细过程 _title_:Spark on YARN 集群搭建详细过程 _description_:本文详细介绍了 Spark on YARN 集群搭建的过程,包括配置主机 hosts 文件、免密码登录、安装 Java、安装 Scala 等步骤。...
Spark on Yan集群搭建的详细过程,减少集群搭建的时间
总结来说,Spark on Yarn的安装部署涉及到多个环节,包括环境配置、资源管理器的设置、集群启动以及应用的提交和监控。每个步骤都需要仔细操作,以确保Spark能够有效地在Hadoop集群上运行。通过这个实验,不仅可以...
Spark on YARN 集群搭建是一个复杂的过程,涉及到多台服务器的配置和软件的安装。以下是详细步骤和相关知识点: 1. **主机配置与网络通信** - `/etc/hosts` 文件配置至关重要,它用于解析主机名到IP地址的映射。...
Spark on Yarn 模式部署是指将 Spark 应用程序部署在 Yarn 集群上,使得 Spark 能够使用 Yarn 的资源管理和调度功能。这种部署方式可以提高 Spark 应用程序的性能和可靠性。 描述解释 本文档是 Spark on Yarn 模式...
Spark On Yarn 是一个在 Apache Hadoop YARN(Yet Another Resource Negotiator)资源管理器上运行 Apache Spark 应用程序的框架。这种模式允许 Spark 利用 Hadoop 的集群资源管理和调度能力,使得 Spark 能够更好地...
通过使用 Docker,可以快速的在本地搭建一套 Spark 环境,方便大家开发 Spark 应用,或者扩展到生产环境。下面这篇文章主要给大家介绍了使用docker快速搭建Spark集群的方法教程,需要的朋友可以参考借鉴,下面来一起...
本篇博客,Alice为大家带来关于如何搭建Spark的on yarn集群模式的教程。 文章目录准备工作cluster模式client模式[了解]两种模式的区别 官方文档: http://spark.apache.org/docs/latest/running-on-yarn.html 准备...
CentOS集群搭建、Hadoop集群搭建 配置免密 连接外网,Hive安装 Zookeeper搭建 Kafka scala flume安装 Spark搭建及启动
### 基于CDH 6.3.0 搭建 Hive on Spark 及相关配置和调优 #### 概述 随着大数据技术的发展,Hadoop生态系统不断成熟与完善,其中Apache Hive作为数据仓库工具,支持通过SQL语句进行查询、分析存储在Hadoop文件系统...
本文主要是学习大数据的常用工具框架,搭建Hadoop3.4.0 + Spark3.5.1 on Yarn的集群环境,本集群用到4台虚拟机(物理机也可以),1主3从。 实验环境:VMWare WorkStation + CentOS8.5 + JDK17 + Hadoop3.4.0 + Spark...
Java提交Spark任务到YARN...以上就是Java提交Spark任务到YARN平台的核心知识点,涵盖了从环境搭建、代码编写、任务提交到资源管理和性能优化的全过程。掌握这些要点,可以有效地在大规模集群上运行和管理Spark作业。
到2013年8月已经成功搭建了200台Yarn集群,运行Spark 0.8版本。 - 目前,阿里云梯1已经达到了5000*2的规模,使用的是Yarn 0.23.7版本,充分展示了Spark_on_Yarn在处理大规模数据集方面的强大能力。 #### 四、基于...
这样就完成了基本的Spark on YARN集群的部署。 在实际生产环境中,还需要考虑其他的配置优化,如调整Executor的数量、内存分配、CPU核心数等,以确保Spark作业的高效运行。此外,监控和日志管理也是集群运维的重要...
在安装方面,该文档介绍了如何在Yarn集群上搭建Spark,包括下载Spark安装包、配置spark-env.sh、slaves文件等步骤,并分发到slave1/2等节点上,确保了分布式集群环境下的配置过程。 启动和验证是检查Spark是否正确...
- **提交Spark作业**: 使用`spark-submit`命令提交Spark作业至YARN集群。 #### 四、关键参数及命令介绍 ##### 4.1 Linux常用命令 - **ssh-keygen**: 用于生成SSH密钥对,实现无密码登录。 - **chmod**: 改变文件或...
Spark-Core文档是本人经三年总结笔记汇总而来,对于自我学习Spark核心基础知识非常方便,资料中例举完善,内容丰富。具体目录如下: 目录 第一章 Spark简介与计算模型 3 ...2.2 Spark on YARN运行过程 60
│ 06-[理解]-Spark环境搭建-On-Yarn-两种模式.mp4 │ 07-[掌握]-Spark环境搭建-On-Yarn-两种模式演示.mp4 │ 09-[掌握]-Spark代码开发-准备工作.mp4 │ 10-[重点]-Spark代码开发-入门案例.mp4 ├─Spark-day02 ...
4. **Mesos模式**:Spark on Mesos模式,Mesos作为资源调度管理系统,Spark客户端直接与Mesos交互,无需额外搭建Spark集群。与Yarn类似,Mesos也可以为Spark提供资源调度。 了解Spark作业提交的工作原理对于有效...