`
kavy
  • 浏览: 888547 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

Spark On Yarn集群环境搭建

 
阅读更多

http://blog.csdn.net/u014039577/article/details/50829910

 

一、Scala安装

  1. 下载scala安装包,地址:http://www.scala-lang.org/download/
  2. 配置环境变量 
    下载完成后,解压到指定的目录下,在/etc/profile文件中配置环境变量:

    export SCALA_HOME=/usr/local/jiang/scala-2.10.6
    export PATH=$PATH:$SCALA_HOME/bin
    • 1
    • 2
    • 1
    • 2
  3. 验证scala的安装

    [root@logsrv03 etc]# scala -version
    Scala code runner version 2.10.6 -- Copyright 2002-2013, LAMP/EPFL
    • 1
    • 2
    • 1
    • 2

二、安装Spark

  1. 下载spark安装包,地址:http://spark.apache.org/downloads.html 
    这里写图片描述
  2. 下载完成后,拷贝到指定的目录下:/usr/local/jiang/,然后解压:

    tar -zxvf spark-1.6.0-bin-hadoop2.6.tgz 
    • 1
    • 1
  3. 解压后在配置中添加Java环境变量、scala环境变量、Hadoop环境变量等conf/spark-env.sh

    
    
    # set scala environment
    
    export SCALA_HOME=/usr/local/jiang/scala-2.10.6
    
    
    # set java environment
    
    export JAVA_HOME=/usr/local/jdk1.7.0_71
    
    
    # set hadoop
    
    export HADOOP_HOME=/usr/local/jiang/hadoop-2.7.1
    export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
    
    
    # set spark
    
    SPARK_MASTER_IP=logsrv03
    SPARK_LOCAL_DIRS=/usr/local/jiang/spark-1.6.0
    SPARK_DRIVER_MEMORY=1G
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
  4. 配置从机conf/slaves

    logsrv02
    logsrv04
    • 1
    • 2
    • 1
    • 2

    当然这里配置的是主机名,所以在/etc/hosts中一定要添加主机名和ip的映射,不然没法识别的:

    127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
    ::1         localhost localhost.localdomain localhost6 localhost6.localdomain6
    172.17.6.141 logsrv01
    172.17.6.142 logsrv02
    172.17.6.149 logsrv04
    172.17.6.148 logsrv03
    172.17.6.150 logsrv05
    172.17.6.159 logsrv08
    172.17.6.160 logsrv09
    172.17.6.161 logsrv10
    172.17.6.164 logtest01
    172.17.6.165 logtest02
    172.17.6.166 logtest03
    172.30.2.193 devops172302193
    172.30.2.194 devops172302194
    172.30.2.195 devops172302195
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
  5. 将配置好的spark-1.6.0-bin-hadoop2.6文件远程拷贝到相对应的从机中:

    [root@logsrv03 jiang]# scp -r spark-1.6.0-bin-hadoop2.6 root@logsrv02:/usr/local/jiang/
    [root@logsrv03 jiang]# scp -r spark-1.6.0-bin-hadoop2.6 root@logsrv04:/usr/local/jiang/
    • 1
    • 2
    • 1
    • 2
  6. 启动集群

    [root@logsrv03 spark-1.6.0-bin-hadoop2.6]# sbin/start-all.sh 
    • 1
    • 1
  7. 启动完成后,查看主从机的进程: 
    主机:

    [root@logsrv03 spark-1.6.0-bin-hadoop2.6]# jps 
    25325 NameNode
    23973 Master
    17643 ResourceManager
    25523 SecondaryNameNode
    28839 Jps
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6

    从机:

    [root@logsrv02 spark-1.6.0-bin-hadoop2.6]# jps
    744 Worker
    4406 Jps
    2057 DataNode
    2170 NodeManager
    • 1
    • 2
    • 3
    • 4
    • 5
    • 1
    • 2
    • 3
    • 4
    • 5

    三、安装完成后,可以查看spark的UI: 
    这里写图片描述
    运行wordcout例子: 
    命令:

 ./bin/spark-submit \
 --name JavaKafkaWordCount \
 --master spark://logsrv03:7077 \
 --executor-memory 1G \
 --class examples.streaming.JavaKafkaWordCount \
 log_spark-0.0.1-SNAPSHOT.jar 172.17.6.142:2181,172.17.6.148:2181,172.17.6.149:2181 11 log-topic 5
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

运行后spark的UI: 
这里写图片描述
这里写图片描述

 
 
分享到:
评论

相关推荐

    Sparkonyarn集群搭建详细过程.pdf

    Spark on YARN 集群搭建详细过程 _title_:Spark on YARN 集群搭建详细过程 _description_:本文详细介绍了 Spark on YARN 集群搭建的过程,包括配置主机 hosts 文件、免密码登录、安装 Java、安装 Scala 等步骤。...

    Spark on Yarn集群搭建手册

    Spark on Yan集群搭建的详细过程,减少集群搭建的时间

    Spark实验:On Yarn模式安装部署(带答案)1

    总结来说,Spark on Yarn的安装部署涉及到多个环节,包括环境配置、资源管理器的设置、集群启动以及应用的提交和监控。每个步骤都需要仔细操作,以确保Spark能够有效地在Hadoop集群上运行。通过这个实验,不仅可以...

    Sparkonyarn集群搭建详细过程.docx

    Spark on YARN 集群搭建是一个复杂的过程,涉及到多台服务器的配置和软件的安装。以下是详细步骤和相关知识点: 1. **主机配置与网络通信** - `/etc/hosts` 文件配置至关重要,它用于解析主机名到IP地址的映射。...

    Spark on Yarn模式部署.docx

    Spark on Yarn 模式部署是指将 Spark 应用程序部署在 Yarn 集群上,使得 Spark 能够使用 Yarn 的资源管理和调度功能。这种部署方式可以提高 Spark 应用程序的性能和可靠性。 描述解释 本文档是 Spark on Yarn 模式...

    spark yarn模式的搭建.docx

    Spark On Yarn 是一个在 Apache Hadoop YARN(Yet Another Resource Negotiator)资源管理器上运行 Apache Spark 应用程序的框架。这种模式允许 Spark 利用 Hadoop 的集群资源管理和调度能力,使得 Spark 能够更好地...

    使用docker快速搭建Spark集群的方法教程

    通过使用 Docker,可以快速的在本地搭建一套 Spark 环境,方便大家开发 Spark 应用,或者扩展到生产环境。下面这篇文章主要给大家介绍了使用docker快速搭建Spark集群的方法教程,需要的朋友可以参考借鉴,下面来一起...

    Spark环境搭建——on yarn集群模式

    本篇博客,Alice为大家带来关于如何搭建Spark的on yarn集群模式的教程。 文章目录准备工作cluster模式client模式[了解]两种模式的区别 官方文档: http://spark.apache.org/docs/latest/running-on-yarn.html 准备...

    从0开始搭建Spark集群

    CentOS集群搭建、Hadoop集群搭建 配置免密 连接外网,Hive安装 Zookeeper搭建 Kafka scala flume安装 Spark搭建及启动

    基于CDH 6.3.0 搭建 Hive on Spark 及相关配置和调优

    ### 基于CDH 6.3.0 搭建 Hive on Spark 及相关配置和调优 #### 概述 随着大数据技术的发展,Hadoop生态系统不断成熟与完善,其中Apache Hive作为数据仓库工具,支持通过SQL语句进行查询、分析存储在Hadoop文件系统...

    Hadoop+Spark本地集群环境搭建

    本文主要是学习大数据的常用工具框架,搭建Hadoop3.4.0 + Spark3.5.1 on Yarn的集群环境,本集群用到4台虚拟机(物理机也可以),1主3从。 实验环境:VMWare WorkStation + CentOS8.5 + JDK17 + Hadoop3.4.0 + Spark...

    java提交spark任务到yarn平台的配置讲解共9页.pdf.zip

    Java提交Spark任务到YARN...以上就是Java提交Spark任务到YARN平台的核心知识点,涵盖了从环境搭建、代码编写、任务提交到资源管理和性能优化的全过程。掌握这些要点,可以有效地在大规模集群上运行和管理Spark作业。

    基于Spark_on_Yarn的淘宝数据挖掘平台.pdf

    到2013年8月已经成功搭建了200台Yarn集群,运行Spark 0.8版本。 - 目前,阿里云梯1已经达到了5000*2的规模,使用的是Yarn 0.23.7版本,充分展示了Spark_on_Yarn在处理大规模数据集方面的强大能力。 #### 四、基于...

    spark集群部署.docx

    这样就完成了基本的Spark on YARN集群的部署。 在实际生产环境中,还需要考虑其他的配置优化,如调整Executor的数量、内存分配、CPU核心数等,以确保Spark作业的高效运行。此外,监控和日志管理也是集群运维的重要...

    巴豆大数据团队讲师课件Spark.pdf

    在安装方面,该文档介绍了如何在Yarn集群上搭建Spark,包括下载Spark安装包、配置spark-env.sh、slaves文件等步骤,并分发到slave1/2等节点上,确保了分布式集群环境下的配置过程。 启动和验证是检查Spark是否正确...

    Spark2.3.0-Hadoop2.7.4集群部署

    - **提交Spark作业**: 使用`spark-submit`命令提交Spark作业至YARN集群。 #### 四、关键参数及命令介绍 ##### 4.1 Linux常用命令 - **ssh-keygen**: 用于生成SSH密钥对,实现无密码登录。 - **chmod**: 改变文件或...

    Spark-Core学习知识笔记整理

    Spark-Core文档是本人经三年总结笔记汇总而来,对于自我学习Spark核心基础知识非常方便,资料中例举完善,内容丰富。具体目录如下: 目录 第一章 Spark简介与计算模型 3 ...2.2 Spark on YARN运行过程 60

    spark3.0入门到精通

    │ 06-[理解]-Spark环境搭建-On-Yarn-两种模式.mp4 │ 07-[掌握]-Spark环境搭建-On-Yarn-两种模式演示.mp4 │ 09-[掌握]-Spark代码开发-准备工作.mp4 │ 10-[重点]-Spark代码开发-入门案例.mp4 ├─Spark-day02 ...

    spark基础,关于spark的安装和几种模式的部署

    4. **Mesos模式**:Spark on Mesos模式,Mesos作为资源调度管理系统,Spark客户端直接与Mesos交互,无需额外搭建Spark集群。与Yarn类似,Mesos也可以为Spark提供资源调度。 了解Spark作业提交的工作原理对于有效...

Global site tag (gtag.js) - Google Analytics