Spark On Yarn集群环境搭建 -

kavy

浏览: 895178 次
性别:
来自: 上海

最近访客更多访客>>

15286802013

一往无前bhz

林祥纤

a13143457381

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Spark On Yarn集群环境搭建

博客分类：

大数据

http://blog.csdn.net/u014039577/article/details/50829910

一、Scala安装

下载scala安装包，地址：http://www.scala-lang.org/download/
配置环境变量
下载完成后，解压到指定的目录下，在/etc/profile文件中配置环境变量：
```
export SCALA_HOME=/usr/local/jiang/scala-2.10.6
export PATH=$PATH:$SCALA_HOME/bin
```
- 1
- 2
- 1
- 2

验证scala的安装

[root@logsrv03 etc]# scala -version
Scala code runner version 2.10.6 -- Copyright 2002-2013, LAMP/EPFL

二、安装Spark

下载spark安装包，地址：http://spark.apache.org/downloads.html
下载完成后，拷贝到指定的目录下：/usr/local/jiang/，然后解压：
```
tar -zxvf spark-1.6.0-bin-hadoop2.6.tgz 
```
- 1
- 1

解压后在配置中添加Java环境变量、scala环境变量、Hadoop环境变量等conf/spark-env.sh



# set scala environment

export SCALA_HOME=/usr/local/jiang/scala-2.10.6


# set java environment

export JAVA_HOME=/usr/local/jdk1.7.0_71


# set hadoop

export HADOOP_HOME=/usr/local/jiang/hadoop-2.7.1
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop


# set spark

SPARK_MASTER_IP=logsrv03
SPARK_LOCAL_DIRS=/usr/local/jiang/spark-1.6.0
SPARK_DRIVER_MEMORY=1G

配置从机conf/slaves

logsrv02
logsrv04

当然这里配置的是主机名，所以在/etc/hosts中一定要添加主机名和ip的映射，不然没法识别的：

127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6
172.17.6.141 logsrv01
172.17.6.142 logsrv02
172.17.6.149 logsrv04
172.17.6.148 logsrv03
172.17.6.150 logsrv05
172.17.6.159 logsrv08
172.17.6.160 logsrv09
172.17.6.161 logsrv10
172.17.6.164 logtest01
172.17.6.165 logtest02
172.17.6.166 logtest03
172.30.2.193 devops172302193
172.30.2.194 devops172302194
172.30.2.195 devops172302195

将配置好的spark-1.6.0-bin-hadoop2.6文件远程拷贝到相对应的从机中：

[root@logsrv03 jiang]# scp -r spark-1.6.0-bin-hadoop2.6 root@logsrv02:/usr/local/jiang/
[root@logsrv03 jiang]# scp -r spark-1.6.0-bin-hadoop2.6 root@logsrv04:/usr/local/jiang/

启动集群

[root@logsrv03 spark-1.6.0-bin-hadoop2.6]# sbin/start-all.sh

启动完成后，查看主从机的进程：
主机：

[root@logsrv03 spark-1.6.0-bin-hadoop2.6]# jps 
25325 NameNode
23973 Master
17643 ResourceManager
25523 SecondaryNameNode
28839 Jps

从机：

[root@logsrv02 spark-1.6.0-bin-hadoop2.6]# jps
744 Worker
4406 Jps
2057 DataNode
2170 NodeManager

三、安装完成后，可以查看spark的UI：
这里写图片描述
运行wordcout例子：
命令：

 ./bin/spark-submit \
 --name JavaKafkaWordCount \
 --master spark://logsrv03:7077 \
 --executor-memory 1G \
 --class examples.streaming.JavaKafkaWordCount \
 log_spark-0.0.1-SNAPSHOT.jar 172.17.6.142:2181,172.17.6.148:2181,172.17.6.149:2181 11 log-topic 5

运行后spark的UI：
这里写图片描述

分享到：

2016-05-06 14:24
浏览 1140
评论(0)
分类:企业架构
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Spark On Yarn集群环境搭建

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Spark On Yarn集群环境搭建

评论

发表评论

相关推荐

RocksDB数据库简介及使用分享

你用过Excel，却不知还有一款神器“FineReport”

Redis底部的几种存储结构（sds、dict、ziplist、intset、skiplist）

Structured Streaming + Kafka 集成 + Redis管理Offset（Kafka broker version 0.10.0 or h

LibSVM文件转换为csv格式

生成libSVM的数据格式及使用方法总结

hadoop、hbase、spark环境变量配置

本地文件上传hadoop再导入hbase

spark 将DataFrame所有的列类型改为double

spark– 如何定义DataFrame的分区？

Spark 创建RDD、DataFrame各种情况的默认分区数

spark的JDBC连接池（Scala版）

Spark中foreachRDD、foreachPartition和foreach

Spark读写Phoenix

HBase读写的几种方式（三）flink篇

HBase读写的几种方式（一）java篇

HBase读写的几种方式（二）spark篇

Hive教程

StructuredStreaming消费kafka的数据案例

理解Spark中Job-Stage-Task之间的关系

最近访客更多访客>>