第一步:下载spark-1.0.2-bin-hadoop2.tgz ,scala-2.10.4.tgz 版本随意,由于文件包大于10兆,上传不了,自行下载吧,下载地址:http://spark.apache.org/downloads.html,http://www.scala-lang.org/download/
下载完后解压到目录 如:/exprot/servers ,命令tar -zxvf spark-1.0.2-bin-hadoop2.tgz
第二步:配置环境变量,命令vi /etc/profile
1.配置JAVA_HOME 如:export JAVA_HOME=/export/servers/jdk1.7.0_80,jdk请自行下载
2.配置SCALA_HOME 如:export SCALA_HOME=/export/servers/scala-2.10.4
3.配置SPARK_HOME 如:export SPARK_HOME=/export/servers/spark-1.0.2-bin-hadoop2
4.配置PATH ,可以自己新增一个 如:export PATH=$PATH:$SCALA_HOME/bin:$SPARK_HOME/bin:$SPARK_HOME/sbin
第三步:配置spark conf文件,首先进入到conf目录 cd /export/servers/spark-1.0.2-bin-hadoop2/conf,
1.如果该目录下存在spark-env.sh.template这个文件 ,那么请复制一份并改名为
spark-env.sh,如果没有spark-env.sh.template,自己直接创建一个spark-env.sh
2.如果该目录下存在slaves.template这个文件,那么请复制一份并改名为slaves,如果存在slaves,那就什么不用做
3.配置spark-env.sh
export JAVA_HOME=/export/servers/jdk1.7.0_80
export SCALA_HOME=/export/servers/scala-2.10.4
export SPARK_MASTER_IP=192.168.195.159
export SPARK_WORKER_MEMORY=1g
export HADOOP_CONF_DIR=/export/servers/spark-1.0.2-bin-hadoop2/conf
SPARK_WORKER_INSTANCES=2
SPARK_WORKER_CORES=2
4.配置 slaves
192.168.158.94
OK! 一台机器配置完毕 我把这台机器(192.168.195.159)设置成master,那么接下来按照上面的步骤配置slaves吧,对应我的机器是192.168.158.94
注意:spark目录和master机器保持一致 如:/export/servers/
slaves配置完毕后,就可以运行了(2台机器最好配置下ssh免密码登陆,因为master,slaves运行的时候需要通讯,如果没有配置,会要求输入密码,网上资料很多也很简单,请自行配置)
到master机器 spark sbin目录下 cd /export/servers/spark-1.0.2-bin-hadoop2/sbin
执行./start-all.sh 即可,通过jps 查看 多出了一个Master进程, 上slaves机器查看,多出了一个worker进程
并通过链接访问UI界面:http://192.168.195.159:8080/
运行环境配置到此结束,那么运行一个worldcount程序测试下
然后打成一个jar包,并上传到master机器(slaves也行)
并新建一个test.txt,写入如下内容
my name is xx
my name is yy
接下来就是提交到spark运行了, cd /export/servers/spark-1.0.2-bin-hadoop2/bin
执行如下命令:
spark-submit --master spark://192.168.195.159:7077 --name JavaWordCount --class com.xx.spark.JavaWordCount --executor-memory 10M --total-executor-cores 1 /export/servers/runspark/spark-study-1.0-SNAPSHOT.jar /export/servers/runspark/test.txt
运行结果:
my 2
name 2
is 2
xx 1
yy 1
相关推荐
总结,Windows环境下部署Spark运行环境涉及多个步骤,包括安装Java、Scala、Spark以及Hadoop的配置。使用IntelliJ IDEA作为IDE,能有效提高开发效率。理解并熟练掌握这些步骤,对于在Windows上构建和测试Spark应用至...
"Spark完全分布式环境搭建" 本文档主要讲述了如何在 Linux 环境下搭建 Spark 完全分布式环境,包括环境变量的设置、Spark 配置文件的修改、 Slave 节点的配置以及集群的启动过程。 一、环境变量设置 在搭建 Spark...
Spark 环境搭建是指在本地机器上安装和配置 Spark 相关组件,以便进行 Spark 的学习和开发。本文将指导读者从头开始搭建 Spark 环境,包括 JDK 安装、Spark 下载、Scala 安装、Hadoop 安装和 Spark 配置等步骤。 一...
Spark开发环境搭建 Spark 是一个基于内存的分布式计算框架,由 Apache 开发,是一个开源的数据处理引擎。为了使用 Spark,需要搭建 Spark 开发环境,这篇文章将指导您如何安装 Spark、配置环境变量、使用 Local ...
在Ubuntu 16.04上搭建JDK、Hadoop和Spark环境的过程涉及到多个步骤,包括添加软件源、安装软件、配置环境变量、修改配置文件以及启动服务。这个过程中需要注意的是,每个组件的版本应该相互兼容,以确保系统的稳定...
搭建Spark环境是大数据处理领域...总之,搭建Spark环境涉及安装JDK、获取Spark源码、配置环境变量、构建项目以及配置运行环境。理解这些步骤对于理解和使用Spark至关重要,同时也为后续的学习和实践打下了坚实的基础。
在提供的部分内容中,大量提到了IntelliJ IDEA的快捷键和功能,这表明文章在介绍Spark开发环境搭建的过程中,会以IntelliJ IDEA这一开发工具作为主要的开发环境,介绍相关的配置和使用方法。这可以包括但不限于代码...
### 基于CDH 6.3.0 搭建 Hive on Spark 及相关配置和调优 #### 概述 随着大数据技术的发展,Hadoop生态系统不断成熟与完善,其中Apache Hive作为数据仓库工具,支持通过SQL语句进行查询、分析存储在Hadoop文件系统...
- 配置Spark运行环境:在IDEA中创建Spark运行配置,指定Spark的主类、相关库和Hadoop的配置文件。 通过以上步骤,你就可以在Windows 10的IDEA环境中进行Spark和Scala的本地开发了。记得在编写代码时,导入必要的...
### Spark开发及本地环境搭建指南 #### 构建本机上的Spark开发环境 在构建Spark开发环境时,首先需要确保你的计算机上安装了必要的软件,包括但不限于Linux操作系统、Java Development Kit (JDK)、Scala、Maven...
【Spark开发环境搭建在Windows10上的详细步骤】 在Windows10系统中搭建Spark开发环境,需要准备几个关键组件:JDK、Hadoop、Spark、Scala以及Maven。以下是详细的搭建过程: 1. **安装JDK** - 首先,下载与系统...