Liunx搭建Spark开发环境
1.Spark
2.Spark开发环境搭建
【1】Spark开发环境搭建需要Hadoop,Java,Scala环境的支持,由于本机已经默认安装Java 和Hadoop开发环境,这里也不再赘述
【2】搭建Scala开发环境和SBT开发环境:
(2.1)下载Scala和SBT安装包:
Scala官网:http://www.scala-lang.org/
(2.2)环境安装Scala和Sbt:
Scala安装:
利用Xftp5工具把[scala-2.12.5.tgz]上传到Liunx服务器:/usr/local/scala
利用Xshell5工具登录到服务器,并进入到/usr/local/scala目录解压Scala,输入:tar -xvf scala-2.12.5.tgz
Last login: Sat Apr 7 07:22:36 2018 from 192.168.3.4
[root@marklin ~]# cd /usr/local/scala
[root@marklin scala]# ll
total 19832
-rw-r--r--. 1 root root 20303983 Apr 7 10:10 scala-2.12.5.tgz
[root@marklin scala]# tar -xvf scala-2.12.5.tgz
配置环境变量,输入:vim /etc/profile
#Setting SCALA_HOME PATH
export SCALA_HOME=/usr/local/scala/scala-2.12.5
export PATH=${PATH}:${SCALA_HOME}/bin
输入:source /etc/profile使得环境变量生效
【3】官网下载【http://spark.apache.org/】安装包:spark-2.3.0-bin-hadoop2.7.tgz
【4】把安装包:spark-2.3.0-bin-hadoop2.7.tgz上传到:/usr/local/spark
【5】进入到:/usr/local/spark,解压spark-2.3.0-bin-hadoop2.7.tgz,输入:tar -xvf spark-2.3.0-bin-hadoop2.7.tgz
[root@marklin scala]# cd /usr/local/spark
[root@marklin spark]# ll
total 220832
-rw-r--r--. 1 root root 226128401 Apr 7 10:38 spark-2.3.0-bin-hadoop2.7.tgz
[root@marklin spark]# tar -xvf spark-2.3.0-bin-hadoop2.7.tgz
【6】配置环境变量:vim /etc/profile
#Setting SPARK_HOME PATH
export SPARK_HOME=/usr/local/spark/spark-2.3.0
export PATH=${PATH}:${SPARK_HOME}/bin
输入:source /etc/profile使得环境变量生效
【7】修改配置文件:
进入到:cd /usr/local/spark/spark-2.3.0/conf,修改Spark conf目录下的slaves文件,
修改前先备份并重命名cp slaves.template slaves,将slaves文件中的localhost修改为主机名,我的是marklin.com:
[root@marklin conf]# cp slaves.template slaves
[root@marklin conf]# ll
total 40
-rw-r--r--. 1 1311767953 1876110778 996 Feb 22 14:42 docker.properties.template
-rw-r--r--. 1 1311767953 1876110778 1105 Feb 22 14:42 fairscheduler.xml.template
-rw-r--r--. 1 1311767953 1876110778 2025 Feb 22 14:42 log4j.properties.template
-rw-r--r--. 1 1311767953 1876110778 7801 Feb 22 14:42 metrics.properties.template
-rw-r--r--. 1 root root 865 Apr 7 10:54 slaves
-rw-r--r--. 1 1311767953 1876110778 865 Feb 22 14:42 slaves.template
-rw-r--r--. 1 1311767953 1876110778 1292 Feb 22 14:42 spark-defaults.conf.template
-rwxr-xr-x. 1 1311767953 1876110778 4221 Feb 22 14:42 spark-env.sh.template
[root@marklin conf]# chmod +x slaves
[root@marklin conf]# ll
total 40
-rw-r--r--. 1 1311767953 1876110778 996 Feb 22 14:42 docker.properties.template
-rw-r--r--. 1 1311767953 1876110778 1105 Feb 22 14:42 fairscheduler.xml.template
-rw-r--r--. 1 1311767953 1876110778 2025 Feb 22 14:42 log4j.properties.template
-rw-r--r--. 1 1311767953 1876110778 7801 Feb 22 14:42 metrics.properties.template
-rwxr-xr-x. 1 root root 865 Apr 7 10:54 slaves
-rw-r--r--. 1 1311767953 1876110778 865 Feb 22 14:42 slaves.template
-rw-r--r--. 1 1311767953 1876110778 1292 Feb 22 14:42 spark-defaults.conf.template
-rwxr-xr-x. 1 1311767953 1876110778 4221 Feb 22 14:42 spark-env.sh.template
[root@marklin conf]# vim slaves
[root@marklin conf]#
修改spark-env.sh文件:修改前先备份并重命名cp spark-env.sh.tempalte spark-env.sh
[root@marklin conf]# cp spark-env.sh.template spark-env.sh
[root@marklin conf]#
然后打开spark-env.sh文件,追加内容:
export JAVA_HOME=/usr/local/java/jdk1.8.0_162
export HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.5
export SCALA_HOME=/usr/local/scala/scala-2.12.5
export SPARK_HOME=/usr/local/spark/spark-2.3.0
export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
export YARN_CONF_DIR=${HADOOP_HOME}/etc/hadoop
export SPARK_LOCAL_IP=marklin.com
export SPARK_MASTER_HOST=marklin.com
export SPARK_WORKER_MEMORY=512M
export SPARK_CONF_DIR=${SPARK_HOME}/conf
export SPARK_LOG_DIR=/usr/local/spark/repository/logs
export SPARK_PID_DIR=/usr/local/spark/repository/pids
export SPARK_LIBARY_PATH=.:${JAVA_HOME}/lib:${JAVA_HOME}/jre/lib:${HADOOP_HOME}/lib/native
export SPARK_WORKER_DIR=/usr/local/spark/repository/worker
export SPARK_MASTER_PORT=8188
export SPARK_MASTER_WEBUI_PORT=8180
export SPARK_WORKER_PORT=8181
export SPARK_WORKER_WEBUI_PORT=8182
开放端口:
[root@marklin ~]# systemctl start firewalld.service
[root@marklin ~]# firewall-cmd --zone=public --add-port=8180/tcp --permanent
success
[root@marklin ~]# firewall-cmd --zone=public --add-port=8188/tcp --permanent
success
[root@marklin ~]# firewall-cmd --zone=public --add-port=8181/tcp --permanent
success
[root@marklin ~]# firewall-cmd --zone=public --add-port=8182/tcp --permanent
success
[root@marklin ~]# firewall-cmd --reload
success
[root@marklin ~]# systemctl stop firewalld.service
[root@marklin ~]#
【8】启动测试
进入到:cd /usr/local/spark/spark-2.3.0/sbin ,输入:start-master.sh
[root@marklin sbin]# start-master.sh
starting org.apache.spark.deploy.master.Master, logging to /usr/local/spark/repository/logs/spark-root-org.apache.spark.deploy.master.Master-1-marklin.com.out
输入:http://192.168.3.4:8180/#running-app
输入:cd bin ,输入:spark-shell
[root@marklin sbin]# cd ..
[root@marklin spark-2.3.0]# cd bin
[root@marklin bin]# spark-shell
2018-04-07 11:43:08 WARN NativeCodeLoader:62 - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Spark context Web UI available at http://marklin.com:4040
Spark context available as 'sc' (master = local[*], app id = local-1523115824100).
Spark session available as 'spark'.
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/___/ .__/\_,_/_/ /_/\_\ version 2.3.0
/_/
Using Scala version 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_162)
Type in expressions to have them evaluated.
Type :help for more information.
scala>
相关推荐
在构建Spark开发环境时,首先需要确保你的计算机上安装了必要的软件,包括但不限于Linux操作系统、Java Development Kit (JDK)、Scala、Maven以及Git等工具。 **环境准备** - **操作系统:** 推荐使用CentOS、Red ...
在Linux环境下搭建Spark开发环境,需要经历一系列的步骤,包括JDK、Scala、Hadoop的安装配置,以及Spark的下载、配置和启动。以下将详细介绍这个过程。 **一、JDK环境的安装与配置** 1. **下载JDK**:首先,你需要...
本文档提供了详细的步骤来指导初学者搭建Spark集群及其开发环境。首先需要准备的软件包括: - **VirtualBox-5.1**:虚拟机软件,用于安装CentOS操作系统。 - **CentOS7**:操作系统,作为集群节点的操作系统。 - **...
在正式开始搭建Spark开发环境之前,我们需要先准备以下几个必要的软件和工具: 1. **JDK (Java Development Kit):** Spark 要求 JDK 版本为 7 或 8。可以在官方提供的下载地址获取。 2. **Scala:** 需要安装 ...
首先,从标题我们可以得知,本文将介绍如何在Linux操作系统上搭建Kafka开发环境。Kafka是由LinkedIn公司开发,是一个高性能分布式消息系统。它使用Scala编写,并且支持分布式数据的发布和订阅模式。其特点包括高吞吐...
本部分将介绍如何在Windows和Linux环境下搭建Spark开发环境。这里我们以Linux环境下的ScalaIDE为例。 ##### 配置IDEA 1. **安装JDK**:如前所述,确保已经正确安装并设置了JAVA_HOME环境变量。 2. **安装Maven**:...
一, PyCharm搭建Spark开发环境 Windows7, Java1.8.0_74, Scala 2.12.6, Spark 2.2.1, Hadoop2.7.6 通常情况下,Spark开发是基于Linux集群的,但这里作为初学者并且囊中羞涩,还是在windows环境下先学习吧。 参照这个...
"基于Linux平台下的Hadoop和Spark集群搭建研究" 本文主要研究了基于Linux平台下的Hadoop和Spark集群搭建,旨在提高计算速率和数据性能。Hadoop是最流行的处理平台,主要解决了数据存储和分布式计算的问题,而Spark...
在大数据开发领域,Linux操作系统是首选的开发环境,因为其稳定性、开源特性和对高性能计算的支持。本教程将详述如何在虚拟机软件VMware上搭建一个基于CentOS的Linux环境,以及安装JDK 1.8,为大数据开发提供基础。 ...
一、Eclipse 开发环境搭建 1. 解压 Eclipse 到 Linux 相关目录 在 Linux 中解压 Eclipse 安装包,并将其移到相关目录下。 2. 启动 Eclipse 在 Linux 中启动 Eclipse,确保在 CentOS 6.5 上正确设置。 二、Spark ...
### Linux环境搭建详解 #### 一、环境准备与基础配置 **Linux环境搭建**主要涉及在虚拟机中安装和...通过上述步骤,您可以在Ubuntu虚拟机上成功搭建一个完整的Linux开发环境,并能够顺利地进行后续的软件开发工作。
在Linux系统中搭建Spark的Python编程环境,首先要确保系统中已经安装了Java 8或更高版本,因为Spark运行依赖Java环境。接下来,你需要从Spark的官方网站下载最新版本的Spark(例如2.4.2),并将下载的tar.gz文件解压...
### Spark开发及本地环境搭建指南 #### 一、构建本机开发环境 为了高效地进行Spark的开发工作,首先需要构建一个稳定且高效的本地开发环境。以下是一些关键步骤: 1. **操作系统的选择**:推荐使用Linux操作系统...
### Hadoop、Spark与Scala环境搭建详解 #### 一、环境概述 本文旨在详细介绍如何搭建一个包含Hadoop、Spark及Scala的本地测试环境。通过本教程,读者将能够按照步骤在自己的计算机上设置一个用于大数据处理的学习...
1. 实验描述:本实验旨在搭建一个基于Standalone模式的Spark集群,包括解压安装包、配置环境变量、启动集群及验证安装效果。 2. 实验环境:使用3台虚拟机,操作系统为Centos 7.5,Hadoop版本为2.7.3,Spark版本为...
在构建大数据处理环境时,Hadoop、HBase、Spark和Hive是四个核心组件,它们协同工作以实现高效的数据存储、处理和分析。本教程将详细介绍如何在Ubuntu系统上搭建这些组件的集群。 1. **Hadoop**:Hadoop是Apache...
Spark开发压缩包是专为Linux系统设计的,用于在该操作系统上搭建Spark开发环境。Spark是一种流行的开源大数据处理框架,以其高效、灵活和易用性而受到广泛关注。它主要用于批处理、交互式查询(通过Spark SQL)、...