`

Liunx搭建Spark开发环境

阅读更多
Liunx搭建Spark开发环境
1.Spark 
2.Spark开发环境搭建
【1】Spark开发环境搭建需要Hadoop,Java,Scala环境的支持,由于本机已经默认安装Java 和Hadoop开发环境,这里也不再赘述
【2】搭建Scala开发环境和SBT开发环境:
       (2.1)下载Scala和SBT安装包:
       Scala官网:http://www.scala-lang.org/
 
 
(2.2)环境安装Scala和Sbt:
Scala安装:
利用Xftp5工具把[scala-2.12.5.tgz]上传到Liunx服务器:/usr/local/scala
利用Xshell5工具登录到服务器,并进入到/usr/local/scala目录解压Scala,输入:tar -xvf  scala-2.12.5.tgz
Last login: Sat Apr  7 07:22:36 2018 from 192.168.3.4
[root@marklin ~]# cd /usr/local/scala
[root@marklin scala]# ll
total 19832
-rw-r--r--. 1 root root 20303983 Apr  7 10:10 scala-2.12.5.tgz
[root@marklin scala]# tar -xvf  scala-2.12.5.tgz
 
 
配置环境变量,输入:vim  /etc/profile
#Setting SCALA_HOME PATH
export SCALA_HOME=/usr/local/scala/scala-2.12.5
export PATH=${PATH}:${SCALA_HOME}/bin
 
输入:source /etc/profile使得环境变量生效
 
【3】官网下载【http://spark.apache.org/】安装包:spark-2.3.0-bin-hadoop2.7.tgz
 
【4】把安装包:spark-2.3.0-bin-hadoop2.7.tgz上传到:/usr/local/spark
 
【5】进入到:/usr/local/spark,解压spark-2.3.0-bin-hadoop2.7.tgz,输入:tar -xvf  spark-2.3.0-bin-hadoop2.7.tgz
[root@marklin scala]# cd /usr/local/spark
[root@marklin spark]# ll
total 220832
-rw-r--r--. 1 root root 226128401 Apr  7 10:38 spark-2.3.0-bin-hadoop2.7.tgz
[root@marklin spark]# tar -xvf  spark-2.3.0-bin-hadoop2.7.tgz
 
 
【6】配置环境变量:vim  /etc/profile
#Setting SPARK_HOME PATH
export SPARK_HOME=/usr/local/spark/spark-2.3.0
export PATH=${PATH}:${SPARK_HOME}/bin
 
输入:source /etc/profile使得环境变量生效
 
【7】修改配置文件:
  进入到:cd /usr/local/spark/spark-2.3.0/conf,修改Spark conf目录下的slaves文件,
 修改前先备份并重命名cp slaves.template slaves,将slaves文件中的localhost修改为主机名,我的是marklin.com:
[root@marklin conf]# cp slaves.template slaves
[root@marklin conf]# ll
total 40
-rw-r--r--. 1 1311767953 1876110778  996 Feb 22 14:42 docker.properties.template
-rw-r--r--. 1 1311767953 1876110778 1105 Feb 22 14:42 fairscheduler.xml.template
-rw-r--r--. 1 1311767953 1876110778 2025 Feb 22 14:42 log4j.properties.template
-rw-r--r--. 1 1311767953 1876110778 7801 Feb 22 14:42 metrics.properties.template
-rw-r--r--. 1 root       root        865 Apr  7 10:54 slaves
-rw-r--r--. 1 1311767953 1876110778  865 Feb 22 14:42 slaves.template
-rw-r--r--. 1 1311767953 1876110778 1292 Feb 22 14:42 spark-defaults.conf.template
-rwxr-xr-x. 1 1311767953 1876110778 4221 Feb 22 14:42 spark-env.sh.template
[root@marklin conf]# chmod +x slaves
[root@marklin conf]# ll
total 40
-rw-r--r--. 1 1311767953 1876110778  996 Feb 22 14:42 docker.properties.template
-rw-r--r--. 1 1311767953 1876110778 1105 Feb 22 14:42 fairscheduler.xml.template
-rw-r--r--. 1 1311767953 1876110778 2025 Feb 22 14:42 log4j.properties.template
-rw-r--r--. 1 1311767953 1876110778 7801 Feb 22 14:42 metrics.properties.template
-rwxr-xr-x. 1 root       root        865 Apr  7 10:54 slaves
-rw-r--r--. 1 1311767953 1876110778  865 Feb 22 14:42 slaves.template
-rw-r--r--. 1 1311767953 1876110778 1292 Feb 22 14:42 spark-defaults.conf.template
-rwxr-xr-x. 1 1311767953 1876110778 4221 Feb 22 14:42 spark-env.sh.template
[root@marklin conf]# vim slaves
[root@marklin conf]#
 
 
修改spark-env.sh文件:修改前先备份并重命名cp spark-env.sh.tempalte spark-env.sh
[root@marklin conf]# cp spark-env.sh.template spark-env.sh
[root@marklin conf]#
 
然后打开spark-env.sh文件,追加内容:
export JAVA_HOME=/usr/local/java/jdk1.8.0_162
export HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.5
export SCALA_HOME=/usr/local/scala/scala-2.12.5
export SPARK_HOME=/usr/local/spark/spark-2.3.0
export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
export YARN_CONF_DIR=${HADOOP_HOME}/etc/hadoop
export SPARK_LOCAL_IP=marklin.com
export SPARK_MASTER_HOST=marklin.com
export SPARK_WORKER_MEMORY=512M
export SPARK_CONF_DIR=${SPARK_HOME}/conf
export SPARK_LOG_DIR=/usr/local/spark/repository/logs
export SPARK_PID_DIR=/usr/local/spark/repository/pids
export SPARK_LIBARY_PATH=.:${JAVA_HOME}/lib:${JAVA_HOME}/jre/lib:${HADOOP_HOME}/lib/native
export SPARK_WORKER_DIR=/usr/local/spark/repository/worker
export SPARK_MASTER_PORT=8188
export SPARK_MASTER_WEBUI_PORT=8180
export SPARK_WORKER_PORT=8181
export SPARK_WORKER_WEBUI_PORT=8182
 
开放端口:
[root@marklin ~]# systemctl start firewalld.service
[root@marklin ~]# firewall-cmd --zone=public --add-port=8180/tcp --permanent
success
[root@marklin ~]# firewall-cmd --zone=public --add-port=8188/tcp --permanent
success
[root@marklin ~]# firewall-cmd --zone=public --add-port=8181/tcp --permanent
success
[root@marklin ~]# firewall-cmd --zone=public --add-port=8182/tcp --permanent
success
[root@marklin ~]# firewall-cmd --reload
success
[root@marklin ~]# systemctl stop firewalld.service
[root@marklin ~]#
 
 
【8】启动测试
进入到:cd /usr/local/spark/spark-2.3.0/sbin ,输入:start-master.sh
[root@marklin sbin]# start-master.sh
starting org.apache.spark.deploy.master.Master, logging to /usr/local/spark/repository/logs/spark-root-org.apache.spark.deploy.master.Master-1-marklin.com.out
 
输入:http://192.168.3.4:8180/#running-app
 
输入:cd bin ,输入:spark-shell
[root@marklin sbin]# cd ..
[root@marklin spark-2.3.0]# cd bin
[root@marklin bin]# spark-shell
2018-04-07 11:43:08 WARN  NativeCodeLoader:62 - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Spark context Web UI available at http://marklin.com:4040
Spark context available as 'sc' (master = local[*], app id = local-1523115824100).
Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 2.3.0
      /_/
         
Using Scala version 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_162)
Type in expressions to have them evaluated.
Type :help for more information.
 
scala>
 
 
分享到:
评论

相关推荐

    Spark开发及本地环境搭建指南

    在构建Spark开发环境时,首先需要确保你的计算机上安装了必要的软件,包括但不限于Linux操作系统、Java Development Kit (JDK)、Scala、Maven以及Git等工具。 **环境准备** - **操作系统:** 推荐使用CentOS、Red ...

    Linux下搭建spark.docx

    在Linux环境下搭建Spark开发环境,需要经历一系列的步骤,包括JDK、Scala、Hadoop的安装配置,以及Spark的下载、配置和启动。以下将详细介绍这个过程。 **一、JDK环境的安装与配置** 1. **下载JDK**:首先,你需要...

    Spark集群及开发环境搭建(完整版)

    本文档提供了详细的步骤来指导初学者搭建Spark集群及其开发环境。首先需要准备的软件包括: - **VirtualBox-5.1**:虚拟机软件,用于安装CentOS操作系统。 - **CentOS7**:操作系统,作为集群节点的操作系统。 - **...

    Spark开发环境搭建

    在正式开始搭建Spark开发环境之前,我们需要先准备以下几个必要的软件和工具: 1. **JDK (Java Development Kit):** Spark 要求 JDK 版本为 7 或 8。可以在官方提供的下载地址获取。 2. **Scala:** 需要安装 ...

    Linux搭建Kafka开发环境

    首先,从标题我们可以得知,本文将介绍如何在Linux操作系统上搭建Kafka开发环境。Kafka是由LinkedIn公司开发,是一个高性能分布式消息系统。它使用Scala编写,并且支持分布式数据的发布和订阅模式。其特点包括高吞吐...

    spark安装

    本部分将介绍如何在Windows和Linux环境下搭建Spark开发环境。这里我们以Linux环境下的ScalaIDE为例。 ##### 配置IDEA 1. **安装JDK**:如前所述,确保已经正确安装并设置了JAVA_HOME环境变量。 2. **安装Maven**:...

    PyCharm搭建Spark开发环境实现第一个pyspark程序

    一, PyCharm搭建Spark开发环境 Windows7, Java1.8.0_74, Scala 2.12.6, Spark 2.2.1, Hadoop2.7.6 通常情况下,Spark开发是基于Linux集群的,但这里作为初学者并且囊中羞涩,还是在windows环境下先学习吧。 参照这个...

    基于Linux平台下的Hadoop和Spark集群搭建研究.pdf

    "基于Linux平台下的Hadoop和Spark集群搭建研究" 本文主要研究了基于Linux平台下的Hadoop和Spark集群搭建,旨在提高计算速率和数据性能。Hadoop是最流行的处理平台,主要解决了数据存储和分布式计算的问题,而Spark...

    大数据开发Linux环境搭建

    在大数据开发领域,Linux操作系统是首选的开发环境,因为其稳定性、开源特性和对高性能计算的支持。本教程将详述如何在虚拟机软件VMware上搭建一个基于CentOS的Linux环境,以及安装JDK 1.8,为大数据开发提供基础。 ...

    eclise开发spark集成环境.doc

    一、Eclipse 开发环境搭建 1. 解压 Eclipse 到 Linux 相关目录 在 Linux 中解压 Eclipse 安装包,并将其移到相关目录下。 2. 启动 Eclipse 在 Linux 中启动 Eclipse,确保在 CentOS 6.5 上正确设置。 二、Spark ...

    linux环境搭建

    ### Linux环境搭建详解 #### 一、环境准备与基础配置 **Linux环境搭建**主要涉及在虚拟机中安装和...通过上述步骤,您可以在Ubuntu虚拟机上成功搭建一个完整的Linux开发环境,并能够顺利地进行后续的软件开发工作。

    Linux下搭建Spark 的 Python 编程环境的方法

    在Linux系统中搭建Spark的Python编程环境,首先要确保系统中已经安装了Java 8或更高版本,因为Spark运行依赖Java环境。接下来,你需要从Spark的官方网站下载最新版本的Spark(例如2.4.2),并将下载的tar.gz文件解压...

    Spark开发及本地环境搭建指南.pdf

    ### Spark开发及本地环境搭建指南 #### 一、构建本机开发环境 为了高效地进行Spark的开发工作,首先需要构建一个稳定且高效的本地开发环境。以下是一些关键步骤: 1. **操作系统的选择**:推荐使用Linux操作系统...

    Spark实验:Standalone模式安装部署(带答案)1

    1. 实验描述:本实验旨在搭建一个基于Standalone模式的Spark集群,包括解压安装包、配置环境变量、启动集群及验证安装效果。 2. 实验环境:使用3台虚拟机,操作系统为Centos 7.5,Hadoop版本为2.7.3,Spark版本为...

    大数据Hadoop+HBase+Spark+Hive集群搭建教程(七月在线)1

    在构建大数据处理环境时,Hadoop、HBase、Spark和Hive是四个核心组件,它们协同工作以实现高效的数据存储、处理和分析。本教程将详细介绍如何在Ubuntu系统上搭建这些组件的集群。 1. **Hadoop**:Hadoop是Apache...

    spark开发压缩包

    Spark开发压缩包是专为Linux系统设计的,用于在该操作系统上搭建Spark开发环境。Spark是一种流行的开源大数据处理框架,以其高效、灵活和易用性而受到广泛关注。它主要用于批处理、交互式查询(通过Spark SQL)、...

Global site tag (gtag.js) - Google Analytics