`

linux上独立安装部署spark

阅读更多

下面讲一下linux上安装spark,以 Standalone Mode 安装

 

1)首先安装JDK

 

下载JDK:jdk-7u79-linux-x64.tar.gz  ,版本是1.7以上都行,解压 tar -zxvf jdk-7u79-linux-x64.tar.gz  

 

然后配置 ~/.bashrc 

增加

export JAVA_HOME=/cdh/jdk1.7.0_79

export JRE_HOME=${JAVA_HOME}/jre

export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib

 

export PATH=${JAVA_HOME}/bin:${SCALA_HOME}/bin:${SPARK_HOME}/bin:$PATH

 

source .bashrc

 

验证: java -version能正常运行则说明安装成功

 

2)安装scala

 

请看: http://daizj.iteye.com/blog/2227128

 

3) 安装spark

 

1)首先从网 http://spark.apache.org/downloads.html 上下载需要的版本,目前下载的是spark-1.4.0-bin-cdh4.tgz

  (2)将spark-1.4.0-bin-cdh4.tgz移到根目录,并解压

      tar -zxvf spark-1.4.0-bin-cdh4.tgz

  (3)配置环境变量

    SPARK_HOME=/spark-1.4.0-bin-cdh4

    path=$path:$SPARK_HOME/bin

  (4)修改配置文件

    1)cd  /spark-1.4.0-bin-cdh4/conf 

    2)mv spark-env.sh.template spark-env.sh

    3)vi spark-env.sh

    添加以下内容:

      export SCALA_HOME=/scala-2.11.6
      export JAVA_HOME=/cdh/jdk1.7.0_79
      export SPARK_MASTER_IP=192.168.212.15
      export SPARK_WORKER_MEMORY=1024m 
      export master=spark://192.168.212.15:7070

    4)修改slaves文件

      mv slaves.template  slaves

      vi slaves

      添加一下内容:

        slave1

        slave2

   (5) 将/spark-1.4.0-bin-cdh4目录复制到work节点    

    (6)启动spark

    pwd
    /spark-1.4.0-bin-cdh4/sbin
    执行 ./start-all.sh 命令。
    注意,hadoop也有start-all.sh脚本,因此必须进入具体目录执行脚本,启动界面如下:

        (7)验证

    1)在master节点上执行jps

      30859 Jps
      30172 Master

    2)在slaves节点上执行jps

      30302 Worker
      30859 Jps

  (7)验证安装情况
      1)运行自带示例

       启动spark sql 

                         进入spark_home/bin/ 运行 ./spark-sql 

      2)查看集群环境
        http://master:8080/

      3)进入spark-shell
        $spark-shell

      4)查看jobs等信息
        http://master:4040/jobs/

1
1
分享到:
评论

相关推荐

    Spark实验:Standalone模式安装部署(带答案)1

    以下是安装部署Spark Standalone模式的详细步骤和相关知识点。 **一、实验描述与环境** 1. 实验描述:本实验旨在搭建一个基于Standalone模式的Spark集群,包括解压安装包、配置环境变量、启动集群及验证安装效果。...

    spark三种模式部署安装(基于Anaconda3实现spark编程)

    ### Spark的三种部署模式与基于Anaconda3的Python编程实现 #### 一、Spark的部署模式 Apache Spark作为大数据处理领域的重要工具之一,其部署模式的选择对于应用性能有着至关重要的影响。Spark支持三种主要的部署...

    spark基础,关于spark的安装和几种模式的部署

    在规划Spark Standalone集群时,需要在每台机器上安装Spark,并配置Master和Worker的相关参数。例如,可以将Master节点设置为node01,两个Slave节点为node02和node03。安装步骤包括将Spark安装包上传至服务器,解压...

    实验七:Spark初级编程实践

    本实验旨在通过实践操作,让学生熟悉 Spark 的基本使用,包括安装配置、数据读取、数据处理以及独立应用程序的开发。 1. **安装 Hadoop 和 Spark** 在实验环境中,首先需要安装 Hadoop 和 Spark。Hadoop 是一个...

    spark-3.2.1-bin-hadoop2.7.tgz

    在Linux环境下部署Spark时,首先需要解压这个tgz文件,然后配置环境变量,比如设置SPARK_HOME,将bin目录添加到PATH。接着,可以启动Spark的独立模式或者与YARN、Mesos等集群管理器结合的集群模式。在开发应用程序时...

    spark-3.1.2-bin-hadoop2.7.tgz

    Spark是Apache软件基金会下的一个开源大数据处理框架,以其高效、灵活和易用的特性而闻名。...对于运维人员来说,理解Spark的架构和组件,以及如何在Linux上部署和管理Spark,是提升大数据处理效率的关键。

    spark安装手册学习资料.pdf

    "spark安装手册学习资料" 本文档详细介绍了生产型Hadoop和Spark集群的安装和配置过程。下面是从给定的文件中生成...本手册提供了一个完整的Spark安装手册,涵盖了安装、配置、部署和管理Hadoop和Spark集群的整个过程。

    大数据spark搭建,spark安装包

    在大数据分析场景中,Spark可以通过YARN、Mesos或独立模式部署在分布式环境中。它可以与其他大数据工具如Hadoop、HBase、Kafka等集成,实现复杂的数据处理工作流程。此外,Spark还支持Scala、Java、Python和R等多种...

    spark安装配置教程.docx

    虽然Spark可以独立运行,但在很多实际生产环境中,两者通常会一起部署。 - **安装Hadoop**:同样可以通过包管理器安装。 - **验证Hadoop**:运行`hadoop version`命令确认Hadoop版本。 #### 二、下载Spark安装包 ...

    linux环境下hadoop及其组件分别安装

    在Linux环境下进行Hadoop及其组件的安装,首先要确保操作系统、JDK、Hadoop版本以及其他相关组件的正确选择和配置。本教程将详细讲解Hadoop的伪分布式安装过程,以及部分组件的安装步骤。 1. **操作系统与环境配置*...

    基于Spark2.x新闻网大数据实时分析可视化系统.docx

    本课程旨在通过Spark2.x新闻网大数据实时分析可视化系统,讲解大数据项目的业务分析、技术选型、架构设计、集群规划、安装部署、整合继承与开发和 web可视化交互设计。课程特色包括全方位、全流程讲解、大数据项目的...

    Hadoop Spark大数据巨量分析与机器学习整合开发实战 ,林大贵

    结合上述提到的技术点,本书可能还会介绍如何在Linux环境下搭建Hadoop和Spark的开发环境,因为Hadoop和Spark都是基于Linux系统的,其性能在Linux环境下能够得到最佳的发挥。 综上所述,本书涵盖了大数据分析、机器...

    sparkJobServer0.8编译后版本

    2. **资源管理**:SparkJobServer可以管理多个Spark上下文(Contexts),每个上下文可以视为独立的Spark实例,分配特定的资源,如内存和CPU核心。 3. **安全特性**:支持身份验证和授权,确保只有授权的用户可以...

    SUSELinux下CDH5安装

    3. **VMware虚拟机**:VMware是一款虚拟化软件,允许在同一台物理机器上运行多个独立的操作系统实例,便于测试和开发环境的建立。 4. **克隆虚拟机**:克隆虚拟机是创建一个与原始虚拟机完全相同的副本,对于构建多...

    Apache+Spark的设计与实现

    在实际部署中,Spark可以运行在独立模式、Mesos、YARN或Kubernetes之上,提供了灵活的资源管理和调度。用户可以根据集群环境和应用需求选择合适的部署方式。 总的来说,Apache Spark通过其高效的内存计算、丰富的...

    linux集群体系结构

    Linux集群体系结构是一种高效、可扩展且高可用的计算架构,它通过将多个独立的Linux服务器连接在一起,形成一个统一的资源池,从而提供比单个服务器更高的性能和可靠性。这种技术广泛应用于大规模数据处理、高并发...

    ansible-kubernetes集群:在Kubernetes集群上部署Kubernetes,JupyterHub,Jupyter Enterprise Gateway和Spark的Ansible角色

    5. **部署Spark on Kubernetes**:利用Kubernetes的Spark Operator或Helm图表安装Spark,配置Spark作业提交、调度和监控。 6. **Elyra**:可能还涉及Elyra,这是一个开源项目,提供了JupyterLab的扩展,用于提升...

    hadoop2.2.0部署

    #### 四、伪分布式部署Spark **1. 下载Spark** - **版本选择:** 推荐使用与Hadoop 2.2.0相匹配的Spark版本,如Spark 1.0.0。 - **下载方式:** 从官方网站或其他可信源下载Spark的tar.gz包。 **2. 解压安装** - *...

Global site tag (gtag.js) - Google Analytics