`
windowboy
  • 浏览: 16340 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

spark分布式安装

 
阅读更多
1.如果没安装  需要安装 scala,因为spark需要
    同时在 /etc/profile 增加
      export SCALA_HOME=/scal路径/scala-2.11.7
      export PATH=$SCALA_HOME/bin:$PATH
       执行   source /etc/profile 使配置文件生效
2.下载spark安装包
3. 解压安装包
4.配置spark配置文件 
   1> 在 conf目录下重命名 spark-env.sh.template为  spark-env.sh并增加如下内容
      #JDK安装目录
      JAVA_HOME=/usr/java/default
      #Scala安装目录
      SCALA_HOME=/path/scala-2.11.7
      #spark 目录
      export SPARK_HOME=/data0/opt/spark-1.5.1-bin-hadoop2.6
      PATH=$PATH:$HOME/bin:$JAVA_HOME/bin:${SCALA_HOME}/bin:${SPARK_HOME}/bin:
      SPARK_MASTER_IP=192.168.1.10    //masterIP
      export SPARK_WORKER_MEMORY=2g  //工作内存
   2> 在conf 目录下 重命名 slaves.template 为   slaves 并增加内容
        Master
        Slave1
        Slave2
   3>在 /etc/hosts配置
         192.168.1.10  Master
         192.168.1.11  Slave1
         192.168.1.12  Slave2
     4> 执行 source /etc/hosts 使配置生效
     拷贝配置好的spark 到11,12机器
    
     ./sbin/start-all.sh  启动 spark
   在WEB页面访问  http://192.168.1.10:8080可以看到配置的 worker
  启动客户端
   执行 ./bin/spark-shell
   
 
             
          

 

分享到:
评论

相关推荐

    hadoop与spark分布式安装

    hadoop与spark分布式安装,内容详细,亲自搭建成功。助于新手

    Spark分布式集群安装部署 .doc

    Spark分布式集群安装部署 Spark 是一种基于内存的分布式计算框架,它提供了高效的数据处理能力和灵活的编程模型。 Spark 集群安装部署是 Spark 的一个重要组成部分,它可以帮助用户快速部署 Spark 集群,并对其...

    spark 分布式集群搭建

    - **spark-env.sh**: Spark 的环境变量配置文件,可以设置一些特定于系统的环境变量,比如 Java 安装路径等。 启动集群的具体步骤如下: 1. 修改上述配置文件。 2. 在计划作为 Master 的节点上运行 `./sbin/start-...

    spark完全分布式环境搭建.pdf

    "Spark完全分布式环境搭建" 本文档主要讲述了如何在 Linux 环境下搭建 Spark 完全分布式环境,包括环境变量的设置、Spark 配置文件的修改、 Slave 节点的配置以及集群的启动过程。 一、环境变量设置 在搭建 Spark...

    Spark分布式集群安装包

    Spark分布式集群安装包是专为数据处理和分析爱好者设计的一款工具,它允许用户在多台机器上构建一个高效的计算环境,充分利用集群资源进行大规模数据处理。这个安装包特别适合那些已经具备Hadoop和Scala环境的用户,...

    hadoop+spark分布式集群搭建及spark程序示例.doc

    hadoop+spark分布式集群搭建及spark程序示例,例子程序为用二项逻辑斯蒂回归进行二分类分析和一个简单的求平均的程序,两种不同的运行方式

    Spark分布式集群的搭建.pdf

    在进行Spark分布式集群搭建之前,需要进行一系列的前期准备工作。首先要安装Linux操作系统,并在Linux环境下安装Java开发工具包(JDK)。接着需要搭建一个Hadoop集群,因为Spark可以和Hadoop无缝集成,利用Hadoop的...

    基于Spark分布式ETL在海量后勤数据的应用.pdf

    《基于Spark分布式ETL在海量后勤数据的应用》这篇论文探讨了在处理大型企业海量后勤大数据时,如何利用Spark的分布式ETL技术提高数据处理效率。传统的基于MapReduce的ETL方法在面对大量频繁更新的数据时,由于频繁的...

    Spark安装、分布式程序开发

    第1章 安装VMWare Workstation 10;第2章 VMware 10安装CentOS 6;第3章 CentOS 6安装Hadoop;第4章 安装部署Spark;第5章Spark上机操作;第6章 开发Spark分布式程序

    基于小批量梯度下降和Spark分布式方法的局部断层细化对齐.pdf

    #资源达人分享计划#

    基于ApacheSpark的分布式深度学习库BigDL.zip

    BigDL,是 Intel 开源的一个基于 Apache Spark 的分布式深度学习库。使用 BigDL ,用户可以将他们的深度学习应用程序作为标准的 Spark 程序,它可以直接运行在现有的 Spark 或 Hadoop 集群之上。特性:丰富的深度...

    基于Spark的分布式大数据机器学习算法.pdf

    《基于Spark的分布式大数据机器学习算法》是一份深入探讨如何利用Apache Spark进行大规模数据处理和机器学习的专业参考资料。Spark作为一款高效、通用的并行计算框架,尤其在处理大规模数据时展现出强大的性能,使得...

    Spark分布式内存计算框架视频教程

    5.Spark 分布式缓存 6.业务报表分析 7.应用执行部署 8.Oozie和Hue集成调度Spark 应用 第五章、SparkStreaming 模块 1.Streaming流式应用概述 2.Streaming 计算模式 3.SparkStreaming计算思路 4.入门案例 5.Spark...

    基于Spark分布式支持向量机的TMS数据纠错方法研究.pdf

    基于Spark分布式支持向量机的TMS数据纠错方法研究,是一篇发表于计算机科学与应用领域的研究文章,旨在解决智能电网通信管理系统(TMS)中由于大量数据录入导致的数据不一致、错误数据输入和数据缺失等问题。...

    基于HDFS的spark分布式Scala程序测试

    ### 基于HDFS的Spark分布式Scala程序测试 #### 一、背景介绍 随着大数据技术的发展,Apache Hadoop和Apache Spark成为了处理大规模数据集的关键工具。本篇文章将重点介绍如何在Hadoop分布式集群和基于Hadoop分布式...

    Spark框架下分布式K-means算法优化方法.pdf

    在众多的分布式计算框架中,Apache Spark凭借其出色的性能、易用性和灵活性脱颖而出。 本文主要介绍了基于Spark框架下的分布式K-means算法的优化方法。K-means算法的核心思想是根据数据点到聚类中心的距离将数据点...

    基于Spark的分布式并行推理算法.pdf

    Spark是一种开源的分布式计算系统,它支持大规模数据集的处理,尤其适用于需要进行迭代计算的数据挖掘任务,而分布式并行推理算法则是指能够将推理任务分配到不同的计算节点上并行执行的算法。本文探讨的基于Spark的...

Global site tag (gtag.js) - Google Analytics