`

Spark1.3安装

阅读更多
环境:redhat6.2,cdh4.4
虚拟机:
域名
ip
角色
master
192.168.199.129
Master
slave1
192.168.199.130
Worker
slave2
192.168.199.131
Worker
 
 
软件包:
scala-2.10.1.tgz
spark-1.3.0-bin-cdh4.tgz
 
前提:安装好jdk,hadoop
安装路径:/home/hadoop/cdh44/
 
一。安装scala
   $ tar -zvxf scala-2.10.1.tgz
 
二。安装spark
    $ tar -zvxf spark-1.3.0-bin-cdh4.tgz
    $ cd spark-1.3.0-bin-cdh4/conf
    修改所有配置文件名,如图1:
 
    $ vi spark-env.sh 添加参数如下:
     export SCALA_HOME=/home/hadoop/cdh44/scala-2.10.1
     export HADOOP_HOME=/home/hadoop/cdh44/hadoop-2.0.0-cdh4.4.0
     export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
 
     SPARK_EXECUTOR_INSTANCES=2
     SPARK_EXECUTOR_CORES=1
     SPARK_EXECUTOR_MEMORY=400M
     SPARK_DRIVER_MEMORY=400M
     SPARK_YARN_APP_NAME="Spark 1.3.0"
     SPARK_MASTER_PORT=7077
     SPARK_MASTER_WEBUI_PORT=9090
     PARK_WORKER_DIR=$SPARK_HOME/work
     SPARK_WORKER_WEBUI_PORT=9091
      如图2
 
    $ vi slaves,添加两行,如下:
      slave01
      slave02
     
    $ 把scala,spark复制一份到slave01,slave02
        scp -r scala-2.10.1 hadoop@slave1:/home/hadoop/cdh44
        scp -r scala-2.10.1 hadoop@slave2:/home/hadoop/cdh44
        scp -r spark-1.3.0-bin-cdh4 hadoop@slave1:/home/hadoop/cdh44
        scp -r spark-1.3.0-bin-cdh4 hadoop@slave2:/home/hadoop/cdh44
 
    master,slave01,slave02分别设置环境变量
        export SCALA_HOME=/home/hadoop/cdh44/scala-2.10.1
        export PATH=$SCALA_HOME/bin:$PATH
        export SPARK_HOME=/home/hadoop/cdh44/spark-1.3.0-bin-cdh4
        export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH
        source /etc/profile
三。启动spark
    $ start-all.sh
    $ jps 分别在三台机器上查看进程
     如图3、图4、图5
     在浏览器查看状态
    http://192.168.199.129:9090
   如图6
 
 
 
 
 
 

 

  • 大小: 7.3 KB
  • 大小: 12 KB
  • 大小: 3.3 KB
  • 大小: 2.9 KB
  • 大小: 2.6 KB
  • 大小: 81.3 KB
分享到:
评论

相关推荐

    spark1.3与hadoop2.6环境配置

    - 安装 Spark 1.3:解压 Spark 并在所有节点上分发,确保 `SPARK_HOME` 环境变量设置正确。 - 修改 `conf/spark-defaults.conf` 文件,配置包括但不限于 `spark.master`(设置为 `yarn-client` 或 `yarn-cluster`...

    spark2 安装教程

    ### Spark2.0安装教程与Spark1.3共存配置详解 #### 一、引言 随着大数据技术的发展,Apache Spark 已成为处理大规模数据集的重要工具之一。然而,在实际应用过程中,不同的项目可能需要使用不同版本的 Spark 来...

    spark1.3源码

    Spark是Apache软件基金会下的一个开源大数据处理框架,其1.3.0版本是Spark发展历史上的一个重要里程碑。这个版本在前一版本的基础上进行了许多优化和改进,为数据科学家和工程师提供了更高效、易用的数据处理工具。...

    spark的安装包Linux下1.3

    spark1.3Hadoop2.4的Linux下的安装包。Linux下安装可用

    spark-1.3.0

    Spark是Apache软件基金会下的一个开源大数据处理框架,其1.3.0版本是该系统的一个重要里程碑。这个版本带来了许多增强的功能和优化,使得Spark在处理大规模数据时的效率、稳定性和可扩展性都有所提升。 一、核心...

    2015 Spark技术峰会-Spark SQL结构化数据分析-连城

    他介绍了Spark1.3版本中的很多新特性。重点介绍了DataFrame。其从SchemaRDD演变而来,提供了更加高层抽象的API,在形态上和R和Python很类似。Spark DataFrame vs.RDD,有些类似于动态语言和静态语言的区别,在很多...

    spark2.1集群安装

    ### Spark 2.1 集群安装及配置详解 #### 一、规划与环境准备 根据提供的信息,“cancer01”被指定为Master节点,“cancer02”、“cancer03”、“cancer04”以及“cancer05”作为Worker节点。这些节点将共同构成一...

    Learning Spark

    Recently updated for Spark 1.3, this book introduces Apache Spark, the open source cluster computing system that makes data analytics fast to write and fast to run. With Spark, you can tackle big ...

    Spark快速数据处理

    Spark快速数据处理文档~ ...1.3 在ElasticMapReduce上部署Spark 1.4 用Chef(opscode)部署Spark 1.5 在Mesos上部署Spark 1.6 在Yarn上部署Spark 1.7 通过SSH部署集群 1.8 链接和参考 1.9 小结

    spark三种模式部署安装(基于Anaconda3实现spark编程)

    ##### 1.3 YARN模式 **YARN模式**利用Hadoop YARN作为资源管理器,适合大规模集群环境。YARN模式能够更好地与其他Hadoop组件共存,提供更高级别的资源隔离和管理功能。 启动YARN模式下的Spark Shell,可以通过如下...

    扩展了对阿里云 E-MapReduce 上 Spark/Hadoop 数据源的支持

    Spark 1.3+ 介绍 本项目支持在Spark运行环境中与阿里云的基础服务OSS、ODPS、LogService、ONS等进行交互。 构建和安装 git clone https://github.com/aliyun/aliyun-emapreduce-datasources.git cd aliyun-...

    spark与kafka集成

    在Spark 1.3版本中,引入了对Kafka的实验性支持,提供了新的RDD(弹性分布式数据集)和DStream(Discretized Stream,离散化流)实现,允许用户直接从Kafka读取数据。这些特性使得在Spark中消费Kafka数据时,可以更...

    spark_api_1.3.1

    Spark API 1.3.1 是 Apache Spark 项目的一个重要版本,它提供了高效、易用的大数据处理框架。Spark 在大数据领域中扮演着至关重要的角色,因为它能够支持批处理、交互式查询、流处理和机器学习等多种计算模式,极大...

    spark环境安装(Hadoop HA+Hbase+phoneix+kafka+flume+zookeeper+spark+scala)

    ### Spark集群环境安装详解 #### 一、项目背景与目标 本项目旨在搭建一套完整的Spark集群环境,包括Hadoop HA(高可用)、HBase、Phoenix、Kafka、Flume、Zookeeper以及Scala等多个组件的集成。这样的环境适用于大...

    基于CDH 6.3.0 搭建 Hive on Spark 及相关配置和调优

    ##### 1.3 动态分配Executor 为最大化集群资源利用率,推荐启用动态资源分配功能。这样可以在作业运行过程中根据实际需求动态调整Executor的数量,从而更高效地响应多用户并发查询。 - 设置`spark.executor....

    Spark 2.0.2 Spark 2.2 中文文档 本资源为网页,不是PDF

    从 Spark SQL 1.0~1.2 升级到 1.3 兼容 Apache Hive 参考 数据类型 NaN 语义 Structured Streaming MLlib(机器学习) 机器学习库(MLlib)指南 ML Pipelines(ML管道) Extracting, transforming and ...

    Hadoop 和 Spark 的安装、环境配置、使用教程以及一个分布式机器学习项目示例.docx

    类似于Hadoop的安装过程,首先从Apache Spark官方网站下载Spark的二进制包。解压后移动到指定位置。 ```bash wget https://downloads.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz tar -xzvf spark...

    Hadoop+Hbase+Spark+Hive搭建

    在本文档中,我们详细地介绍了Hadoop+Hbase+Spark+Hive的搭建过程,包括环境准备、主机设置、防火墙设置、环境变量设置、Hadoop安装、Hbase安装、Spark安装和Hive安装。本文档旨在指导读者从零开始搭建Hadoop+Hbase+...

    spark-sql课堂讲义.docx

    DataFrame 是 Spark 1.3 引入的,而 Dataset 在 Spark 1.6.2 中出现,它提供了更强的类型安全性和编译时检查。 DataFrame 和 Dataset 可以看作是有结构的二维表格,它们之间的区别在于 Dataset 是强类型的,而 ...

    Spark-Core学习知识笔记整理

    2.1Scala的安装 8 2.2Spark的单节点配置 9 2.3Spark-Standalone集群配置 9 2.4Spark-on-Yarn模式配置 12 2.5Spark-on-Mesos模式配置 13 2.6Hive-on-Spark配置 13 第三章 Spark计算模型 15 1 RDD编程 15 1.1弹性...

Global site tag (gtag.js) - Google Analytics