环境:redhat6.2,cdh4.4
虚拟机:
域名
|
ip
|
角色
|
master
|
192.168.199.129
|
Master
|
slave1
|
192.168.199.130
|
Worker
|
slave2
|
192.168.199.131
|
Worker |
软件包:
scala-2.10.1.tgz
spark-1.3.0-bin-cdh4.tgz
前提:安装好jdk,hadoop
安装路径:/home/hadoop/cdh44/
一。安装scala
$ tar -zvxf scala-2.10.1.tgz
二。安装spark
$ tar -zvxf spark-1.3.0-bin-cdh4.tgz
$ cd spark-1.3.0-bin-cdh4/conf
修改所有配置文件名,如图1:
$ vi spark-env.sh 添加参数如下:
export SCALA_HOME=/home/hadoop/cdh44/scala-2.10.1
export HADOOP_HOME=/home/hadoop/cdh44/hadoop-2.0.0-cdh4.4.0
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
SPARK_EXECUTOR_INSTANCES=2
SPARK_EXECUTOR_CORES=1
SPARK_EXECUTOR_MEMORY=400M
SPARK_DRIVER_MEMORY=400M
SPARK_YARN_APP_NAME="Spark 1.3.0"
SPARK_MASTER_PORT=7077
SPARK_MASTER_WEBUI_PORT=9090
PARK_WORKER_DIR=$SPARK_HOME/work
SPARK_WORKER_WEBUI_PORT=9091
如图2
$ vi slaves,添加两行,如下:
slave01
slave02
$ 把scala,spark复制一份到slave01,slave02
master,slave01,slave02分别设置环境变量
export SCALA_HOME=/home/hadoop/cdh44/scala-2.10.1
export PATH=$SCALA_HOME/bin:$PATH
export SPARK_HOME=/home/hadoop/cdh44/spark-1.3.0-bin-cdh4
export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH
source /etc/profile
三。启动spark
$ start-all.sh
$ jps 分别在三台机器上查看进程
如图3、图4、图5
在浏览器查看状态
http://192.168.199.129:9090
如图6
相关推荐
- 安装 Spark 1.3:解压 Spark 并在所有节点上分发,确保 `SPARK_HOME` 环境变量设置正确。 - 修改 `conf/spark-defaults.conf` 文件,配置包括但不限于 `spark.master`(设置为 `yarn-client` 或 `yarn-cluster`...
### Spark2.0安装教程与Spark1.3共存配置详解 #### 一、引言 随着大数据技术的发展,Apache Spark 已成为处理大规模数据集的重要工具之一。然而,在实际应用过程中,不同的项目可能需要使用不同版本的 Spark 来...
Spark是Apache软件基金会下的一个开源大数据处理框架,其1.3.0版本是Spark发展历史上的一个重要里程碑。这个版本在前一版本的基础上进行了许多优化和改进,为数据科学家和工程师提供了更高效、易用的数据处理工具。...
spark1.3Hadoop2.4的Linux下的安装包。Linux下安装可用
Spark是Apache软件基金会下的一个开源大数据处理框架,其1.3.0版本是该系统的一个重要里程碑。这个版本带来了许多增强的功能和优化,使得Spark在处理大规模数据时的效率、稳定性和可扩展性都有所提升。 一、核心...
他介绍了Spark1.3版本中的很多新特性。重点介绍了DataFrame。其从SchemaRDD演变而来,提供了更加高层抽象的API,在形态上和R和Python很类似。Spark DataFrame vs.RDD,有些类似于动态语言和静态语言的区别,在很多...
### Spark 2.1 集群安装及配置详解 #### 一、规划与环境准备 根据提供的信息,“cancer01”被指定为Master节点,“cancer02”、“cancer03”、“cancer04”以及“cancer05”作为Worker节点。这些节点将共同构成一...
Recently updated for Spark 1.3, this book introduces Apache Spark, the open source cluster computing system that makes data analytics fast to write and fast to run. With Spark, you can tackle big ...
Spark快速数据处理文档~ ...1.3 在ElasticMapReduce上部署Spark 1.4 用Chef(opscode)部署Spark 1.5 在Mesos上部署Spark 1.6 在Yarn上部署Spark 1.7 通过SSH部署集群 1.8 链接和参考 1.9 小结
##### 1.3 YARN模式 **YARN模式**利用Hadoop YARN作为资源管理器,适合大规模集群环境。YARN模式能够更好地与其他Hadoop组件共存,提供更高级别的资源隔离和管理功能。 启动YARN模式下的Spark Shell,可以通过如下...
Spark 1.3+ 介绍 本项目支持在Spark运行环境中与阿里云的基础服务OSS、ODPS、LogService、ONS等进行交互。 构建和安装 git clone https://github.com/aliyun/aliyun-emapreduce-datasources.git cd aliyun-...
在Spark 1.3版本中,引入了对Kafka的实验性支持,提供了新的RDD(弹性分布式数据集)和DStream(Discretized Stream,离散化流)实现,允许用户直接从Kafka读取数据。这些特性使得在Spark中消费Kafka数据时,可以更...
Spark API 1.3.1 是 Apache Spark 项目的一个重要版本,它提供了高效、易用的大数据处理框架。Spark 在大数据领域中扮演着至关重要的角色,因为它能够支持批处理、交互式查询、流处理和机器学习等多种计算模式,极大...
### Spark集群环境安装详解 #### 一、项目背景与目标 本项目旨在搭建一套完整的Spark集群环境,包括Hadoop HA(高可用)、HBase、Phoenix、Kafka、Flume、Zookeeper以及Scala等多个组件的集成。这样的环境适用于大...
##### 1.3 动态分配Executor 为最大化集群资源利用率,推荐启用动态资源分配功能。这样可以在作业运行过程中根据实际需求动态调整Executor的数量,从而更高效地响应多用户并发查询。 - 设置`spark.executor....
从 Spark SQL 1.0~1.2 升级到 1.3 兼容 Apache Hive 参考 数据类型 NaN 语义 Structured Streaming MLlib(机器学习) 机器学习库(MLlib)指南 ML Pipelines(ML管道) Extracting, transforming and ...
类似于Hadoop的安装过程,首先从Apache Spark官方网站下载Spark的二进制包。解压后移动到指定位置。 ```bash wget https://downloads.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz tar -xzvf spark...
在本文档中,我们详细地介绍了Hadoop+Hbase+Spark+Hive的搭建过程,包括环境准备、主机设置、防火墙设置、环境变量设置、Hadoop安装、Hbase安装、Spark安装和Hive安装。本文档旨在指导读者从零开始搭建Hadoop+Hbase+...
DataFrame 是 Spark 1.3 引入的,而 Dataset 在 Spark 1.6.2 中出现,它提供了更强的类型安全性和编译时检查。 DataFrame 和 Dataset 可以看作是有结构的二维表格,它们之间的区别在于 Dataset 是强类型的,而 ...
2.1Scala的安装 8 2.2Spark的单节点配置 9 2.3Spark-Standalone集群配置 9 2.4Spark-on-Yarn模式配置 12 2.5Spark-on-Mesos模式配置 13 2.6Hive-on-Spark配置 13 第三章 Spark计算模型 15 1 RDD编程 15 1.1弹性...