Using a Mesos Master URL
The Master URLs for Mesos are in the form mesos://host:5050
for a single-master Mesos cluster, ormesos://zk://host:2181
for a multi-master Mesos cluster using ZooKeeper.
The driver also needs some configuration in spark-env.sh
to interact properly with Mesos:
- In
spark.env.sh
set some environment variables:-
export MESOS_NATIVE_LIBRARY=<path to libmesos.so>
. This path is typically<prefix>/lib/libmesos.so
where the prefix is/usr/local
by default. See Mesos installation instructions above. On Mac OS X, the library is calledlibmesos.dylib
instead oflibmesos.so
. -
export SPARK_EXECUTOR_URI=<URL of spark-1.0.1.tar.gz uploaded above>
.
-
- Also set
spark.executor.uri
to<URL of spark-1.0.1.tar.gz>
.
Now when starting a Spark application against the cluster, pass a mesos://
URL as the master when creating aSparkContext
. For example:
val conf = new SparkConf()
.setMaster("mesos://HOST:5050")
.setAppName("My app")
.set("spark.executor.uri", "<path to spark-1.0.1.tar.gz uploaded above>")
val sc = new SparkContext(conf)
(You can also use spark-submit
and configure spark.executor.uri
in the conf/spark-defaults.conf file. Note that spark-submit
currently only supports deploying the Spark driver in client
mode for Mesos.)
When running a shell, the spark.executor.uri
parameter is inherited from SPARK_EXECUTOR_URI
, so it does not need to be redundantly passed in as a system property.
./bin/spark-shell --master mesos://host:5050
Mesos Run Modes
Spark can run over Mesos in two modes: “fine-grained” (default) and “coarse-grained”.
In “fine-grained” mode (default), each Spark task runs as a separate Mesos task. This allows multiple instances of Spark (and other frameworks) to share machines at a very fine granularity, where each application gets more or fewer machines as it ramps up and down, but it comes with an additional overhead in launching each task. This mode may be inappropriate for low-latency requirements like interactive queries or serving web requests.
The “coarse-grained” mode will instead launch only one long-running Spark task on each Mesos machine, and dynamically schedule its own “mini-tasks” within it. The benefit is much lower startup overhead, but at the cost of reserving the Mesos resources for the complete duration of the application.
To run in coarse-grained mode, set the spark.mesos.coarse
property in your SparkConf:
conf.set("spark.mesos.coarse", "true")
In addition, for coarse-grained mode, you can control the maximum number of resources Spark will acquire. By default, it will acquire all cores in the cluster (that get offered by Mesos), which only makes sense if you run just one application at a time. You can cap the maximum number of cores using conf.set("spark.cores.max", "10")
(for example).
启动spark:
./bin/spark-shell --master mesos://127.0.1.1:5050
#测试
scala> val file = sc.textFile("hdfs://hadoop-master:9000/tmp/WifiScan_None_20140723.csv")
scala> val count=file.flatMap(line => line.split(" ")).map(word => (word,1)).reduceByKey(_+_)
scala> count.count()http://spark.apache.org/docs/latest/running-on-mesos.html
相关推荐
Spark 入门实战系列,适合初学者,文档包括十部分内容,质量很好,为了感谢文档作者,也为了帮助更多的人入门,传播作者的心血,特此友情转贴: 1.Spark及其生态圈简介.pdf 2.Spark编译与部署(上)--基础环境搭建....
《Spark入门(完整版)》是一本全面介绍Apache Spark技术的指南,旨在帮助初学者快速掌握这个大数据处理领域的核心工具。Spark作为一个强大的分布式计算框架,因其高效、易用和多模态处理能力,在大数据和机器学习...
这个"spark入门相关文档,适用于初学者"的压缩包很可能是为了帮助那些刚接触Spark的人快速上手。让我们深入了解一下Spark的核心概念、功能以及如何进行初步的学习。 Spark的核心是一个分布式计算模型——弹性分布式...
**Spark入门课程** Spark是大数据处理领域中的一款热门开源框架,以其高效、易用和弹性伸缩性著称。本课程旨在为初学者提供全面的Spark知识,涵盖从基础概念到高级特性的深入理解。 首先,我们将从Scala编程语言...
这份"spark入门及实战文档"提供了全面的学习路径,涵盖了从基础到实践的多个方面,帮助初学者快速掌握Spark的核心技术和实际应用。 1. **Spark快速入门**: Spark的核心概念是弹性分布式数据集(Resilient ...
【Spark入门】 Spark是大数据处理领域的一种快速、通用、可扩展的开源计算框架,它在Hadoop的基础上解决了MapReduce的一些局限性。Hadoop作为大数据处理的基石,由Google的两个创新——分布式存储(Google文件系统,...
总结,Java操作Spark入门涉及Java环境的搭建、Spark依赖的引入、SparkSession的创建、集群的连接以及数据的读取、处理和分析。随着对Spark API的深入了解,你将能够构建复杂的数据处理流程,实现高效的大数据解决...
标题中的"storm和spark入门项目finalss"表明这是一个关于学习Apache Storm和Apache Spark的基础项目,旨在帮助初学者熟悉这两种大数据处理框架。Apache Storm是实时数据流处理系统,而Apache Spark则是用于批处理、...
Spark入门实战系列是一套针对初学者的PDF教程,旨在帮助读者快速掌握Spark的基本概念和实际应用。本系列涵盖了Spark的核心组件,包括Spark SQL、Spark运行架构、Spark SQL的深度解析与调优、Spark的编译与部署、Hive...
《Spark入门实战相关文档》是针对想要学习和掌握Apache Spark技术的初学者及大数据分析师的一份详尽指南。Spark作为一款高效、通用的并行计算框架,被广泛应用于大数据处理领域,尤其在实时分析和机器学习任务中表现...
### 大数据Spark入门宝典知识点详解 #### 一、大数据概述 - **定义**:大数据是指无法在可接受的时间范围内用传统软件工具处理的数据集合。这类数据集具有大规模(Volume)、多样性(Variety)、高速度(Velocity...
"Spark入门与大数据分析实战.pptx" 本书《Spark入门与大数据分析实战》是由张三和李四所著,主要面向对大数据分析和Spark技术感兴趣的读者。这本书从基础概念讲起,逐步深入实战,是大家掌握大数据分析利器的理想...
spark入门级资料推荐,开始是介绍简装 编译运行等基础介绍,从第五章开始 Hive介绍及部署 Hive实战 SparkSQL介绍 实战 深入了解运行计划及调优 SparkStreaming原理介绍 实战 SparkMLlib机器学习及SparkMLlib简介 ...
### Spark入门实战知识点详解 #### 一、Spark简介与生态圈 **1.1 Spark概述** - **起源与发展:** - Spark起源于美国加州大学伯克利分校的AMP实验室(Algorithms, Machines, and People Lab),最初作为一种通用...
标题中的"storm和spark入门项目final"表明这是一个关于学习Apache Storm和Apache Spark的基础项目,旨在帮助初学者理解和掌握这两种大数据处理框架。Apache Storm是一个实时计算系统,常用于处理连续的数据流,而...
SPARK入门教程,主要介绍spark生态圈、平台部署,hive,实时流计算,机器学习库等
以上即为Spark入门所需了解的知识点,涉及到了Spark的框架基础、原理、系统架构、环境配置以及核心概念RDD与DataFrame。随着对Spark理解的深入,用户可以有效地构建出适合自身需求的数据处理应用。
本文将基于“Spark学习总结-入门.rar”这份资料,对Spark的基础知识进行详细阐述,帮助读者深入理解Spark的核心概念和使用方法。 1. **Spark概述** Spark最初由加州大学伯克利分校AMPLab开发,后来成为Apache顶级...
2021贺岁大数据入门spark3.0入门到精通资源简介: 本课程中使用官方在2020年9月8日发布的Spark3.0系列最新稳定版:Spark3.0.1。共课程包含9个章节:Spark环境搭建,SparkCore,SparkStreaming,SparkSQL,...
- **Spark入门之Scala**:Scala是Spark的主要编程语言,介绍了Scala的基本概念、特性和语法,以及如何使用Scala开发Spark应用。 - **Spark入门**:概述Spark的核心概念,如RDD(弹性分布式数据集)和DAG(有向无环...