`

spark基本概念

阅读更多
记录一下课堂笔记:

定义:spark是一个快速的,通用的分析大数据处理引擎。
DAG(有向无环图):在图论中,如果一个有向图无法从任意顶点出发经过若干条边回到该点,则这个图是一个有向无环图(DAG图)。
因为有向图中一个点经过两种路线到达另一个点未必形成环,因此有向无环图未必能转化成树,但任何有向树均为有向无环图。
DAG可用于对数学和 计算机科学中得一些不同种类的结构进行建模。
由于受制于某些任务必须比另一些任务较早执行的限制,必须排序为一个队 列的任务集合可以由一个DAG图来呈现,其中每个顶点表示一个任务,每条边表示一种限制约束,拓扑排序算法可以用来生成一个有效的序列。
DAG也可以用来模拟信息沿着一个一 致性的方向通过处理器网络的过程。
DAG中得可达性关系构成了一个局 部顺序,任何有限的局部顺序可以由DAG使用可达性来呈现。
此外,DAG的可作为一个序列集合的高效利用空间的重叠的子序列的代表性。
相对应的概念,无向图是一个森林,无环的无向图。
选择森林的一个方向,产生了一种特殊的有向无环图称为polytree 。
不过,也有其他种类的向无环图,它们不是由面向无向无环图的边构成的。
出于这个原因,称其为有向无环图比无环有向图或者无环图更确切。

spark 与mapreduce比较优势:
spark计算速度在内存中比mp快近100X,在dist中近10X
spark支持链式编程
spark一站式部署,无需在部署其他插件。


基本原理方面:
mapreduce:基于磁盘的大数据批量处理系统
spark:基于rdd(弹性分布式数据集)数据处理,显式的讲RDD数据存储到内存和磁盘中

模型上:
mapreduce处理超大规模数据,运行周期长,迭代较少,适合数据挖掘
spark:适合多轮迭代

容错方面:
spark的子rdd出现错误,会给予spark linage 去执行父节点的rdd重新获取数据。



  • 大小: 131.5 KB
  • 大小: 179.9 KB
分享到:
评论

相关推荐

    spark基础概念

    Spark的核心思想是通过一种可并行操作且有容错机制的弹性分布式数据集RDD(Resilient Distributed Dataset)以减少磁盘以及网络IO开销。RDD是一个能并行的数据结构,可以让用户显式地将数据存储到磁盘或内存中,并能...

    spark全案例

    一、Spark基本概念 Spark主要由四大组件构成:Spark Core、Spark SQL、Spark Streaming和Spark MLlib。Spark Core是基础,提供了分布式任务调度和内存管理;Spark SQL用于结构化数据处理,集成了Hive支持;Spark ...

    SparkDemo12

    1. **Spark基本概念** - **RDD(Resilient Distributed Datasets)**:这是Spark最基础的数据抽象,表示一个不可变、分区的元素集合,可以在集群中的多个节点上并行操作。 - **DataFrame**:在Spark SQL中引入,它...

    SparkDemo学习样例

    1. **Spark基本概念**:了解RDD(弹性分布式数据集)、DataFrame和Dataset,这些都是Spark处理数据的基本单元。理解它们的区别和应用场景对于高效使用Spark至关重要。 2. **Spark架构**:理解Spark的Master-Worker...

    Spark 练习题-数据

    1. **Spark基本概念** Spark的核心组件包括Spark Core、Spark SQL、Spark Streaming、MLlib(机器学习库)和GraphX(图计算)。Spark SQL用于结构化数据处理,Spark Streaming处理实时流数据,MLlib支持机器学习...

    hadoop&spark使用教程.docx

    **二、Spark基本概念理解** - **RDD(Resilient Distributed Dataset)** - 学习RDD的基本特性和操作类型,包括转换操作和行动操作。 - 理解RDD的持久化策略和分区方法。 - **DataFrame** - 掌握DataFrame的...

    Spark概述1.0.docx

    ### Spark基本概念 **Spark**是由美国加州大学伯克利分校的AMP Lab(Algorithms, Machines, and People Lab)开发的一种开源分布式计算框架。其设计初衷是为了克服Hadoop MapReduce存在的某些局限性,特别是在处理...

    spark期末考核--一班.zip

    1. **Spark基本概念** - **分布式计算**:Spark的核心是分布式数据集(Resilient Distributed Datasets, RDDs),它可以在多台机器上并行处理数据,提供容错能力。 - **内存计算**:Spark通过将数据存储在内存中,...

    spark理解过程中的几个问题

    #### 五、Spark基本概念 - **作业(Job):**包含多个Task组成的一个并行计算任务,通常由Spark Action触发。 - **阶段(Stage):**每个Job被划分为多个Stage,每个Stage都是一组并行执行的Task。 - **任务(Task...

    大数据spark计算TopN的素材.rar

    1. Spark基本概念 Spark是Apache基金会下的一个开源分布式计算框架,它提供了内存计算能力,大大提升了数据处理的效率。Spark核心组件包括:Spark Core(基础功能)、Spark SQL(SQL查询支持)、Spark Streaming(流...

    day01_spark核心概念.pdf

    《Spark核心概念详解》 Spark,作为大数据处理领域的重要工具,以其高效、通用和可扩展的特性备受青睐。本文将深入解析Spark的核心概念,包括其历史背景、主要模块、运行模式,以及如何在IDEA中编写Spark程序。 一...

    大数据技术专业人才培养方案(高职).docx

    * 大数据处理Spark教学内容:课程内容主要由五个局部组成,包括Spark基本概念和生态系统、Spark的系统结构、工作原理和安装、RDD弹性分布式数据集的概念和工作机制、RDD编程、Spark SQL、Spark Streamings Spark ...

    Spark 编程指南简体中文版.pdf

    本资源为 Spark 编程指南简体中文版,涵盖了 Spark 的基本概念、数据处理、流处理、图形处理和 SQL 等方面的内容。以下是该资源中的知识点总结: Spark 基础 * Spark Shell:交互式 shell,用于快速上手 Spark * ...

    spark安装包+spark实验安装软件

    Spark的基本概念** Spark的核心组件包括:Spark Core、Spark SQL、Spark Streaming、MLlib(机器学习库)和GraphX(图计算)。Spark Core提供了基础的分布式任务调度和内存管理机制;Spark SQL用于结构化数据处理...

    spark全套视频教程

    1. **Spark概述**:首先,我们会介绍Spark的基本概念,包括其设计理念、核心组件以及与Hadoop等其他大数据框架的区别。理解Spark的DAG执行模型对于后续的学习至关重要。 2. **Spark安装与配置**:学习如何在不同的...

    SparkDemo.rar

    在SparkDemo中,你可以找到如何使用Scala、Java或Python API实现Spark Count的示例代码,这有助于理解Spark的基本操作和编程模型。 接着,Spark SQL是Spark的一个重要组件,它允许用户使用SQL查询数据,同时支持...

    spark_jar包

    早期版本可能不包含最新的特性和优化,但在理解Spark基本架构和原理时仍有参考价值。 `spark.fpl.license.txt`文件通常包含了Spark的许可协议信息,它说明了如何合法地使用、分发和修改Spark软件。Apache License ...

    spark0.2 和 spark0.5

    5. **基本的MapReduce操作**:Spark 0.2包括了map、reduce、filter等基本的并行操作,为用户提供了构建复杂数据处理任务的基础。 6. **简单的部署和集群管理**:Spark 0.2支持简单的集群部署,并且可以通过命令行...

    sparkspark

    尽管标题和描述提供的信息较为有限,但从这些信息中,我们可以推断出目标是介绍Spark的基本概念、用途以及如何通过指定的网站资源来学习Spark。 ### Spark简介 Apache Spark是一种用于大规模数据处理的开源集群...

Global site tag (gtag.js) - Google Analytics