记录一下课堂笔记:
定义:spark是一个快速的,通用的分析大数据处理引擎。
DAG(有向无环图):在图论中,如果一个有向图无法从任意顶点出发经过若干条边回到该点,则这个图是一个有向无环图(DAG图)。
因为有向图中一个点经过两种路线到达另一个点未必形成环,因此有向无环图未必能转化成树,但任何有向树均为有向无环图。
DAG可用于对数学和 计算机科学中得一些不同种类的结构进行建模。
由于受制于某些任务必须比另一些任务较早执行的限制,必须排序为一个队 列的任务集合可以由一个DAG图来呈现,其中每个顶点表示一个任务,每条边表示一种限制约束,拓扑排序算法可以用来生成一个有效的序列。
DAG也可以用来模拟信息沿着一个一 致性的方向通过处理器网络的过程。
DAG中得可达性关系构成了一个局 部顺序,任何有限的局部顺序可以由DAG使用可达性来呈现。
此外,DAG的可作为一个序列集合的高效利用空间的重叠的子序列的代表性。
相对应的概念,无向图是一个森林,无环的无向图。
选择森林的一个方向,产生了一种特殊的有向无环图称为polytree 。
不过,也有其他种类的向无环图,它们不是由面向无向无环图的边构成的。
出于这个原因,称其为有向无环图比无环有向图或者无环图更确切。
spark 与mapreduce比较优势:
spark计算速度在内存中比mp快近100X,在dist中近10X
spark支持链式编程
spark一站式部署,无需在部署其他插件。
基本原理方面:
mapreduce:基于磁盘的大数据批量处理系统
spark:基于rdd(弹性分布式数据集)数据处理,显式的讲RDD数据存储到内存和磁盘中
模型上:
mapreduce处理超大规模数据,运行周期长,迭代较少,适合数据挖掘
spark:适合多轮迭代
容错方面:
spark的子rdd出现错误,会给予spark linage 去执行父节点的rdd重新获取数据。
定义:spark是一个快速的,通用的分析大数据处理引擎。
DAG(有向无环图):在图论中,如果一个有向图无法从任意顶点出发经过若干条边回到该点,则这个图是一个有向无环图(DAG图)。
因为有向图中一个点经过两种路线到达另一个点未必形成环,因此有向无环图未必能转化成树,但任何有向树均为有向无环图。
DAG可用于对数学和 计算机科学中得一些不同种类的结构进行建模。
由于受制于某些任务必须比另一些任务较早执行的限制,必须排序为一个队 列的任务集合可以由一个DAG图来呈现,其中每个顶点表示一个任务,每条边表示一种限制约束,拓扑排序算法可以用来生成一个有效的序列。
DAG也可以用来模拟信息沿着一个一 致性的方向通过处理器网络的过程。
DAG中得可达性关系构成了一个局 部顺序,任何有限的局部顺序可以由DAG使用可达性来呈现。
此外,DAG的可作为一个序列集合的高效利用空间的重叠的子序列的代表性。
相对应的概念,无向图是一个森林,无环的无向图。
选择森林的一个方向,产生了一种特殊的有向无环图称为polytree 。
不过,也有其他种类的向无环图,它们不是由面向无向无环图的边构成的。
出于这个原因,称其为有向无环图比无环有向图或者无环图更确切。
spark 与mapreduce比较优势:
spark计算速度在内存中比mp快近100X,在dist中近10X
spark支持链式编程
spark一站式部署,无需在部署其他插件。
基本原理方面:
mapreduce:基于磁盘的大数据批量处理系统
spark:基于rdd(弹性分布式数据集)数据处理,显式的讲RDD数据存储到内存和磁盘中
模型上:
mapreduce处理超大规模数据,运行周期长,迭代较少,适合数据挖掘
spark:适合多轮迭代
容错方面:
spark的子rdd出现错误,会给予spark linage 去执行父节点的rdd重新获取数据。
发表评论
-
翻译一下spark sql and dataframes
2016-03-23 15:20 1628概述 spark sql 是一个结构化执行的数据模块,它并不像 ... -
Sort-based Shuffle的设计与实现
2016-03-15 08:49 816原文 http://www.cnblogs.com/hsea ... -
spark 中GC的调优
2016-03-14 11:02 1356注:本文转自:http://www.csdn.net/arti ... -
spark Tungsten-将硬件性能彻底压榨
2016-03-08 11:06 1037Tungsten项目将是Spark自诞生以来内核级别的最大改动 ... -
关于Spark的Broadcast解析
2016-02-20 08:37 4526本文重点关注 数据块切分方法以及P2P下载数据方法 Broad ... -
spark的几个重要概念
2015-12-04 14:09 0本节主要记录以下几个概念 一:RDD的五大特点 二:RDD 窄 ... -
spark部署安装调试
2015-12-02 11:28 743本节记录spark下载-->编译-->安装--&g ... -
hadoop计算能力调度器配置
2015-10-29 10:39 1024问题出现 hadoop默认调度器是FIFO,其原理就是先按照作 ... -
HBase在各大应用中的优化和改进
2015-10-28 14:59 705Facebook之前曾经透露过Facebook的hbase架构 ... -
一篇很好的解决系统问题过程描述文章
2015-09-23 08:40 506在网上看到的一篇解决h ... -
通过GeoHash核心原理来分析hbase rowkey设计
2015-09-08 15:49 3526注:本文是结合hbase ... -
从OpenTsdb来分析rowkey设计
2015-09-06 16:04 4956讨论此问题前,先理解 ... -
HBase中asynchbase的使用方式
2015-08-25 10:32 8207Hbase的原生java 客户端是完全同步的,当你使用原生AP ... -
Mapreduce优化的点滴
2015-07-16 15:18 839注:转载 1. 使用自定义Writable 自带的Text ... -
hadoop 如何自定义类型
2015-07-15 09:37 1243记录一下hadoop 数据类型章节的笔记,以便后期使用,本文是 ... -
napreduce shuffle 过程记录
2015-07-10 11:23 768在我看来 hadoop的核心是mapre ... -
ZooKeeper伪分布式集群安装及使用
2015-02-13 08:29 9271. zookeeper介绍 ZooKeeper是一个为分 ... -
hadoop-mahout 核心算法总结
2015-02-07 10:08 1569其实大家都知道hadoop为我们提供了一个大的框架,真正的 ... -
推荐引擎内部原理--mahout
2015-01-22 11:11 576转载自:https://www.ibm.com/devel ... -
hadoop 动态添加删除节点
2015-01-20 13:39 675转自:http://www.cnblogs.com/rill ...
相关推荐
Spark的核心思想是通过一种可并行操作且有容错机制的弹性分布式数据集RDD(Resilient Distributed Dataset)以减少磁盘以及网络IO开销。RDD是一个能并行的数据结构,可以让用户显式地将数据存储到磁盘或内存中,并能...
一、Spark基本概念 Spark主要由四大组件构成:Spark Core、Spark SQL、Spark Streaming和Spark MLlib。Spark Core是基础,提供了分布式任务调度和内存管理;Spark SQL用于结构化数据处理,集成了Hive支持;Spark ...
1. **Spark基本概念** - **RDD(Resilient Distributed Datasets)**:这是Spark最基础的数据抽象,表示一个不可变、分区的元素集合,可以在集群中的多个节点上并行操作。 - **DataFrame**:在Spark SQL中引入,它...
1. **Spark基本概念**:了解RDD(弹性分布式数据集)、DataFrame和Dataset,这些都是Spark处理数据的基本单元。理解它们的区别和应用场景对于高效使用Spark至关重要。 2. **Spark架构**:理解Spark的Master-Worker...
1. **Spark基本概念** Spark的核心组件包括Spark Core、Spark SQL、Spark Streaming、MLlib(机器学习库)和GraphX(图计算)。Spark SQL用于结构化数据处理,Spark Streaming处理实时流数据,MLlib支持机器学习...
**二、Spark基本概念理解** - **RDD(Resilient Distributed Dataset)** - 学习RDD的基本特性和操作类型,包括转换操作和行动操作。 - 理解RDD的持久化策略和分区方法。 - **DataFrame** - 掌握DataFrame的...
### Spark基本概念 **Spark**是由美国加州大学伯克利分校的AMP Lab(Algorithms, Machines, and People Lab)开发的一种开源分布式计算框架。其设计初衷是为了克服Hadoop MapReduce存在的某些局限性,特别是在处理...
1. **Spark基本概念** - **分布式计算**:Spark的核心是分布式数据集(Resilient Distributed Datasets, RDDs),它可以在多台机器上并行处理数据,提供容错能力。 - **内存计算**:Spark通过将数据存储在内存中,...
#### 五、Spark基本概念 - **作业(Job):**包含多个Task组成的一个并行计算任务,通常由Spark Action触发。 - **阶段(Stage):**每个Job被划分为多个Stage,每个Stage都是一组并行执行的Task。 - **任务(Task...
1. Spark基本概念 Spark是Apache基金会下的一个开源分布式计算框架,它提供了内存计算能力,大大提升了数据处理的效率。Spark核心组件包括:Spark Core(基础功能)、Spark SQL(SQL查询支持)、Spark Streaming(流...
《Spark核心概念详解》 Spark,作为大数据处理领域的重要工具,以其高效、通用和可扩展的特性备受青睐。本文将深入解析Spark的核心概念,包括其历史背景、主要模块、运行模式,以及如何在IDEA中编写Spark程序。 一...
* 大数据处理Spark教学内容:课程内容主要由五个局部组成,包括Spark基本概念和生态系统、Spark的系统结构、工作原理和安装、RDD弹性分布式数据集的概念和工作机制、RDD编程、Spark SQL、Spark Streamings Spark ...
本资源为 Spark 编程指南简体中文版,涵盖了 Spark 的基本概念、数据处理、流处理、图形处理和 SQL 等方面的内容。以下是该资源中的知识点总结: Spark 基础 * Spark Shell:交互式 shell,用于快速上手 Spark * ...
Spark的基本概念** Spark的核心组件包括:Spark Core、Spark SQL、Spark Streaming、MLlib(机器学习库)和GraphX(图计算)。Spark Core提供了基础的分布式任务调度和内存管理机制;Spark SQL用于结构化数据处理...
1. **Spark概述**:首先,我们会介绍Spark的基本概念,包括其设计理念、核心组件以及与Hadoop等其他大数据框架的区别。理解Spark的DAG执行模型对于后续的学习至关重要。 2. **Spark安装与配置**:学习如何在不同的...
在SparkDemo中,你可以找到如何使用Scala、Java或Python API实现Spark Count的示例代码,这有助于理解Spark的基本操作和编程模型。 接着,Spark SQL是Spark的一个重要组件,它允许用户使用SQL查询数据,同时支持...
早期版本可能不包含最新的特性和优化,但在理解Spark基本架构和原理时仍有参考价值。 `spark.fpl.license.txt`文件通常包含了Spark的许可协议信息,它说明了如何合法地使用、分发和修改Spark软件。Apache License ...
5. **基本的MapReduce操作**:Spark 0.2包括了map、reduce、filter等基本的并行操作,为用户提供了构建复杂数据处理任务的基础。 6. **简单的部署和集群管理**:Spark 0.2支持简单的集群部署,并且可以通过命令行...
尽管标题和描述提供的信息较为有限,但从这些信息中,我们可以推断出目标是介绍Spark的基本概念、用途以及如何通过指定的网站资源来学习Spark。 ### Spark简介 Apache Spark是一种用于大规模数据处理的开源集群...