`
tcxiang
  • 浏览: 89557 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

resilient distributed datasets 读后笔记

 
阅读更多

1.Formally, an RDD is a read-only, partitioned collection of records. RDDs can be only created through deterministic operations on either (1) a dataset in stable storage or (2) other existing RDDs.

 

2.RDD是延迟加载的,就是说直到action被触发,才真正有动作。

 

3. RDD之间的关系分为narrow dependency 和 wide dependency,看图很好理解


 

4.spark的scheuler会把程序逻辑和RDD变成DAG图来,分stage执行



 

 

 


 

 

 

  • 大小: 450.7 KB
  • 大小: 150.4 KB
  • 大小: 191.1 KB
分享到:
评论

相关推荐

    Spark大数据处理学习笔记

    *RDD(Resilient Distributed Datasets)是 Spark 中的数据抽象概念,本篇笔记详细讲解了如何创建 RDD,包括使用 textFile 方法、parallelize 方法和从其他数据源创建 RDD 等多种方式。 三、掌握 RDD 算子(3.2.1)...

    Spark笔记,发出来希望可以帮到各位

    在后续的学习中,我们将会深入到Spark的RDD(Resilient Distributed Datasets)、DataFrame、Spark SQL,以及Spark的并行计算模型、容错机制等核心概念,这些都是Spark在大数据处理中强大的功能体现。

    spark笔记.zip

    Spark的核心在于它的弹性分布式数据集(Resilient Distributed Datasets,RDD),这是一种容错的内存计算模型,使得数据处理速度大幅提升。Spark支持多种编程语言,包括Java、Scala、Python和R,方便不同背景的开发...

    图解Spark核心技术与案例实战

    2. **Resilient Distributed Datasets (RDD)**:RDD是Spark的基本数据抽象,它是不可变的、分区的数据集。RDD支持转换和动作操作,转换操作创建新的RDD,动作操作触发计算并返回结果。 3. **DataFrame和Dataset**:...

    spark+hadoop大数据处理学习笔记

    Spark Core是其基础,提供弹性分布式数据集(Resilient Distributed Datasets,简称RDDs),这是一种可以缓存在内存中的数据结构,支持高效的并行操作。此外,Spark还包含多个高级模块,如Spark SQL用于SQL查询,...

    spark资料笔记代码

    Spark的核心在于其弹性分布式数据集(Resilient Distributed Datasets,简称RDD),这是一种容错的、可并行操作的数据集合。RDD具有两大特性:不可变性和分区性。不可变性意味着一旦创建,就不能修改;分区性则允许...

    机器学习个人笔记完整版

    Apache Spark是一个用于大规模数据处理的开源计算框架,以其内存计算和弹性分布式数据集(Resilient Distributed Datasets, RDDs)特性而闻名。Spark的MLlib库提供了丰富的机器学习算法,包括分类、回归、聚类、协同...

    第7次笔记 张帅豪1

    Spark的核心特点是它的弹性分布式数据集(Resilient Distributed Datasets,简称RDD),这是一种分布式、只读且容错的数据结构。RDD通过在内存中高效地存储和处理数据,实现了对大数据的快速计算。 RDD是由多个分区...

    大数据学习笔记,学习路线,技术案例整理。.zip

    同时,学习Spark的核心概念,如RDD(Resilient Distributed Datasets)、DataFrame和Spark SQL。 3. **数据存储与处理**:了解NoSQL数据库,如HBase、Cassandra和MongoDB,以及关系型数据库在大数据环境中的应用。...

    spark学习笔记,完成于2022年04月13日

    Spark 是一个快速、通用且可扩展的大数据处理框架,它在内存计算中引入了弹性分布式数据集(Resilient Distributed Datasets, RDDs)的概念,提高了数据处理的速度。RDDs 支持容错,允许在分布式环境中高效地并行...

    spark 课件.zip

    它的核心组件是弹性分布式数据集(Resilient Distributed Datasets, RDD),这是一种容错的、可并行操作的数据结构,能够在集群中的多个节点上进行计算。 在Spark中,数据处理是基于RDD的操作,这些操作包括转换...

    Hadoop学习几笔

    它提供了更高效的数据处理模型,如Resilient Distributed Datasets (RDDs),支持内存计算,显著提升了数据处理速度。Spark还包含多个模块,如Spark SQL、Spark Streaming和MLlib,分别用于SQL查询、实时流处理和机器...

    spark源码阅读笔记

    - **RDD缓存机制**:Resilient Distributed Datasets (RDDs) 是Spark的核心抽象之一,它支持数据集的持久化,使得中间结果可以存储在内存中供后续任务快速访问。这对于迭代算法特别有用,因为它避免了重复计算相同...

    spark_code_basic

    Spark的核心是弹性分布式数据集(Resilient Distributed Datasets,简称RDD),它是一种容错的、不可变的数据集合,可以在集群中的多台机器上并行操作。RDD提供了两种操作类型:转换(Transformation)和动作...

    spark-source-code-learn-note:火花学习笔记-spark source code

    1. RDD(Resilient Distributed Datasets):Spark的基础数据结构,是不可变的、分区的数据集,提供了容错机制。 2. DAGScheduler:将用户作业转化为任务阶段(Stage),考虑数据 locality 和任务调度。 3. Block...

    spark:spark学习笔记

    本笔记将从基础概念出发,深入探讨Spark的核心特性,包括RDD(Resilient Distributed Datasets)、DataFrame、Spark SQL以及Spark Streaming,结合实战案例,助你全面掌握Spark的使用。 一、Spark基础 1.1 Spark...

    RoadOfStudySpark:Spark 学习之路,包含 Spark Core,Spark SQL,Spark Streaming,Spark mllib 学习笔记

    它构建在弹性分布式数据集(Resilient Distributed Datasets, RDD)之上,提供了容错性和高性能的数据处理能力。RDD是一种不可变、分区的记录集合,支持并行操作。理解Spark Core的工作原理,掌握RDD的创建、转换和...

    Python学习笔记——大数据之SPARK核心

    Spark作为大数据处理框架的核心在于其Resilient Distributed Datasets(RDD),这是一种弹性分布式数据集。RDD是Spark设计的基石,它将大量数据分布在多台机器上,可以存储在内存或磁盘中,支持高效并行计算。RDD的...

    火花

    Spark的工作原理主要包括RDD(Resilient Distributed Datasets)和DAG(Directed Acyclic Graph)两个核心概念。RDD是Spark的基础数据结构,它是一个不可变、分区的记录集合,能够在集群的不同节点上并行操作。DAG则...

Global site tag (gtag.js) - Google Analytics