`
guoke456
  • 浏览: 9588 次
  • 性别: Icon_minigender_1
  • 来自: 重庆
社区版块
存档分类
最新评论

spark action记录

 
阅读更多

1.reduce(func):通过函数func先聚集各分区的数据集,再聚集分区之间的数据,func接收两个参数,返回一个新值,新值再做为参数继续传递给函数func,直到最后一个元素

2.collect():以数据的形式返回数据集中的所有元素给Driver程序,为防止Driver程序内存溢出,一般要控制返回的数据集大小

3.count():返回数据集元素个数

4.first():返回数据集的第一个元素

5.take(n):以数组的形式返回数据集上的前n个元素

6.top(n):按默认或者指定的排序规则返回前n个元素,默认按降序输出

7.takeOrdered(n,[ordering]): 按自然顺序或者指定的排序规则返回前n个元素

8.countByKey():作用于K-V类型的RDD上,统计每个key的个数,返回(K,K的个数)

9.collectAsMap():作用于K-V类型的RDD上,作用与collect不同的是collectAsMap函数不包含重复的key,对于重复的key。后面的元素覆盖前面的元素

10.lookup(k):作用于K-V类型的RDD上,返回指定K的所有V值

11.aggregate(zeroValue:U)(seqOp:(U,T) => U,comOp(U,U) => U):
seqOp函数将每个分区的数据聚合成类型为U的值,comOp函数将各分区的U类型数据聚合起来得到类型为U的值

12.fold(zeroValue:T)(op:(T,T) => T):通过op函数聚合各分区中的元素及合并各分区的元素,op函数需要两个参数,在开始时第一个传入的参数为zeroValue,T为RDD数据集的数据类型,,其作用相当于SeqOp和comOp函数都相同的aggregate函数

13.saveAsFile(path:String):将最终的结果数据保存到指定的HDFS目录中

14.saveAsSequenceFile(path:String):将最终的结果数据以sequence的格式保存到指定的HDFS目录中
分享到:
评论

相关推荐

    spark简介及使用

    Spark 通过记录 RDD 的血缘关系(lineage)来实现容错。如果某个 RDD 的部分分区丢失,Spark 可以通过重新计算丢失的分区来恢复,这个过程依赖于 RDD 的转换历史。这种机制使得 Spark 在处理大规模数据时既高效又...

    SparkCore.docx

    3. 容错机制:RDD通过血统(lineage)实现容错,即记录其生成历史,当某个分区数据丢失时,Spark可以根据依赖关系重新计算丢失的数据,而无需重新计算整个RDD。 4. 位置感知调度:RDD的分区数据尽可能地存储在创建它...

    深入理解Spark 核心思想与源码分析

    1. **弹性分布式数据集(Resilient Distributed Datasets, RDD)**:RDD是Spark的核心数据抽象,它是一种不可变、分区的记录集合,可以在集群中进行并行操作。RDD具有容错性,当某个节点失败时,可以从其他节点重新...

    Spark技术内幕深入解析Spark内核架构设计与实现原理

    Driver负责任务调度和计算逻辑,Executor在工作节点上运行任务,Cluster Manager协调资源分配,而RDD是Spark的基本数据抽象,是不可变的、分区的记录集合。 3. **RDD操作**:RDD支持两种基本操作——转换...

    Spark实战高手之路-第5章Spark API编程动手实战(1)

    - **Spark API核心概念**:Spark的核心数据结构是RDD(Resilient Distributed Dataset),这是一种只读的分区记录集合,支持高效的数据并行处理。学习Spark API时,需要熟悉RDD的各种操作,包括转换(Transformation...

    spark源码分析

    Spark采用RDD(Resilient Distributed Datasets)作为基本数据抽象,它是一组不可变、分区的记录集合。RDD提供了转换(Transformation)和动作(Action)两种操作。转换创建新的RDD,而动作触发计算并可能返回结果到...

    Spark实战.docx

    Spark的容错机制依赖于Lineage,即RDD的血统记录,通过窄依赖和宽依赖来管理数据流。窄依赖允许快速恢复丢失的partition,而宽依赖需要将数据物化以保证容错。Spark提供了多种缓存策略,通过组合useDisk、useMemory...

    工信部Spark初级考前辅导.pdf

    此外,Spark更通用,提供了丰富的操作API,如transformation和action,还有Spark Streaming等扩展模块,而MapReduce仅支持map和reduce操作。 【Spark的版本发展】 Spark自开源以来经历了多个版本的迭代,每个新版本...

    计算机专业基础理论电子书合集09----spark

    RDD是Spark的基础数据结构,它是一个不可变、分区的记录集合。通过RDD,Spark实现了数据的并行处理和容错机制。用户可以通过转换操作(Transformation)和行动操作(Action)对RDD进行操作。此外,Spark支持多种数据...

    Spark运行架构和解析

    - **记录物化**: 记录哪些RDD或Stage的输出被持久化在内存或磁盘中。 - **重提交丢失的shuffle**: 如果某些shuffle输出丢失,DAGScheduler会重新提交相应的Stage。 - **传递TaskSet**: 将TaskSet传递给TaskScheduler...

    spark内核设计与艺术.zip

    1. **RDD(弹性分布式数据集)**:RDD是Spark的基础数据抽象,它是不可变、分区的记录集合,可以在集群中进行并行操作。RDD提供了转换(Transformation)和动作(Action)两种操作类型,转换不触发计算,而动作则会...

    storm与spark简介

    这种记录使得 Spark 在部分数据丢失时能够重新计算丢失的数据分区,而不是重新读取原始数据。 3. **算子**: - **Transformation 算子**: - **Value 型 Transformation 算子** 包括 `map`, `flatMap`, `...

    Spark-内核源码解析.docx

    RDD(Resilient Distributed Dataset)是 Spark 的基本计算单元,可以通过一系列算子进行操作(主要有 Transformation 和 Action 操作)。RDD 是 Spark 中的核心概念,可以被分区并行处理,提高了数据处理的速度和...

    Spark DataFrame详解.zip

    Action是触发Spark计算的触发器,它们将DataFrame的操作结果返回给驱动程序。常见的Action有`count()`, `collect()`, `first()`, `show()`, `save()`等。`count()`返回DataFrame中行的数量,`collect()`将所有数据...

    Spark常用的算子以及Scala函数总结.pdf

    Spark 算子大致分为两类:Transformation 算子和 Action 算子。Transformation 算子用于对 RDD 进行变换操作,例如 map、filter 等,这些操作是延迟计算的,只有在触发 Action 算子时才真正执行。Action 算子会触发 ...

    spark技术讲解

    1. **弹性分布式数据集(Resilient Distributed Datasets, RDD)**:RDD是Spark的基础数据结构,它是一种不可变、分区的记录集合。RDD具有容错性,当某个分区的数据丢失时,可以通过血统关系(Lineage)重新计算。...

    spark rdd 实战 ,基本语法

    * Action:提交 Spark 作业,当 Action 时,Transformation 类型的操作才会真正执行计算操作,然后产生最终结果输出。 容错 Lineage 容错 Lineage 是 Spark 中的一种机制,用于恢复失效的 RDD。每个 RDD 都会记录...

    sparkcore相关实例

    RDD是Spark Core中最基本的数据抽象,它是不可变的、分区的记录集合。用户可以通过并行操作(如map、filter、reduceByKey等)对RDD进行计算。RDD支持容错,当某个节点失败时,可以从父RDD重新计算丢失的分区。 3. ...

    spark-sql数据.rar

    Spark SQL是Apache Spark的一个重要模块,它允许开发者使用SQL或者DataFrame/Dataset API来处理数据。在本项目实例中,我们有一个名为"spark-sql数据.rar"的压缩包,其中包含了与Spark SQL相关的数据集,主要涉及...

Global site tag (gtag.js) - Google Analytics