`
功夫小当家
  • 浏览: 186421 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

spark - RDD梳理

阅读更多

1.RDD是什么?

RDD源码中的五个特性:弹性的,分布式的,不可变的,支持并行化操作,可以分区的数据集

五个主要属性:

  • 1个rdd可以有多个partition
  • 如果对1个rdd作用于一个function,其实是对里面的每个split做function,1个split就是一个partition
  • rdd间是有一系列依赖的,例如:

  • (可选)对于(groupbykey)有一个Hashpartition对应于key-value类型的rdd,sortbykey对应一个range-partitioned
  • (可选)每个split都有一个优先推荐的locations list (注意这里是复数,why?)

 

2.RDD的创建方式:

  • 从已存在的集合创建,sc.parallize(集合对象,分区数)
  • 基于文件创建(本地,hdfs,s3上的文件),如果是本地文件,分布式环境执行的时候,要保证每个机器上都有这个文件

 3.spark读写文件api:

sc.textFile

sc.sequenceFile

sc.wholeTextFiles

sc.newAPIHadoop

sc.newAPIHadoopRDD

sc.hadoopRDD

rdd.saveAsObjectFile

 

4.RDD的基本操作

转换,action等

 

 

  • 大小: 4.8 KB
分享到:
评论

相关推荐

    mastering-spark-sql.pdf

    RDD(弹性分布式数据集)是Spark最初引入的分布式数据抽象,DataFrame和Dataset都是在RDD的基础上建立的,但提供了更高级的优化和更便捷的API。 文档接着介绍了Dataset API与SQL之间的关系,以及如何在Spark SQL中...

    Spark机器学习视频第4课.SparkRDD原理剖析

    课时4:SparkRDD原理剖析 课时5:Spark2sql从mysql中导入 课时6:Spark1.6.2sql与mysql数据交互 课时7:SparkSQL java操作mysql数据 课时8:Spark统计用户的收藏转换率 课时9:Spark梳理用户的收藏以及订单转换率 ...

    Spark机器学习案例实战.pdf

    根据给定的内容,我们可以梳理出以下知识点,将它们归类并详细阐述: 标题:Spark机器学习案例实战 1. Spark简介 Apache Spark是一个开源的大数据处理框架,主要用于大规模数据集的处理。它构建在Hadoop之上,提供...

    spark面试题整理.pdf

    通过以上知识点的梳理,我们可以看到Apache Spark不仅是一个强大的大数据处理平台,而且具备广泛的适用范围和技术深度。对于想要深入学习和掌握Spark的开发者来说,这些知识点是非常宝贵的资料。

    spark2.x实战

    ### Spark2.x实战知识点梳理 #### 一、Spark概述 **1.1 Spark简介** - **定义**: Apache Spark 是一个开源的大规模数据处理框架。它提供了高性能的数据处理能力,并且支持多种编程语言如 Scala、Java 和 Python。...

    Spark机器学习第1课.Spark介绍

    课时4:SparkRDD原理剖析 课时5:Spark2sql从mysql中导入 课时6:Spark1.6.2sql与mysql数据交互 课时7:SparkSQL java操作mysql数据 课时8:Spark统计用户的收藏转换率 课时9:Spark梳理用户的收藏以及订单转换率 ...

    Spark机器学习视频第10课.最终获取用户的收藏以及订单转换率

    课时4:SparkRDD原理剖析 课时5:Spark2sql从mysql中导入 课时6:Spark1.6.2sql与mysql数据交互 课时7:SparkSQL java操作mysql数据 课时8:Spark统计用户的收藏转换率 课时9:Spark梳理用户的收藏以及订单转换率 ...

    spark课程复习资料

    ### Spark课程复习资料知识点梳理 #### 一、Spark 生态系统与Hadoop对比 - **Spark**:一种基于内存计算的大数据并行处理框架,旨在提高处理速度和易用性。相较于Hadoop MapReduce,Spark提供了更高效的数据处理...

    Spark机器学习视频第2课.Spark2集群安装

    课时4:SparkRDD原理剖析 课时5:Spark2sql从mysql中导入 课时6:Spark1.6.2sql与mysql数据交互 课时7:SparkSQL java操作mysql数据 课时8:Spark统计用户的收藏转换率 课时9:Spark梳理用户的收藏以及订单转换率 ...

    Spark2.x企业级大数据项目实战(实时统计、离线分析和实时ETL)课程下载

    - RDD是Spark中最基本的数据抽象,表示一个不可变的、分布式的对象集合。 - 特性:容错性、可并行操作等。 - **DataFrame**: - DataFrame是一种以RDD为基础的结构化数据表示形式,类似于表格数据。 - 使用场景...

    spark思维导图,整理的spark的各个模块的简介以及主要接口.zip

    总的来说,Spark思维导图详细梳理了Spark的各模块及其主要接口,对于理解和应用Spark进行大数据机器学习非常有帮助。通过学习和掌握这些知识点,开发者可以高效地构建分布式计算系统,处理复杂的数据分析任务。

    Spark快速大数据分析图谱.zip

    《Spark快速大数据分析图谱》 Spark作为当前大数据处理领域中的明星框架,因其高效、易用和可扩展性...这份“Spark快速大数据分析图谱”将帮助我们快速梳理和掌握Spark的关键知识,是学习和工作中不可或缺的参考资料。

    Spark使用总结与分享

    忆苦思甜,为了避免项目组的其他同学走弯路,决定总结和梳理spark的使用经验。spark的核心是RDD(弹性分布式数据集),一种通用的数据抽象,封装了基础的数据操作,如map,filter,reduce等。RDD提供数据共享的抽象...

    大数据一站式学习视频.txt

    通过以上梳理,我们可以看到这些视频资料覆盖了Java从基础到高级的多个层次,同时也深入到了大数据处理的相关技术和工具。无论是对于初学者还是有一定基础的学习者来说,都是非常宝贵的学习资源。希望这些知识点能够...

    catalyst_ppt.pdf

    此外,PPT还提到了Spark的组成部分,包括Spark SQL、Spark Core(RDD)、ML Pipelines、GraphFrames、Structured Streaming以及DataFrame/Dataset等,它们共同构成了Spark平台的各个层面。 最后,PPT展示了不同的...

    【面试宝典】2021年超全超详细的最新大数据开发面试题,附答案解析(一版).pdf

    6. Spark的宽依赖和窄依赖:宽依赖指的是父RDD的一个分区可能会依赖于多个子RDD的分区,窄依赖则是父RDD的一个分区只依赖于子RDD的一个分区。 Kafka相关知识点: 1. Kafka使用场景:Kafka是一个分布式流处理平台,...

    开源力量公开课视频教程系列

    - **Spark与RDD实战**(文件源51):深入解析Apache Spark的工作机制及其核心数据结构RDD,帮助学员快速上手大规模数据处理任务。 - **微服务架构设计**(文件源52):探讨微服务的设计原则、部署策略及最佳实践,...

    各企业的大数据面试真题

    ### 大数据面试知识点梳理 #### 一、Zookeeper (zk) **定义**: Zookeeper 是一个分布式的协调服务,用于解决分布式系统中的各种基础问题,如命名服务、配置管理、集群管理和分布式锁等。 **作用**: - **解决的...

Global site tag (gtag.js) - Google Analytics