1.RDD是什么?
RDD源码中的五个特性:弹性的,分布式的,不可变的,支持并行化操作,可以分区的数据集
五个主要属性:
- 1个rdd可以有多个partition
- 如果对1个rdd作用于一个function,其实是对里面的每个split做function,1个split就是一个partition
- rdd间是有一系列依赖的,例如:
- (可选)对于(groupbykey)有一个Hashpartition对应于key-value类型的rdd,sortbykey对应一个range-partitioned
- (可选)每个split都有一个优先推荐的locations list (注意这里是复数,why?)
2.RDD的创建方式:
- 从已存在的集合创建,sc.parallize(集合对象,分区数)
- 基于文件创建(本地,hdfs,s3上的文件),如果是本地文件,分布式环境执行的时候,要保证每个机器上都有这个文件
3.spark读写文件api:
sc.textFile sc.sequenceFile sc.wholeTextFiles sc.newAPIHadoop sc.newAPIHadoopRDD sc.hadoopRDD rdd.saveAsObjectFile
4.RDD的基本操作
转换,action等
相关推荐
RDD(弹性分布式数据集)是Spark最初引入的分布式数据抽象,DataFrame和Dataset都是在RDD的基础上建立的,但提供了更高级的优化和更便捷的API。 文档接着介绍了Dataset API与SQL之间的关系,以及如何在Spark SQL中...
课时4:SparkRDD原理剖析 课时5:Spark2sql从mysql中导入 课时6:Spark1.6.2sql与mysql数据交互 课时7:SparkSQL java操作mysql数据 课时8:Spark统计用户的收藏转换率 课时9:Spark梳理用户的收藏以及订单转换率 ...
根据给定的内容,我们可以梳理出以下知识点,将它们归类并详细阐述: 标题:Spark机器学习案例实战 1. Spark简介 Apache Spark是一个开源的大数据处理框架,主要用于大规模数据集的处理。它构建在Hadoop之上,提供...
通过以上知识点的梳理,我们可以看到Apache Spark不仅是一个强大的大数据处理平台,而且具备广泛的适用范围和技术深度。对于想要深入学习和掌握Spark的开发者来说,这些知识点是非常宝贵的资料。
### Spark2.x实战知识点梳理 #### 一、Spark概述 **1.1 Spark简介** - **定义**: Apache Spark 是一个开源的大规模数据处理框架。它提供了高性能的数据处理能力,并且支持多种编程语言如 Scala、Java 和 Python。...
课时4:SparkRDD原理剖析 课时5:Spark2sql从mysql中导入 课时6:Spark1.6.2sql与mysql数据交互 课时7:SparkSQL java操作mysql数据 课时8:Spark统计用户的收藏转换率 课时9:Spark梳理用户的收藏以及订单转换率 ...
课时4:SparkRDD原理剖析 课时5:Spark2sql从mysql中导入 课时6:Spark1.6.2sql与mysql数据交互 课时7:SparkSQL java操作mysql数据 课时8:Spark统计用户的收藏转换率 课时9:Spark梳理用户的收藏以及订单转换率 ...
### Spark课程复习资料知识点梳理 #### 一、Spark 生态系统与Hadoop对比 - **Spark**:一种基于内存计算的大数据并行处理框架,旨在提高处理速度和易用性。相较于Hadoop MapReduce,Spark提供了更高效的数据处理...
课时4:SparkRDD原理剖析 课时5:Spark2sql从mysql中导入 课时6:Spark1.6.2sql与mysql数据交互 课时7:SparkSQL java操作mysql数据 课时8:Spark统计用户的收藏转换率 课时9:Spark梳理用户的收藏以及订单转换率 ...
- RDD是Spark中最基本的数据抽象,表示一个不可变的、分布式的对象集合。 - 特性:容错性、可并行操作等。 - **DataFrame**: - DataFrame是一种以RDD为基础的结构化数据表示形式,类似于表格数据。 - 使用场景...
总的来说,Spark思维导图详细梳理了Spark的各模块及其主要接口,对于理解和应用Spark进行大数据机器学习非常有帮助。通过学习和掌握这些知识点,开发者可以高效地构建分布式计算系统,处理复杂的数据分析任务。
《Spark快速大数据分析图谱》 Spark作为当前大数据处理领域中的明星框架,因其高效、易用和可扩展性...这份“Spark快速大数据分析图谱”将帮助我们快速梳理和掌握Spark的关键知识,是学习和工作中不可或缺的参考资料。
忆苦思甜,为了避免项目组的其他同学走弯路,决定总结和梳理spark的使用经验。spark的核心是RDD(弹性分布式数据集),一种通用的数据抽象,封装了基础的数据操作,如map,filter,reduce等。RDD提供数据共享的抽象...
通过以上梳理,我们可以看到这些视频资料覆盖了Java从基础到高级的多个层次,同时也深入到了大数据处理的相关技术和工具。无论是对于初学者还是有一定基础的学习者来说,都是非常宝贵的学习资源。希望这些知识点能够...
此外,PPT还提到了Spark的组成部分,包括Spark SQL、Spark Core(RDD)、ML Pipelines、GraphFrames、Structured Streaming以及DataFrame/Dataset等,它们共同构成了Spark平台的各个层面。 最后,PPT展示了不同的...
6. Spark的宽依赖和窄依赖:宽依赖指的是父RDD的一个分区可能会依赖于多个子RDD的分区,窄依赖则是父RDD的一个分区只依赖于子RDD的一个分区。 Kafka相关知识点: 1. Kafka使用场景:Kafka是一个分布式流处理平台,...
- **Spark与RDD实战**(文件源51):深入解析Apache Spark的工作机制及其核心数据结构RDD,帮助学员快速上手大规模数据处理任务。 - **微服务架构设计**(文件源52):探讨微服务的设计原则、部署策略及最佳实践,...
### 大数据面试知识点梳理 #### 一、Zookeeper (zk) **定义**: Zookeeper 是一个分布式的协调服务,用于解决分布式系统中的各种基础问题,如命名服务、配置管理、集群管理和分布式锁等。 **作用**: - **解决的...