spark - RDD梳理 - - ITeye博客

`

功夫小当家

浏览: 186421 次
性别:
来自: 北京

最近访客更多访客>>

aotianji1238

mangyulin

benleewindy

pengfei1410

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

一碗单炒饭：正需要，谢谢
清除eclipse中 Launch configuration的历史记录
heweina2007：非常有用。谢谢！
清除eclipse中 Launch configuration的历史记录
功夫小当家：这个也不好用了吗？之前这个办法，我这里可以解决，那你现在的办法 ...
INSTALL_FAILED_UID_CHANGED解决办法
ziyue137：设置----->安全----->未知来源，这个没有 ...
INSTALL_FAILED_UID_CHANGED解决办法
zfc645486908：您好，感谢你写这篇技术文章，对我帮助很大，刚好用到，但是我需要 ...
Android中如何把bitmap存成BMP格式的图片

spark - RDD梳理

博客分类：

spark

阅读更多

1.RDD是什么？

RDD源码中的五个特性：弹性的，分布式的，不可变的，支持并行化操作，可以分区的数据集

五个主要属性：

1个rdd可以有多个partition
如果对1个rdd作用于一个function，其实是对里面的每个split做function，1个split就是一个partition
rdd间是有一系列依赖的，例如：

（可选）对于（groupbykey）有一个Hashpartition对应于key-value类型的rdd，sortbykey对应一个range-partitioned
（可选）每个split都有一个优先推荐的locations list （注意这里是复数，why？）

2.RDD的创建方式：

从已存在的集合创建，sc.parallize(集合对象，分区数)
基于文件创建（本地，hdfs，s3上的文件），如果是本地文件，分布式环境执行的时候，要保证每个机器上都有这个文件

3.spark读写文件api：

sc.textFile

sc.sequenceFile

sc.wholeTextFiles

sc.newAPIHadoop

sc.newAPIHadoopRDD

sc.hadoopRDD

rdd.saveAsObjectFile

4.RDD的基本操作

转换，action等

查看图片附件

分享到：

spark - 部署和安装 | lzo + hive1.x测试

2018-03-19 20:24
浏览 919
评论(0)
分类:企业架构
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

mastering-spark-sql.pdf: RDD（弹性分布式数据集）是Spark最初引入的分布式数据抽象，DataFrame和Dataset都是在RDD的基础上建立的，但提供了更高级的优化和更便捷的API。文档接着介绍了Dataset API与SQL之间的关系，以及如何在Spark SQL中...

Spark机器学习视频第4课.SparkRDD原理剖析: 课时4：SparkRDD原理剖析课时5：Spark2sql从mysql中导入课时6：Spark1.6.2sql与mysql数据交互课时7：SparkSQL java操作mysql数据课时8：Spark统计用户的收藏转换率课时9：Spark梳理用户的收藏以及订单转换率 ...

Spark机器学习案例实战.pdf: 根据给定的内容，我们可以梳理出以下知识点，将它们归类并详细阐述：标题：Spark机器学习案例实战 1. Spark简介 Apache Spark是一个开源的大数据处理框架，主要用于大规模数据集的处理。它构建在Hadoop之上，提供...

spark面试题整理.pdf: 通过以上知识点的梳理，我们可以看到Apache Spark不仅是一个强大的大数据处理平台，而且具备广泛的适用范围和技术深度。对于想要深入学习和掌握Spark的开发者来说，这些知识点是非常宝贵的资料。

spark2.x实战: ### Spark2.x实战知识点梳理 #### 一、Spark概述 **1.1 Spark简介** - **定义**: Apache Spark 是一个开源的大规模数据处理框架。它提供了高性能的数据处理能力，并且支持多种编程语言如 Scala、Java 和 Python。...

Spark机器学习第1课.Spark介绍: 课时4：SparkRDD原理剖析课时5：Spark2sql从mysql中导入课时6：Spark1.6.2sql与mysql数据交互课时7：SparkSQL java操作mysql数据课时8：Spark统计用户的收藏转换率课时9：Spark梳理用户的收藏以及订单转换率 ...

Spark机器学习视频第10课.最终获取用户的收藏以及订单转换率: 课时4：SparkRDD原理剖析课时5：Spark2sql从mysql中导入课时6：Spark1.6.2sql与mysql数据交互课时7：SparkSQL java操作mysql数据课时8：Spark统计用户的收藏转换率课时9：Spark梳理用户的收藏以及订单转换率 ...

spark课程复习资料: ### Spark课程复习资料知识点梳理 #### 一、Spark 生态系统与Hadoop对比 - **Spark**：一种基于内存计算的大数据并行处理框架，旨在提高处理速度和易用性。相较于Hadoop MapReduce，Spark提供了更高效的数据处理...

Spark机器学习视频第2课.Spark2集群安装: 课时4：SparkRDD原理剖析课时5：Spark2sql从mysql中导入课时6：Spark1.6.2sql与mysql数据交互课时7：SparkSQL java操作mysql数据课时8：Spark统计用户的收藏转换率课时9：Spark梳理用户的收藏以及订单转换率 ...

Spark2.x企业级大数据项目实战（实时统计、离线分析和实时ETL）课程下载: - RDD是Spark中最基本的数据抽象，表示一个不可变的、分布式的对象集合。 - 特性：容错性、可并行操作等。 - **DataFrame**： - DataFrame是一种以RDD为基础的结构化数据表示形式，类似于表格数据。 - 使用场景...

spark思维导图，整理的spark的各个模块的简介以及主要接口.zip: 总的来说，Spark思维导图详细梳理了Spark的各模块及其主要接口，对于理解和应用Spark进行大数据机器学习非常有帮助。通过学习和掌握这些知识点，开发者可以高效地构建分布式计算系统，处理复杂的数据分析任务。

Spark快速大数据分析图谱.zip: 《Spark快速大数据分析图谱》 Spark作为当前大数据处理领域中的明星框架，因其高效、易用和可扩展性...这份“Spark快速大数据分析图谱”将帮助我们快速梳理和掌握Spark的关键知识，是学习和工作中不可或缺的参考资料。

Spark使用总结与分享: 忆苦思甜，为了避免项目组的其他同学走弯路，决定总结和梳理spark的使用经验。spark的核心是RDD（弹性分布式数据集），一种通用的数据抽象，封装了基础的数据操作，如map，filter，reduce等。RDD提供数据共享的抽象...

大数据一站式学习视频.txt: 通过以上梳理，我们可以看到这些视频资料覆盖了Java从基础到高级的多个层次，同时也深入到了大数据处理的相关技术和工具。无论是对于初学者还是有一定基础的学习者来说，都是非常宝贵的学习资源。希望这些知识点能够...

catalyst_ppt.pdf: 此外，PPT还提到了Spark的组成部分，包括Spark SQL、Spark Core（RDD）、ML Pipelines、GraphFrames、Structured Streaming以及DataFrame/Dataset等，它们共同构成了Spark平台的各个层面。最后，PPT展示了不同的...

【面试宝典】2021年超全超详细的最新大数据开发面试题，附答案解析(一版).pdf: 6. Spark的宽依赖和窄依赖：宽依赖指的是父RDD的一个分区可能会依赖于多个子RDD的分区，窄依赖则是父RDD的一个分区只依赖于子RDD的一个分区。 Kafka相关知识点： 1. Kafka使用场景：Kafka是一个分布式流处理平台，...

开源力量公开课视频教程系列: - **Spark与RDD实战**（文件源51）：深入解析Apache Spark的工作机制及其核心数据结构RDD，帮助学员快速上手大规模数据处理任务。 - **微服务架构设计**（文件源52）：探讨微服务的设计原则、部署策略及最佳实践，...

各企业的大数据面试真题: ### 大数据面试知识点梳理 #### 一、Zookeeper (zk) **定义**: Zookeeper 是一个分布式的协调服务，用于解决分布式系统中的各种基础问题，如命名服务、配置管理、集群管理和分布式锁等。 **作用**: - **解决的...

Global site tag (gtag.js) - Google Analytics