`

spark架构设计&编程模型 02

阅读更多

启动spark-shell:



简单的RDD:


上述代码中使用的sc,这是Spark-Shell帮助我们自动生成的SparkContext的实例:


我们把生成的RDD的每个元素都乘以3:


上述的操作都是transformations我们需要触发一个action才能执行:



我们可以看到预期结果,但我们可以看到collect操作返回的是一个Array,所以数据不要太多,否则会出现OOM

下面执行下filter操作:




真的spark编程应该是完全函数式的,我们把上述操作用一行代码搞定:



 

分享到:
评论

相关推荐

    Spark实战高手之路-第3章Spark架构设计与编程模型(4)

    根据文件内容,本章的知识点主要围绕Spark架构设计与编程模型的各个方面进行展开。首先,要成为Spark高手,必须经历以下几个阶段:熟练掌握Scala语言、精通Spark平台提供的API、深入了解Spark内核、掌握基于Spark的...

    spark高手之路-spark架构设计与编程模型

    此阶段掌握基于Spark上的核心...spark作为云计算大数据时代的集大成者,在实时流处理,图技术,机器学习,NoSQL查询等方面具有显著的优势,我们使用spark的时候大部分时间都是在使用其框架如:spark,spark Steaming等

    spark研究分析&restful架构

    Spark 以其高效的数据处理能力和易用性在大数据领域占据了主导地位,而 RESTful 架构则因其清晰的设计风格和良好的可扩展性而在分布式系统设计中得到广泛应用。结合这两种技术,可以构建出强大且灵活的数据处理和...

    Spark实战高手之路 - Spark亚太研究院.part4.rar

    【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型(1) 【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型(2) 【Spark亚太研究院系列丛书】Spark实战高手之...

    Spark实战高手之路 - Spark亚太研究院.part3.rar

    【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型(1) 【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型(2) 【Spark亚太研究院系列丛书】Spark实战高手之...

    Spark实战高手之路 - Spark亚太研究院.part2.rar

    【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型(1) 【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型(2) 【Spark亚太研究院系列丛书】Spark实战高手之...

    Spark技术内幕 深入解析Spark内核架构设计与实现原理 百度云pdf 张安站

    《Spark技术内幕:深入解析Spark内核架构设计与实现原理》是张安站所著的一本深度剖析Spark核心架构和实现细节的专业书籍。Spark作为大数据处理领域的热门框架,以其高效、易用和可扩展性备受青睐。这本书旨在帮助...

    Spark Standalone架构设计.docx

    Spark Standalone 架构设计 Spark 是一个开源的通用集群计算系统,提供了 High-level 编程 API,支持 Scala、Java 和 Python 三种编程语言。Spark 内核使用 Scala 语言编写,通过基于 Scala 的函数式编程特性,在...

    【Spark大数据习题】习题-Spark SQL&&&Kafka&& HBase&&HivePDF资源路径-Spark2

    Spark的运行架构由SparkContext、Cluster Manager和Worker组成,其中SparkContext是应用程序的入口点。 Spark SQL是Spark处理结构化数据的模块,它允许用户使用SQL或者DataFrame/Dataset API进行查询。Spark比...

    Spark实战高手之路 - Spark亚太研究院.part1.rar

    【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型(1) 【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型(2) 【Spark亚太研究院系列丛书】Spark实战高手之...

    Spark技术内幕 深入解析Spark内核架构设计与实现原理 高清 完整书签

    5. **Spark SQL与DataFrame/Dataset**:探讨Spark SQL如何提供SQL接口进行结构化数据处理,介绍DataFrame和Dataset的概念,它们如何作为统一的数据抽象层,简化编程模型。 6. **Spark Streaming**:讲解Spark ...

    Spark技术内幕深入解析Spark内核架构设计与实现原理.pdf

    3. **Spark架构**:Spark由Driver Program、Cluster Manager和Worker Node三部分组成。Driver负责任务调度,Cluster Manager管理资源分配,Worker Node执行实际计算任务。 4. **Spark运行模式**:Spark支持Local、...

    Spark运行架构和解析

    Spark是一个高效的数据处理框架,它通过一种灵活且强大的编程模型支持多种计算模式,包括批处理、流处理以及交互式查询等。为了更好地理解Spark如何高效地进行数据处理,我们需要深入了解其内部的工作原理和运行架构...

    Spark编程模型和解析.pdf

    Apache Spark是一个开源的大数据处理框架,它基于内存计算...总之,Spark以其强大的功能和灵活性,在大数据处理领域得到了广泛应用,其编程模型和底层架构设计使得它在大规模数据处理方面具备了出色的性能和容错能力。

    Spark技术内幕深入解析Spark内核架构设计与实现原理

    3. **Spark架构**:Spark采用主-从架构,由Driver Program、Cluster Manager和Worker Node组成。Driver负责任务调度,Cluster Manager管理资源,Worker Node执行任务。 4. **RDD(Resilient Distributed Datasets)...

    ApacheSpark设计与实现.pdf+ApacheSpark源码剖析.pdf+Spark原著中文版.pdf

    3. **Spark架构**:Driver、Executor、Cluster Manager的角色,以及如何通过SparkContext启动计算任务。 4. **内存管理**:Spark如何利用内存进行快速计算,包括Tachyon和Spark Shuffle的过程。 5. **容错机制**:...

    《Spark 编程基础》 教材讲义 厦门大学 林子雨

    第3章《Spark的设计与运行原理》深入探讨了Spark的架构和核心组件,如RDD(弹性分布式数据集)和DAG(有向无环图)。这部分内容将帮助读者理解Spark如何处理数据并实现快速计算。 第4章《Spark环境搭建和使用方法》...

    《Spark编程基础及项目实践》课后习题及答案3.pdf

    这些习题覆盖了Spark的基础知识,包括架构、计算模型、内存管理和容错策略,这对于理解和应用Spark进行大数据处理至关重要。理解这些知识点,能够帮助开发者有效地编写Spark程序,优化性能,并确保系统的高可用性。...

    架构设计实践之路

    理解MapReduce编程模型,熟悉流处理(如Apache Flink或Spark Streaming)和批处理的区别,以及如何设计数据湖和数据仓库是大数据架构设计的重点。 5. **最佳路线与实践**:架构设计不仅需要理论知识,更需实践经验...

Global site tag (gtag.js) - Google Analytics