Spark API编程动手实战-01-以本地模式进行Spark API实战map、filter和collect - stark_summer - ITeye博客

`

Stark_Summer

浏览: 727355 次
性别:
来自: 大连

最近访客更多访客>>

loginboot

街头诗人

ahww520

sz_jack

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

lixuanbin： iteye已经快要tj了吧。。
iteye为什么不支持markdown?
haorengoodman： Tachyon 能在做数据分类吗？例如我有一坨hdfs文件，将 ...
tachyon与hdfs,以及spark整合
lee3836：求源码，大牛
clover分布式任务调度系统
cfan37： ...
sparksql与hive整合
greemranqq： 9.9 送上，希望博客长久~。~
【【【【【#####>>>>>【关于我】【您·的·支·持·是·我·最·大·的·动·力】<<<<<#####】】】】】

Spark API编程动手实战-01-以本地模式进行Spark API实战map、filter和collect

博客分类：

spark

spark-shell parallelize map filter sc

阅读更多

首先以spark的本地模式测试spark API，以local的方式运行spark-shell：

先从parallelize入手吧：

map操作后结果：

下面看下 filter操作：

filter执行结果：

我们用最正宗的scala函数式编程的风格：

执行结果：

从结果可以看出来，与之前那种分步奏方式结果是一样的

但采用这种方式，即是复合scala风格的写法，也是符合spark的应用程序风格的写法，在spark的编程中，大多数功能的实现都是只要一行代码即可完成。

0
顶

0
踩

分享到：

Spark API编程动手实战-02-以集群模式进行 ... | spark内核揭秘-14-Spark性能优化的10大问 ...

2015-01-27 15:16
浏览 3953
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Spark实战高手之路-第5章Spark API编程动手实战（1）: ### Spark实战高手之路-第5章Spark API编程动手实战（1） #### 一、基础知识概述 **Spark**作为一项先进的大数据处理技术，在云计算领域占据着举足轻重的地位。本书《Spark实战高手之路》旨在帮助读者从零开始，...

spark-scala-api: Spark Scala API 是一个用于大数据处理的强大工具，它结合了Apache Spark的高性能计算框架与Scala编程语言的简洁性和表达力。这个zip压缩包很可能是包含了Spark的Scala开发接口及相关示例，便于开发者在Scala环境中...

spark-programming-guide（Spark 编程指南）-高清文字版: ### Spark 编程指南知识点概览 #### 一、引言 ...以上是对“Spark 编程指南”中的关键知识点进行的概览，旨在为初学者提供一个全面的理解框架，同时也能作为有经验的开发者复习和查阅的参考资料。

大数据Spark实战高手之路1---熟练的掌握Scala语言系列课程: 在当前的大数据处理领域，Apache Spark作为主流的数据处理框架之一，以其强大的数据处理能力、高效的内存计算模式及丰富的API支持备受青睐。而Scala作为Spark的主要开发语言，其简洁、高效的特点使得学习和掌握Scala...

Spark 编程基础（Scala 版）-机房上机实验指南: 以上内容详细介绍了《Spark 编程基础（Scala 版）》这本书的主要知识点，包括Spark的基本概念、Scala语言基础、Spark与Scala的集成方式、Spark核心API的使用、数据处理技术以及高级特性介绍等。通过本书的学习，读者...

spark使用案例------: 通过Spark的转换（如map、filter、reduceByKey等）和动作（如count、collect、saveAsTextFile等）操作，我们可以对RDD进行复杂的并行计算。DataFrame和DataSet是Spark 2.0引入的新特性，它们提供了更高级别的抽象，...

sparkAPI.zip|sparkAPI.zip: 通过transformations（如map、filter、reduceByKey）和actions（如count、collect）对RDD进行操作。 - **DataFrame和Dataset**：DataFrame是Spark SQL引入的结构化数据处理接口，它是表格形式的数据集。Dataset是...

Apache-Spark-The-Definitive-Guide-Excerpts-R1.pdf: - **转换操作**：例如 map、filter 和 reduceByKey 等，这些操作创建新的 RDD，但不立即执行。 - **行动操作**：例如 count、collect 和 save 等，这些操作触发实际的计算过程。除了 RDD，Spark 还提供了更高级的 ...

02Spark编程模型和解析: Spark编程模型的核心在于通过定义`Driver`和`Executor`的角色以及使用RDD来进行数据的转换和操作。通过对输入数据的并行化处理、利用Transformations和Actions来构建复杂的计算流程，Spark能够高效地处理大规模数据...

Spark 1.0.0 API (java): Spark 1.0.0版本是其发展中的一个重要里程碑，为开发者提供了强大的分布式计算能力，特别是对于Java开发者而言，Spark提供了丰富的Java API，使得在Java环境中进行大数据处理变得更加便捷。 ### 1. Spark核心概念 ...

spark-rdd-APi: 标题：“Spark RDD API”说明了本文档将专注于Apache Spark中弹性分布式数据集（RDD）的API。RDD是Spark的核心概念，它是一个容错的、并行的数据结构，使得用户能够处理大数据集。本文档将基于Scala语言中的RDD实现...

spark 2.0.1 JavaAPI: 在Java API方面，Spark提供了丰富的类库和接口，使得开发人员能够利用Java语言方便地进行分布式计算。本资源是关于Spark 2.0.1 Java API的详细指南，通常以CHM（Microsoft HTML Help）格式呈现，这种格式便于用户...

Spark 1.0.2 API (Scala): Scala作为Spark的主要编程语言，提供了丰富的API接口，使得数据处理变得更加简单高效。本文将深入探讨Spark 1.0.2 API在Scala中的核心概念、主要组件以及关键API的使用方法。 1. **RDD（Resilient Distributed ...

《Spark编程基础及项目实践》课后答案.zip: Transformations（转换）如map、filter、reduceByKey等用于创建新的RDD，它们是懒惰执行的，只有在行动操作（如count、collect）触发时才会进行计算。四、Actions Actions是触发计算并返回结果到Driver的函数，如...

spark2.1.0.chm（spark java API）: 2. RDD操作：包括转换（transformations）如`map()`, `filter()`, 和行动（actions）如`count()`, `collect()`。转换不会立即执行，而是在有行动触发时进行计算。 3. DataFrame和Dataset操作：Java API提供了`...

【Spark大数据习题】习题-Spark SQL&&&Kafka&& HBase&&HivePDF资源路径-Spark2: RDD的操作分为转换操作（如map、filter）和行动操作（如count、collect）。RDD的依赖关系有两种：窄依赖和宽依赖，这决定了任务调度和Stage划分。RDD的分区策略包括哈希分区和范围分区，以优化数据分布。为了实现...

apache-spark-best-practices-and-tuning: Apache Spark 是一个快速的通用计算引擎，支持批量处理和实时数据处理，非常适合处理大规模数据集。为了确保Spark应用运行高效，开发者需要遵循一系列最佳实践，并进行性能调试。本文将详细讨论这些实践和调试技巧。...

Apache Spark源码走读之2 -- Job的提交与运行: 3.RDD的转换（Transformation）与行动（Action）：用户通过RDD提供的方法来进行数据的转换，例如filter、map等操作，而执行结果的动作比如count、collect等会触发作业的运行。 4. 作业的拆分与调度：Spark的作业...

spark企业级大数据项目实战.docx: 转换操作如map、filter和reduceByKey，动作操作如count、collect和saveAsTextFile，这些都是Spark编程中的常用操作。其次，Spark提供了多种部署模式，包括本地模式、集群模式（如standalone、Mesos、YARN）等，...

Global site tag (gtag.js) - Google Analytics