Spark collect和take函数学习(RDD-->Array)

艾伦蓝

浏览: 614247 次
性别:
来自: 厦门

最近访客更多访客>>

stephen830

njdccy

lzy8828

WangJiaX

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Spark

将RDD转成Scala数组，并返回。

函数原型

def collect(): Array[T]  
def collect[U: ClassTag](f: PartialFunction[T, U]): RDD[U]

实例

scala> val one: PartialFunction[Int, String] = { case 1 => "one"; case _ => "other"}  
one: PartialFunction[Int,String] = <function1>  
  
scala> val data = sc.parallelize(List(2,3,1))  
data: org.apache.spark.rdd.RDD[Int] =   
　　　　ParallelCollectionRDD[11] at parallelize at <console>:12  
  
scala> data.collect(one).collect  
res4: Array[String] = Array(other, other, one)

注意

如果数据量比较大的时候，尽量不要使用collect函数，因为这可能导致Driver端内存溢出问题。

建议使用 take(x:Int): rdd.take(100).foreach(println)
而不使用rdd.collect().foreach(println)。

take获取RDD的前几个值

因为后者会导致内存溢出！！

分享到：

Hadoop MapReduce处理wordcount代码分析 | Spark MLlib平台的协同过滤算法---电影推 ...

2017-04-27 15:44
浏览 2127
评论(0)
分类:编程语言
查看更多

发表评论

文章已被作者锁定，不允许评论。

相关推荐

sparkrdd的讲解: Spark提供了两种主要的分片函数：基于哈希的`HashPartitioner`和基于范围的`RangePartitioner`。 - **数据访问位置**：RDD维护了一个优先位置列表，指明了每个分区的最佳计算位置，这有助于实现位置感知性调度，...

Spark RDD 资料: 假设有一个文本文件 `hello.txt`，Spark 会将其读入成为一个 RDD，然后通过一系列的 Transformation 操作（如 `flatMap`, `map` 和 `reduceByKey` 或 `foldByKey` 等）处理数据，最后通过 Action 操作（如 `collect`...

Spark RDD Instrocution: sparkRDD.take(3).foreach(println) ``` #### 五、Word Count 示例 Word Count 是 Spark 最经典的示例之一，展示了如何使用 RDD 进行简单的文本处理。下面是一步一步实现 Word Count 的示例代码： ```scala // ...

spark的常用操作: Apache Spark 是一种快速且通用的大规模数据处理引擎，它支持多种计算模式，包括批处理、实时数据流处理、机器学习和图形处理等。Spark 提供了一个高度统一的编程模型，使得开发者能够以简单的方式处理大规模的数据...

少儿编程scratch项目源代码文件案例素材-绝地求生.zip: 少儿编程scratch项目源代码文件案例素材-绝地求生.zip

嵌入式八股文面试题库资料知识宝典-文思创新面试题2010-04-08.zip: 嵌入式八股文面试题库资料知识宝典-文思创新面试题2010-04-08.zip

一种基于剪切波和特征信息检测的太阳斑点图融合算法.pdf: 一种基于剪切波和特征信息检测的太阳斑点图融合算法.pdf

并联型APF有源电力滤波器Matlab Simulink仿真：dq与αβ坐标系下的谐波无功检测与PI控制及SVPWM调制: 内容概要：本文详细介绍了并联型有源电力滤波器（APF）在Matlab/Simulink环境下的仿真研究。主要内容涵盖三个关键技术点：一是dq与αβ坐标系下的谐波和无功检测，利用dq变换和FBD技术实现实时检测；二是两相旋转坐标系（dq）与两相静止坐标系（αβ）下的PI控制，通过调整比例和积分环节实现精准控制；三是SVPWM调制方式的应用，通过优化开关时序提升系统效率和性能。文中还提供了详细的仿真介绍文档，包括模型搭建、参数设定以及结果分析。适合人群：从事电力电子、自动化控制领域的研究人员和技术人员，尤其是对电力滤波器仿真感兴趣的读者。使用场景及目标：适用于需要深入了解并联型APF工作原理和实现方式的研究人员，旨在通过仿真工具掌握谐波和无功检测、PI控制及SVPWM调制的具体应用。其他说明：本文不仅提供了理论知识，还结合了实际操作步骤，使读者能够通过仿真模型加深对APF的理解。

Arduino KEY实验例程【正点原子ESP32S3】: Arduino KEY实验例程，开发板：正点原子EPS32S3，本人主页有详细实验说明可供参考。

嵌入式八股文面试题库资料知识宝典-嵌入式C语言面试题汇总(66页带答案).zip: 嵌入式八股文面试题库资料知识宝典-嵌入式C语言面试题汇总(66页带答案).zip

.archivetempdebug.zip: .archivetempdebug.zip

嵌入式系统开发_CH551单片机_USB_HID复合设备模拟_基于CH551单片机的USB键盘鼠标复合设备模拟器项目_用于通过CH551微控制器模拟USB键盘和鼠标输入设备_实现硬.zip: 嵌入式系统开发_CH551单片机_USB_HID复合设备模拟_基于CH551单片机的USB键盘鼠标复合设备模拟器项目_用于通过CH551微控制器模拟USB键盘和鼠标输入设备_实现硬

少儿编程scratch项目源代码文件案例素材-剑客冲刺.zip: 少儿编程scratch项目源代码文件案例素材-剑客冲刺.zip

少儿编程scratch项目源代码文件案例素材-火影.zip: 少儿编程scratch项目源代码文件案例素材-火影.zip

两极式单相光伏并网系统的Boost电路与桥式逆变仿真及优化方法: 内容概要：本文详细介绍了两极式单相光伏并网系统的组成及其仿真优化方法。前级采用Boost电路结合扰动观察法(P&O)进行最大功率点跟踪(MPPT)，将光伏板输出电压提升至并网所需水平；后级利用全桥逆变加L型滤波以及电压外环电流内环控制，确保并网电流与电网电压同频同相，实现高效稳定的并网传输。文中还提供了具体的仿真技巧，如开关频率设置、L滤波参数计算和并网瞬间软启动等，最终实现了98.2%的系统效率和低于0.39%的总谐波失真率(THD)。适合人群：从事光伏并网系统研究、设计和开发的技术人员，特别是对Boost电路、MPPT算法、逆变技术和双环控制系统感兴趣的工程师。使用场景及目标：适用于希望深入了解两极式单相光伏并网系统的工作原理和技术细节的研究人员和工程师。目标是在实际项目中应用这些理论和技术，提高光伏并网系统的效率和稳定性。其他说明：文中提供的仿真技巧和伪代码有助于读者更好地理解和实现相关算法，在实践中不断优化系统性能。同时，注意电网电压跌落时快速切换到孤岛模式的需求，确保系统的安全性和可靠性。

昭通乡镇边界，矢量边界，shp格式: 矢量边界，行政区域边界，精确到乡镇街道，可直接导入arcgis使用

嵌入式八股文面试题库资料知识宝典-嵌入式c面试.zip: 嵌入式八股文面试题库资料知识宝典-嵌入式c面试.zip

嵌入式八股文面试题库资料知识宝典-I2C总线.zip: 嵌入式八股文面试题库资料知识宝典-I2C总线.zip

岩土工程中随机裂隙网络注浆模型及其应用：不同压力下注浆效果的研究: 内容概要：本文详细介绍了三种注浆模型——随机裂隙网络注浆模型、基于两相达西定律的注浆模型、基于层流和水平集的注浆扩散模型。首先，随机裂隙网络注浆模型基于地质学原理，模拟裂隙网络发育的实际地质情况，在不同注浆压力下进行注浆作业，以增强地基稳定性和提高承载能力。其次，基于两相达西定律的注浆模型利用数学公式模拟裂隙网络中的流体输送过程，适用于裂隙网络地质条件下的注浆效果分析。最后，基于层流和水平集的注浆扩散模型通过引入层流特性和水平集方法，更准确地模拟注浆过程中的扩散过程。文中还讨论了不同注浆压力对注浆效果的影响，并提出了优化建议。适合人群：从事岩土工程、地基加固等相关领域的工程师和技术人员。使用场景及目标：①帮助工程师选择合适的注浆模型和注浆压力；②为实际工程项目提供理论支持和技术指导；③提升地基加固的效果和效率。其他说明：文章强调了在实际应用中需要结合地质条件、裂隙网络特点等因素进行综合分析，以达到最佳注浆效果。同时，鼓励不断创新注浆工艺和方法，以满足日益增长的地基加固需求。

COMSOL Multiphysics 5.5与6.0版本Ar棒板粗通道流注放电仿真的电子特性分析: 内容概要：本文详细比较了COMSOL Multiphysics软件5.5和6.0版本在模拟Ar棒板粗通道流注放电现象方面的异同。重点探讨了不同版本在处理电子密度、电子温度、电场强度以及三维视图等方面的优缺点。文中不仅介绍了各版本特有的操作方式和技术特点，还提供了具体的代码实例来展示如何进行精确的仿真设置。此外，文章还讨论了网格划分、三维数据提取和电场强度后处理等方面的技术难点及其解决方案。适合人群：从事等离子体物理研究的专业人士，尤其是熟悉COMSOL Multiphysics软件并希望深入了解其最新特性的研究人员。使用场景及目标：帮助用户选择合适的COMSOL版本进行高效、精确的等离子体仿真研究，特别是在处理复杂的Ar棒板粗通道流注放电现象时提供指导。其他说明：文章强调了在实际应用中，选择COMSOL版本不仅要考虑便捷性和视觉效果，还需兼顾仿真精度和可控性。

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Spark collect和take函数学习(RDD-->Array)

评论

发表评论

相关推荐

Spark 会把数据都载入到内存吗

Spark Driver和Executor资源调度学习

Spark 实现TopN的问题（groupBy）

Spark block和partition的区别

Spark 什么是DAG（有向无环图）（窄依赖和宽依赖）

Spark 为什么比Hadoop快

Spark 集群的搭建（1.6.3）

Spark shuffle实现详细探究学习

Spark MLlib平台的协同过滤算法---电影推荐系统学习

Spark parallelize函数和makeRDD函数的区别(Array-->RDD)

Spark Streaming实时计算学习

Spark 集群的搭建学习(1.6.3)

Spark SQL简单示例学习

Spark RDD基于内存的集群计算容错抽象（核心概念）

Spark 入门知识学习

最近访客更多访客>>