Spark collect和take函数学习(RDD-->Array)

艾伦蓝

浏览: 614234 次
性别:
来自: 厦门

最近访客更多访客>>

stephen830

njdccy

lzy8828

WangJiaX

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Spark

将RDD转成Scala数组，并返回。

函数原型

def collect(): Array[T]  
def collect[U: ClassTag](f: PartialFunction[T, U]): RDD[U]

实例

scala> val one: PartialFunction[Int, String] = { case 1 => "one"; case _ => "other"}  
one: PartialFunction[Int,String] = <function1>  
  
scala> val data = sc.parallelize(List(2,3,1))  
data: org.apache.spark.rdd.RDD[Int] =   
　　　　ParallelCollectionRDD[11] at parallelize at <console>:12  
  
scala> data.collect(one).collect  
res4: Array[String] = Array(other, other, one)

注意

如果数据量比较大的时候，尽量不要使用collect函数，因为这可能导致Driver端内存溢出问题。

建议使用 take(x:Int): rdd.take(100).foreach(println)
而不使用rdd.collect().foreach(println)。

take获取RDD的前几个值

因为后者会导致内存溢出！！

分享到：

Hadoop MapReduce处理wordcount代码分析 | Spark MLlib平台的协同过滤算法---电影推 ...

2017-04-27 15:44
浏览 2126
评论(0)
分类:编程语言
查看更多

发表评论

文章已被作者锁定，不允许评论。

相关推荐

sparkrdd的讲解: Spark提供了两种主要的分片函数：基于哈希的`HashPartitioner`和基于范围的`RangePartitioner`。 - **数据访问位置**：RDD维护了一个优先位置列表，指明了每个分区的最佳计算位置，这有助于实现位置感知性调度，...

Spark RDD 资料: 假设有一个文本文件 `hello.txt`，Spark 会将其读入成为一个 RDD，然后通过一系列的 Transformation 操作（如 `flatMap`, `map` 和 `reduceByKey` 或 `foldByKey` 等）处理数据，最后通过 Action 操作（如 `collect`...

Spark RDD Instrocution: sparkRDD.take(3).foreach(println) ``` #### 五、Word Count 示例 Word Count 是 Spark 最经典的示例之一，展示了如何使用 RDD 进行简单的文本处理。下面是一步一步实现 Word Count 的示例代码： ```scala // ...

spark的常用操作: Apache Spark 是一种快速且通用的大规模数据处理引擎，它支持多种计算模式，包括批处理、实时数据流处理、机器学习和图形处理等。Spark 提供了一个高度统一的编程模型，使得开发者能够以简单的方式处理大规模的数据...

SNS单模无芯光纤仿真与传感器结构特性分析——基于Rsoft beamprop模块: 内容概要：本文主要探讨了SNS单模无芯光纤的仿真分析及其在通信和传感领域的应用潜力。首先介绍了模间干涉仿真的重要性，利用Rsoft beamprop模块模拟不同模式光在光纤中的传播情况，进而分析光纤的传输性能和模式特性。接着讨论了光纤传输特性的仿真，包括损耗、色散和模式耦合等参数的评估。随后，文章分析了光纤的结构特性，如折射率分布、包层和纤芯直径对性能的影响，并探讨了镀膜技术对光纤性能的提升作用。最后，进行了变形仿真分析，研究外部因素导致的光纤变形对其性能的影响。通过这些分析，为优化光纤设计提供了理论依据。适合人群：从事光纤通信、光学工程及相关领域的研究人员和技术人员。使用场景及目标：适用于需要深入了解SNS单模无芯光纤特性和优化设计的研究项目，旨在提高光纤性能并拓展其应用场景。其他说明：本文不仅提供了详细的仿真方法和技术细节，还对未来的发展方向进行了展望，强调了SNS单模无芯光纤在未来通信和传感领域的重要地位。

发那科USM通讯程序socket-rece: 发那科USM通讯程序socket-set

嵌入式八股文面试题库资料知识宝典-WIFI.zip: 嵌入式八股文面试题库资料知识宝典-WIFI.zip

JS+HTML源码与image: 源码与image

物流行业车辆路径优化：基于遗传算法和其他优化算法的MATLAB实现及应用: 内容概要：本文详细探讨了物流行业中路径规划与车辆路径优化（VRP）的问题，特别是针对冷链物流、带时间窗的车辆路径优化（VRPTW）、考虑充电桩的车辆路径优化（EVRP）以及多配送中心情况下的路径优化。文中不仅介绍了遗传算法、蚁群算法、粒子群算法等多种优化算法的理论背景，还提供了完整的MATLAB代码及注释，帮助读者理解这些算法的具体实现。此外，文章还讨论了如何通过MATLAB处理大量数据和复杂计算，以得出最优的路径方案。适合人群：从事物流行业的研究人员和技术人员，尤其是对路径优化感兴趣的开发者和工程师。使用场景及目标：适用于需要优化车辆路径的企业和个人，旨在提高配送效率、降低成本、确保按时交付货物。通过学习本文提供的算法和代码，读者可以在实际工作中应用这些优化方法，提升物流系统的性能。其他说明：为了更好地理解和应用这些算法，建议读者参考相关文献和教程进行深入学习。同时，实际应用中还需根据具体情况进行参数调整和优化。

嵌入式八股文面试题库资料知识宝典-C and C++ normal interview_8.doc.zip: 嵌入式八股文面试题库资料知识宝典-C and C++ normal interview_8.doc.zip

基于灰狼优化算法的城市路径规划Matlab实现——解决TSP问题: 内容概要：本文介绍了基于灰狼优化算法（GWO）的城市路径规划优化问题（TSP），并通过Matlab实现了该算法。文章详细解释了GWO算法的工作原理，包括寻找猎物、围捕猎物和攻击猎物三个阶段，并提供了具体的代码示例。通过不断迭代优化路径，最终得到最优的城市路径规划方案。与传统TSP求解方法相比，GWO算法具有更好的全局搜索能力和较快的收敛速度，适用于复杂的城市环境。尽管如此，算法在面对大量城市节点时仍面临运算时间和参数设置的挑战。适合人群：对路径规划、优化算法感兴趣的科研人员、学生以及从事交通规划的专业人士。使用场景及目标：①研究和开发高效的路径规划算法；②优化城市交通系统，提升出行效率；③探索人工智能在交通领域的应用。其他说明：文中提到的代码可以作为学习和研究的基础，但实际应用中需要根据具体情况调整算法参数和优化策略。

嵌入式八股文面试题库资料知识宝典-Intel3.zip: 嵌入式八股文面试题库资料知识宝典-Intel3.zip

嵌入式八股文面试题库资料知识宝典-2019京东C++.zip: 嵌入式八股文面试题库资料知识宝典-2019京东C++.zip

嵌入式八股文面试题库资料知识宝典-北京光桥科技有限公司面试题.zip: 嵌入式八股文面试题库资料知识宝典-北京光桥科技有限公司面试题.zip

物理学领域十字形声子晶体的能带与传输特性研究及应用: 内容概要：本文详细探讨了十字形声子晶体的能带结构和传输特性。首先介绍了声子晶体作为新型周期性结构在物理学和工程学中的重要地位，特别是十字形声子晶体的独特结构特点。接着从散射体的形状、大小、排列周期等方面分析了其对能带结构的影响，并通过理论计算和仿真获得了能带图。随后讨论了十字形声子晶体的传输特性，即它对声波的调控能力，包括传播速度、模式和能量分布的变化。最后通过大量实验和仿真验证了理论分析的正确性，并得出结论指出散射体的材料、形状和排列方式对其性能有重大影响。适合人群：从事物理学、材料科学、声学等相关领域的研究人员和技术人员。使用场景及目标：适用于希望深入了解声子晶体尤其是十字形声子晶体能带与传输特性的科研工作者，旨在为相关领域的创新和发展提供理论支持和技术指导。其他说明：文中还对未来的研究方向进行了展望，强调了声子晶体在未来多个领域的潜在应用价值。

嵌入式系统开发_USB主机控制器_Arduino兼容开源硬件_基于Mega32U4和MAX3421E芯片的USB设备扩展开发板_支持多种USB外设接入与控制的通用型嵌入式开发平台_.zip: 嵌入式系统开发_USB主机控制器_Arduino兼容开源硬件_基于Mega32U4和MAX3421E芯片的USB设备扩展开发板_支持多种USB外设接入与控制的通用型嵌入式开发平台_

e2b8a-main.zip: e2b8a-main.zip

少儿编程scratch项目源代码文件案例素材-火柴人跑酷(2).zip: 少儿编程scratch项目源代码文件案例素材-火柴人跑酷(2).zip

【HarmonyOS分布式技术】远程启动子系统详解：跨设备无缝启动与智能协同的应用场景及未来展望: 内容概要：本文详细介绍了HarmonyOS分布式远程启动子系统，该系统作为HarmonyOS的重要组成部分，旨在打破设备间的界限，实现跨设备无缝启动、智能设备选择和数据同步与连续性等功能。通过分布式软总线和分布式数据管理技术，它能够快速、稳定地实现设备间的通信和数据同步，为用户提供便捷的操作体验。文章还探讨了该系统在智能家居、智能办公和教育等领域的应用场景，展示了其在提升效率和用户体验方面的巨大潜力。最后，文章展望了该系统的未来发展，强调其在技术优化和应用场景拓展上的无限可能性。适合人群：对HarmonyOS及其分布式技术感兴趣的用户、开发者和行业从业者。使用场景及目标：①理解HarmonyOS分布式远程启动子系统的工作原理和技术细节；②探索该系统在智能家居、智能办公和教育等领域的具体应用场景；③了解该系统为开发者提供的开发优势和实践要点。其他说明：本文不仅介绍了HarmonyOS分布式远程启动子系统的核心技术和应用场景，还展望了其未来的发展方向。通过阅读本文，用户可以全面了解该系统如何通过技术创新提升设备间的协同能力和用户体验，为智能生活带来新的变革。

嵌入式八股文面试题库资料知识宝典-C and C++ normal interview_1.zip: 嵌入式八股文面试题库资料知识宝典-C and C++ normal interview_1.zip

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Spark collect和take函数学习(RDD-->Array)

评论

发表评论

相关推荐

Spark 会把数据都载入到内存吗

Spark Driver和Executor资源调度学习

Spark 实现TopN的问题（groupBy）

Spark block和partition的区别

Spark 什么是DAG（有向无环图）（窄依赖和宽依赖）

Spark 为什么比Hadoop快

Spark 集群的搭建（1.6.3）

Spark shuffle实现详细探究学习

Spark MLlib平台的协同过滤算法---电影推荐系统学习

Spark parallelize函数和makeRDD函数的区别(Array-->RDD)

Spark Streaming实时计算学习

Spark 集群的搭建学习(1.6.3)

Spark SQL简单示例学习

Spark RDD基于内存的集群计算容错抽象（核心概念）

Spark 入门知识学习

最近访客更多访客>>