Spark相关术语 - - ITeye博客

`

fushengxu

浏览: 17660 次
性别:
来自: 杭州

最近访客更多访客>>

eye_n

JThink

guodong666

joyol

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

0372：对新人标示鼓励
新人报道
fushengxu：大牛多多提意见
scala之trait详解一

Spark相关术语

博客分类：

spark

spark RDD MR Task scala

阅读更多

RDD

全称为Resilient Distributed Dataset，弹性分布式数据集。
就是分布在集群节点上的数据集，这些集合可以用来进行各种操作，能实现MapReduce不擅长的计算工作（比如迭代式、交互式和流式）。最重要的一点是，某个操作计算后的数据集可以缓存在内存中，然后给其他计算使用，这种在迭代计算中很常见。
原始的RDD经过一系列转化后，会在最后的RDD上触发一个动作，这个动作会生成一个Job。Job被划分为不同的阶段，每个阶段有一批计算任务（Task）组成，这批Task会被集群提交到集群上的计算节点去计算。

Iterator

迭代器，即是提供一级接口给其他人来访问RDD 中的数据集。
如下代码中的t所示：

RDD.mapPartitions((t: Iterator[(ImmutableBytesWritable, org.apache.hadoop.hbase.client.Result)])=>{相关操作}

Job

一道作业，即指应用完成某项需求所需要一系列工作，统一称为作业。

DAG

有向无环图，将作业分解成若干个阶段，每个阶段都是由若干个task 组成，而这些阶段都是有先后顺序的，故将这些阶段组织成DAG，来表示其先后顺序。

Stage

阶段，是指job 中的一个结点。

Taskset

每个阶段将由若干个task 组成，这些task 统一称为taskset。

Task

    Task 是指最终在slave 结点上运行的工作。
[size=large]如下图所示：
    与MR的区别
    MR 的缺点：
    1. Shuffle 的性能。Map 到reduce 之间数据多次需要IO 操作。
    2. 当有多个MR 时，每轮的MR 之间需要将结果写到hdfs 上。
    3. 只有map,reduce 二种计算模型，无法建立一组DAG 操作，来减少中间的一些操作开销。
以上的缺点都是spark 的优点。

分享到：

转：scala override的学习总结 | 第一阶段进阶总结

2016-05-25 19:18
浏览 534
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Spark简介以及其生态圈: Spark运行架构由几个核心组件构成，其中包括术语定义、运行基本流程、DAGScheduler、TaskScheduler以及RDD运行原理。在术语定义中，Application指的是用户编写的Spark应用程序，它由运行main()函数的Driver和分布在...

SparkStreaming预研报告: 最后，报告提供了术语和缩写解释，对于不熟悉Spark Streaming的读者来说，这有助于理解文档中的专业术语。整体而言，该预研报告为技术人员提供了关于Spark Streaming的全面了解，从基础概念到深入案例分析，再到...

Spark最佳学习路径-黄忠: 基础篇：这一部分主要介绍了Spark的一些基本术语，并详细讲解了如何在本地模式下安装部署Spark。此外，还包括了如何测试代码和程序的运行方法。入门篇：在这一部分，学习者将接触Spark相关技术，并且学习在...

[毕业设计]基于Spark网易云音乐数据分析 .zip: “big data”是大数据的英文术语，通常涉及数据的采集、存储、处理和分析。【文件名称列表】： 1. "介绍.txt"：这个文件很可能是项目背景、目的、使用的技术和流程等的详细说明，为初学者提供了一个快速入门的指南...

Spark框架核心技术: 同时，Spark拥有丰富的术语，例如RDD、DataFrame、DataSet、Action、Transformation等，这些都需要用户在使用Spark时熟悉和掌握。具体到每个组件，SparkCore是Spark的核心内存计算框架，提供基于RDD的API；Spark...

基于Spark技术的网络大数据分析平台搭建与应用: 最后，文档中还提到了一些数据结构和算法的术语，如Dataset、Map（O（1）），它们表明该分析平台能够处理各种数据类型，并支持高效的算法。通过整合这些技术，该分析平台能够提供一个健壮、高效、可扩展的大数据...

spark学习笔记: #### 术语解释与算子详解 - **Map**：对RDD中的每个元素应用一个函数。例如，如果有RDD包含 `[1, 2, 3]`，使用`map(x => x + 1)`后得到的新RDD将是`[2, 3, 4]`。 - **Count**：这是一个Action操作，用于计算RDD中的...

Spark核心技术原理透视一Spark运行原理.pdf: Spark专业术语定义： 1. Application：Spark应用程序，指的是用户编写的Spark应用程序，包含了Driver功能代码和分布在集群中多个节点上的Executor代码。 2. Driver：驱动程序，Spark中的Driver即运行上述...

大数据术语: 在进一步研究大数据的过程中，可以依据这些术语来深入探讨大数据处理的不同技术，例如Hadoop分布式文件系统（HDFS）、MapReduce编程模型、Apache Spark等，以及它们在数据仓库、数据湖、实时分析和其他相关应用中的...

大数据技术分享 Spark技术讲座 Spark NLP扩展Spark ML，提供快速可扩展和统一的自然语言处理共25页.pdf: - **法律文件检索**：查找特定术语或概念的专利文档。 - **客户服务**：自动识别客户邮件或电话中的产品提及。 - **其他领域**：医疗记录分析、新闻摘要生成等。 #### 六、结论 Spark NLP作为Spark ML的扩展，为...

SparkStreaming原理介绍: ##### 1.2 术语定义 - **离散流（Discretized Stream）或 DStream**：Spark Streaming 中的核心概念之一，代表了一个连续不断的实时数据流。DStream 实质上是一个有序的 RDD 序列，每个 RDD 包含了在特定时间区间内...

Mastering Apache Spark 无水印pdf 0分: 作者强调了了解当前术语、新 buzzwords 和不断涌现的炒作的挑战性，并指出即使掌握了它们，人们也可能发现其中一半已经过时且效率低下。《Mastering Apache Spark》一书也提到了关于书籍内容的版权声明，任何部分...

JavaTokenizerExample_Spark!_java_spark_wearriy_源码.rar: `wearriy`可能是作者自创的一个单词或者拼写错误，或者是项目特有的术语，没有足够的上下文无法具体解释。不过，根据上下文，我们可以推测它可能是指一个特定的处理步骤或者数据特征。在实际开发中，使用Spark处理...

资料-专业术语大集合.zip: 在"数据科学"领域，我们有"大数据"（Big Data），指处理和分析海量数据的技术，包括Hadoop、Spark等框架。"机器学习"（Machine Learning）是人工智能的一个分支，通过让计算机从数据中学习，实现自我改进和预测能力...

基于OpenNLP + Neo4j + Spark朴素贝叶斯分类器实现石油相关论文的智能分析问答系统.zip: 在石油相关论文的智能分析中，OpenNLP 可能被用来处理和理解文本内容，如提取关键词、识别石油领域的专业术语、确定实体（如地名、人名、组织名）等，这些信息对于构建问答系统至关重要，因为它们帮助系统理解问题和...

Mastering Apache Spark: 为了应对这样的挑战，大数据技术不断涌现新的术语、新名词、新概念和炒作。一个大数据生态系统通常包括数据采集、数据处理、数据存储、数据分析、数据可视化和数据安全等多个环节，而Apache Spark则是这个生态中的一...

Spark总体架构和运行流程: 本节将首先介绍 Spark 的运行架构和基本术语，然后介绍 Spark 运行的基本流程，最后介绍 RDD 的核心理念和运行原理。 Spark 总体架构 Spark 运行架构如图 1 所示，包括集群资源管理器（Cluster Manager）、多个运行...

Global site tag (gtag.js) - Google Analytics