Spark中几个重要名词 - 沉默人 - ITeye博客

`

username2

浏览: 746451 次
性别:
来自: 黑龙江

最近访客更多访客>>

dsh_oliver

杭州007

loginboot

xmmdream

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

浮生一如梦： [b][i][u][list] [*][img][url][f ...
字节，字节数组输入输出流ByteArrayInputStream，ByteArrayOutputStream理解
java_frog： httpclient4里才有default
DefaultHttpClient使用
lizhenlzlz： lizhenlzlz 写道HttpHost proxy = n ...
DefaultHttpClient使用
lizhenlzlz： HttpHost proxy = new HttpHost(& ...
DefaultHttpClient使用
kennykinte： methodGet()方法里 HttpPost httpGet ...
DefaultHttpClient使用

Spark中几个重要名词

博客分类：

SparkSQL

阅读更多

spark几个名词

1 job，一个action操作触发一个job

action的一些操作http://spark.apache.org/docs/latest/programming-guide.html#actions

2 stage划分

1）有shuffle操作，则shuffle之前为一个 stage

2）数据落地输出则为一个 stage

3 Task为具体的任务执行单位，个人理解为一个线程，Task的划分取决于几个方面

1) 分配的cpu数目和cpu的核数，cpu数目*cpu的核数则为总得任务数量。

2）总分区数量Partition

如果1中的数量小于2中的数量则为1的任务数，否则为2中的分区数量，即Partition数量决定执行的并发数。

如果元数据分区太少，可以重新分区，否则不会有并发。

4 worker个人理解为工作的机器数量，Worker Node就是物理节点。

5 Executor，为worker机器上cpu的数量，如果设置num-executors=5，则分配给这个任务5个cpu去执行Task，

如果executor-cores=10，则每个cpu分配的核数为10，即每个executor上启动10个线程执行任务，总得分配的Task为5*10。

executor-memory=2g为每个Task分配的内存为2g，这个值过大，则会影响启动的executor的数量。

spark-submit --master yarn-cluster --name importdtaweather3 --num-executors 10 --executor-cores 12 --executor-memory 3g --queue def0 --class com.jusn.spark.test.DFTestRowkeySelf weatherimport-1.0-jar-with-dependencies.jar

分享到：

线程所机制的说明 | idea几个快捷键

2017-02-09 19:30
浏览 727
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

基于深度学习和Spark计算的移动大数据分析算法.pdf: 该方法使用Apache Spark构建，提供了一个开源集群计算平台，这样就可以使用集群中的许多计算核心进行分布式学习。在该集群中，将连续访问的数据缓存到运行的内存中，从而将深度模型的学习速度提高了几倍。本文还...

基于大数据的结构化SVM的黏着语词性标注的研究.zip: 在自然语言处理（NLP）领域，黏着语词性标注是重要的预处理步骤，它涉及到为文本中的每个单词分配一个特定的语法类别，如名词、动词、形容词等。这项任务对于理解和分析自然语言至关重要，特别是在信息提取、机器...

Hadoop Yarn详解: YARN通过分离资源管理和作业调度的职责，带来了以下几个主要优势： 1. 支持多计算模型：YARN使得Hadoop能够运行MapReduce之外的其他框架，如Spark、Tez等，从而满足了不同计算模型的需求。 2. 提高集群利用率：...

大数据处理技术参考架构 (2).docx: 技术要求主要包括以下几个方面： - 高扩展性：系统应能轻松处理不断增长的数据量。 - 高可用性：确保数据的安全性和服务的连续性。 - 实时/近实时处理：满足快速响应的需求，支持实时或近实时的数据分析。 - ...

清华大学精品大数据之数据清洗课程PPT课件（48页）含习题第5章文本、web、数据库、增量数据抽取.rar: 主要涉及以下几个方面： - **去除噪声**：包括标点符号、停用词、HTML标签等非实质内容。 - **标准化**：统一大小写、转换为词干或词根，消除拼写错误。 - **分词**：将连续的文本分割成有意义的词语，这是文本分析...

云大数据采集中心及大大数据计算平台建设方案设计.doc: 项目目标通常包括以下几个方面： - 实现数据的统一采集和管理，消除信息孤岛，提高数据利用率。 - 提升大数据处理能力，满足实时或近实时的数据分析需求。 - 保障数据安全，符合相关法规要求，确保数据隐私。 - ...

新概念第二册-lesson-53课件PPT学习教案.pptx: 包含了词汇学习的部分，主要讲解了几个关键的英文单词：hot、fireman、cause、examine、accidentally、remains、wind、wire、volt、power line、solve、mystery、snatch、spark，并提供了这些单词的多种含义和用法。...

刘畅词汇笔记（完美版）: 在学习词汇时，刘畅提出了几个关键点： 1. **单词的英文解释和例句**：理解单词的精确含义至关重要，因为汉语解释有时无法完全捕捉到英文单词的微妙差别。例如，`demand`、`require` 和 `request` 都含有“要求”的...

大数据技术体系建设方案.docx: 大数据技术体系建设的架构设计主要包括数据集成和整合系统、数据库建设、大数据分析支撑系统、大数据资源管控、标准规范建设等几个方面。 5.1 数据集成和整合系统数据集成和整合系统数据源包括行业内部数据、外部...

卡纳莱斯: 在描述中没有提供具体信息，所以我们可以考虑几个可能的方向。例如，"卡纳莱斯"可能是一个开源项目，旨在简化大数据处理，提供高效的数据管道。它可能包含一系列工具，用于数据采集、清洗、转换、存储和分析。在这种...

59-数栖-实时开发v1.4.0-用户手册.pdf: 此外，该产品具备以下几个显著特点： - **简单易用**：用户可通过在线编写SQL代码定义数据处理流程，结合简单的输入输出节点配置，轻松实现业务逻辑。无需深入理解底层计算框架原理，降低流数据分析门槛。 - **支持...

大数据平台架构剖析.docx: 基于大数据架构的数据分析平台侧重于从以下几个维度去解决传统数据仓库做数据分析面临的瓶颈： 1. 分布式计算：分布式计算的思路是让多个节点并行计算，并且强调数据本地性，尽可能的减少数据的传输，例如 Spark ...

flod:渔业相关开放数据: 在深入探讨这个项目之前，我们需要了解几个关键概念： 1. **数据结构**：Java中可能使用了特定的数据结构（如数组、列表、映射）来存储和组织渔业数据。 2. **数据库技术**：数据可能被存储在一个关系型数据库（如...

yeslist_fill_gallon:是名单挑战，加满一加仑水: 此外，如果"yeslist_fill_gallon"是一个项目，那么该项目可能涉及到以下几个关键知识点： 1. 数据结构与算法：选择合适的数据结构（如列表、队列、堆等）和高效的算法（如排序、查找、过滤等）对数据进行操作。 2....

EasyHadoop实战手册.doc: 通过 EasyHadoop，用户可以快速设置 Hadoop 环境，包括 HDFS、MapReduce、YARN 等核心组件，以及 Hive、Pig、Spark 等数据分析工具，从而加速 Hadoop 应用的开发和测试流程。 ### EasyHadoop 集群部署入门 #### ...

Global site tag (gtag.js) - Google Analytics