`
- 浏览:
4905 次
- 性别:
- 来自:
北京
-
当client提交一个任务后,首先resourceManger(RM)来调度出一个container,这个container是在nodeManger(NM)运作的,
client直接和这个container所在的NM进行通信,在这个container中启动applicationMaster(AM),启动成功之后,这个AM将全权负责此次任务的进度,失败原因(在一次job中只有一个AM).
AM会计算此次任务所需的资源,然后向RM申请资源,得到一组供map/reduce task运行的container,然后协同NM一起对每个container执行一些必要的任务,在任务执行
过程中,AM会一直监视着任务的运行进度,若中间某个NM上的container中的任务失败,那么AM会重新找一台节点来运行此任务.
流程如下:
MRv2运行流程:
MR JobClient向resourceManager(RM)提交一个job
RM向Scheduler请求一个供MR AM运行的container,然后启动它
MR AM启动起来后向RM注册
MR JobClient向RM获取到MR AM相关的信息,然后直接与MR AM进行通信
MR AM计算splits并为所有的map构造资源请求
MR AM做一些必要的MR OutputCommitter的准备工作
MR AM向RM(Scheduler)发起资源请求,得到一组供map/reduce task运行的container,然后与NM一起对每一个container执行一些必要的任务,包括资源本地化等
MR AM 监视运行着的task 直到完成,当task失败时,申请新的container运行失败的task
当每个map/reduce task完成后,MR AM运行MR OutputCommitter的cleanup 代码,也就是进行一些收尾工作
当所有的map/reduce完成后,MR AM运行OutputCommitter的必要的job commit或者abort APIs
MR AM退出。
- 大小: 55.8 KB
分享到:
Global site tag (gtag.js) - Google Analytics
相关推荐
在YARN上部署MapReduce和Spark,作业通过客户端提交给YARN的资源管理器,资源管理器根据作业的资源需求分配任务到工作节点上的容器中执行。YARN通过心跳机制监控应用程序的状态,当节点故障时,它可以重新调度任务到...
mapreduce方式入库hbase hive hdfs,速度很快,里面详细讲述了代码的编写过程,值得下载
综上所述,基于Spark_on_Yarn的淘宝数据挖掘平台不仅解决了传统Hadoop MapReduce框架面临的诸多挑战,而且在性能、灵活性和可扩展性等方面都取得了显著的进步,成为了淘宝处理海量数据、支持复杂业务需求的重要基础...
根据给定文件的内容,文档标题是“梁宇明-Voidbox – Docker on YARN”,而文档内容主要围绕Docker和YARN架构进行讨论。以下内容将详细说明文档中提到的相关知识点。 **Voidbox简介:** Voidbox是一个编程框架,它...
**MapReduce**的工作流程分为两个主要阶段: 1. **Map(映射)阶段**:在这个阶段,原始数据被分割成较小的部分,这些部分被分配给不同的Map任务进行处理。每个Map任务将输入数据转换成一系列的键值对。 2. **Reduce...
Spark On Yarn 是一个在 Apache Hadoop YARN(Yet Another Resource Negotiator)资源管理器上运行 Apache Spark 应用程序的框架。这种模式允许 Spark 利用 Hadoop 的集群资源管理和调度能力,使得 Spark 能够更好地...
以下是对MapReduce编程及其程序流程的详细说明: 1. **MapReduce模型概述**: - MapReduce由两个主要阶段组成:Map阶段和Reduce阶段,这两个阶段之间通过Shuffle和Sort过程进行连接。 - Map阶段:原始输入数据被...
因此,将Hive的执行引擎从MapReduce切换至Spark(Hive on Spark),成为提高大数据处理速度的重要手段之一。 #### 实战经验分享 ##### 配置环境 本实战指南基于Cloudera Distribution Including Apache Hadoop ...
"大数据课件从入门到...这些知识点涵盖了大数据的基本概念、Hadoop 的架构和组成、HDFS 的组成和工作流程、MapReduce 的原理和应用、YARN 的作用和工作流程等内容,为读者提供了一个系统的学习大数据技术的知识架构。
通过此次实验,不仅掌握了如何在Windows环境下配置Hadoop,还深入了解了MapReduce的工作原理及其在解决自然连接问题中的应用。相比于传统数据库,MapReduce能够更加高效地处理大规模数据集,特别是在涉及多表关联的...
Hive on Spark默认支持Spark on YARN,这是因为YARN作为资源管理器,可以更好地管理和调度Spark任务。在Spark on YARN模式下,又分为Cluster和Client两种部署模式。Cluster模式下,Driver程序在ResourceManager上...
未来,两者的结合,如使用Spark on Yarn,可以发挥各自的优势,构建更高效、灵活的大数据处理平台。通过混合架构,既能利用Hadoop的稳定存储能力,又能利用Spark的快速计算性能,以应对不断增长和变化的数据处理需求...
这个框架的设计灵感来源于Google的两篇著名论文——"MapReduce: Simplified Data Processing on Large Clusters"和"Pregel: A System for Large-Scale Graph Processing"。`Mapper`和`Reducer`是MapReduce模型中的两...
综上所述,"Hadoop on Windows"涵盖了从安装Java环境、配置Hadoop、启动服务到编写和运行MapReduce程序的全过程,以及可能遇到的问题和解决策略。对于希望在Windows平台上利用Hadoop进行大数据处理的开发者来说,这...
实时流计算通过Storm on YARN的实战技巧来教授,包括实时流计算概念、Storm的核心组件和数据流模型,以及如何进行编程实践。最后,Spark内存计算框架的讲解将涵盖其架构、YARN上的部署、集群配置和多语言编程。 云...
YARN(Yet Another Resource Negotiator)模式是Hadoop的资源管理组件,允许在同一个平台上运行MapReduce、Storm等不同计算框架。Spark在YARN模式下有两种提交模式:YARN Client和YARN Cluster。前者中,Driver运行...
在安装方面,该文档介绍了如何在Yarn集群上搭建Spark,包括下载Spark安装包、配置spark-env.sh、slaves文件等步骤,并分发到slave1/2等节点上,确保了分布式集群环境下的配置过程。 启动和验证是检查Spark是否正确...
- **MapReduce与YARN的关系**:解释了在CDH4中MapReduce是如何与YARN协同工作的,以及这种架构带来的好处。 #### 安装方式的选择 文档中还提供了一系列安装CDH的方法供用户选择。不同的安装方式适用于不同场景和...