`
退役的龙弟弟
  • 浏览: 451824 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

MapReduce编程接口体系结构

 
阅读更多

MapReduce编程模型对外提供的编程接口体系结构如图3-1所示,整个编程模型位于应用程序层和MapReduce执行器之间,可以分为两层。第一层是最基本的Java API,主要有5个可编程组件,分别是InputFormat、Mapper、Partitioner、Reducer和OutputFormat。Hadoop自带了很多直接可用的InputFormat、Partitioner和OutputFormat,大部分情况下,用户只需编写Mapper和Reducer即可。第二层是工具层,位于基本Java API之上,主要是为了方便用户编写复杂的MapReduce程序和利用其他编程语言增加MapReduce计算平台的兼容性而提出来的。在该层中,主要提供了4个编程工具包。

JobControl:方便用户编写有依赖关系的作业,这些作业往往构成一个有向图,所以通常称为DAG(Directed Acyclic Graph)作业,如第2章中的朴素贝叶斯分类算法实现便是4个有依赖关系的作业构成的DAG。注:主要用于多job处理的工具

ChainMapper/ChainReducer:方便用户编写链式作业,即在Map或者Reduce阶段存在多个Mapper,形式如下:

[MAPPER+ REDUCER MAPPER*]

Hadoop Streaming:方便用户采用非Java语言编写作业,允许用户指定可执行文件或者脚本作为Mapper/Reducer。

Hadoop Pipes:专门为C/C++程序员编写MapReduce程序提供的工具包。
 

分享到:
评论

相关推荐

    Hadoop技术内幕:深入解析MapReduce架构设计与实现原理

    MapReduce编程模型篇第3章 MapReduce编程模型3.1 MapReduce编程模型概述3.1.1 MapReduce编程接口体系结构3.1.2 新旧MapReduce API比较3.2 MapReduce API基本概念3.2.1 序列化3.2.2 Reporter参数3.2.3 回调...

    Google-MapReduce中文版_1.0

    MapReduce是一种编程模型,同时也是一个处理和生成超大数据集的算法模型的相关实现。它由Google公司提出,旨在帮助程序员更容易地在大规模数据集上执行分布式计算。 在MapReduce模型中,用户首先需要定义一个Map...

    Chapter7-厦门大学-林子雨-大数据技术原理与应用-第7讲-MapReduce(中国大学MOOC2018年春季学期)1

    MapReduce的体系结构主要由三个部分组成:Client、Master和Slave。Client负责提交作业,Master负责作业调度和任务分配,Slave负责执行任务。Master Node主要负责作业调度、任务分配和失败恢复,而Slave Node主要负责...

    大数据导论全部复习PPT

    大数据技术原理与应用是当前大数据技术的核心内容,本文将从大数据技术原理与应用的角度,详细介绍MapReduce的概念、体系结构、工作流程、实例分析和编程实践。 首先,MapReduce是一种分布式并行编程模型,用于处理...

    并行计算机体系结构.zip

    并行计算机体系结构是计算机科学中的一个重要领域,它涉及到如何设计和实现能够同时处理多个计算任务的系统。这种体系结构的目的是通过同时执行多个计算来提高计算机系统的性能和效率,尤其是在处理大规模数据集和...

    3.并行计算体系结构和编程模型II-lwm1

    在并行计算体系结构中,计算任务被分解为多个子任务,这些子任务可以在不同的计算资源上同时执行,从而显著缩短整体的计算时间。 **一、并行计算技术简介** 并行计算技术的复杂性源于不同计算问题的特性,如数据...

    MIT开放教程计算机系统体系结构

    《MIT开放教程:计算机系统体系结构》是一门深入探索计算机硬件与软件相互作用关系的课程。这门课程在MIT计算机科学领域享有极高的声誉,以其严谨的理论基础、生动的实例解析和广泛的覆盖范围,为学生提供了理解...

    电子科技大学2018年-林迪-软件体系结构-复习整理(补充).docx

    《电子科技大学2018年-林迪-软件体系结构-复习整理(补充)》 在软件工程领域,软件体系结构扮演着至关重要的角色。它不仅关乎软件的设计和实现,而且直接影响到软件的质量、可维护性和扩展性。本文将深入探讨软件...

    第7章-MapReduce.pdf

    MapReduce体系结构包括四个主要组成部分:Client、JobTracker、TaskTracker以及Task。Client是用户与系统交互的接口,负责将用户的MapReduce作业提交到系统中,并允许用户查询作业运行状态。JobTracker运行在Master...

    福建师范大学精品大数据导论课程系列 (6.2.1)--5.1 一种并行编程模型--MapReduce-之二.pdf

    03 MapReduce的体系结构 MapReduce的架构包括JobTracker和TaskTracker两部分。JobTracker负责任务调度和监控,将整个工作划分为Map任务和Reduce任务,分配给各个TaskTracker执行。TaskTracker则负责接收并执行...

    (完整word版)电子科技大学2017年-林迪-软件体系结构-复习整理.doc

    【软件体系结构】是软件开发过程中的核心概念,它定义了软件系统的高层次组织结构和组件间的相互作用。软件体系结构不仅是软件设计的基础,也是评估、分析和改进软件质量的关键。电子科技大学2017年的复习整理中,对...

    异构计算并行编程模型综述.docx

    该模型的研究涉及多个领域,包括计算机体系结构、编程语言、操作系统等。 OpenMP 是一种广泛使用的并行编程模型,它支持多平台共享内存并行编程。OpenMP 提供了一组简单的并行编程接口,如并行循环、并行任务分配等...

    1大数据体系结构97.pptx

    大数据的体系结构通常采用分层架构,从数据的生命周期来看,包括数据准备、数据存储与管理、计算处理、数据分析和知识展现五个环节。整体系统架构中,大数据处理涉及到多个组件的协同工作,如数据采集、预处理、存储...

    大数据体系结构及关键技术.ppt

    大数据体系结构及关键技术是当前信息技术领域的重要研究方向,随着数据量的爆炸性增长,传统的数据处理方式已经无法满足需求。本讲座将深入探讨大数据的新命题、体系结构以及关键技术和应用。 一、大数据时代的新...

    大数据体系结构及关键技术.pptx

    随着互联网的飞速发展和物联网的普及,数据呈现爆炸性增长,这催生了对大数据体系结构及关键技术的需求。本报告主要围绕大数据的新命题、体系结构、关键技术以及实际应用案例展开。 一、大数据时代的新命题 大数据...

    MapReduce海量数据并行处理课程复习提纲-20201

    并行计算面临诸多技术难题,包括多核/多处理器网络互连结构、存储访问体系结构、分布式数据管理、任务分解与算法设计、并行程序设计模型和方法、数据同步访问与通信控制、可靠性设计与容错技术、并行计算软件框架...

    深入理解大数据:大数据处理与编程实践

    全书的主要内容包括:■ 大数据处理技术与Hadoop MapReduce简介■ Hadoop系统的安装和操作管理■ 大数据分布式文件系统HDFS■ Hadoop MapReduce并行编程模型、框架与编程接口■ 分布式数据库HBase■ 分布式...

    大数据课程体系

    - **Hadoop核心组成介绍及hdfs、mapreduce体系结构**:深入解析Hadoop的核心组件,包括HDFS和MapReduce的工作原理。 - **Hadoop的集群结构**:了解Hadoop集群的架构及其各个组成部分的功能。 - **Hadoop独立模式安装...

    Hadoop-0.20.1+API

    1. **Hadoop体系结构**:了解Hadoop的基本架构,包括NameNode、DataNode、JobTracker、TaskTracker等角色,以及它们如何协同工作以实现数据的存储和处理。 2. **HDFS API**:学习如何使用Java API进行文件的读写...

Global site tag (gtag.js) - Google Analytics