`
tenght
  • 浏览: 50395 次
社区版块
存档分类
最新评论

MapReduce数据流

 
阅读更多
Hadoop does its best to run the map task on a node where the input data resides in
HDFS. This is called the data locality optimization because it doesn’t use valuable clus-
ter bandwidth. Sometimes, however, all three nodes hosting the HDFS block replicas
for a map task’s input split are running other map tasks, so the job scheduler will look
for a free map slot on a node in the same rack as one of the blocks. Very occasionally
even this is not possible, so an off-rack node is used, which results in an inter-rack

network transfer. The three possibilities:

Hadoop在存储有输入数据(HDFS中的数据)的节点上运行Map任务,可以获得最佳性能。这就是所谓的数据本地化优化(data locality optimization)。


a: Data-localmap tasks

b: rack-localmap tasks

c: off-rackmap tasks

MapReduce data flow with a single reduce task:

一个reduce任务的MapReduce数据流:


虚线框:node

虚线箭头:node内部的数据传输

实线箭头:节点之间的数据传输

MapReduce data flow with multiple reduce tasks:

多个reduce任务的MapReduce数据流:

This diagram makes it clear why the data flow between map and reduce tasks is collo-
quially known as “the shuffle,” as each reduce task is fed by many map tasks. The
shuffle is more complicated than this diagram suggests, and tuning it can have a big
impact on job execution time.

分享到:
评论

相关推荐

    FlowS:一种MapReduce数据流公平调度方法

    ### FlowS:一种MapReduce数据流公平调度方法 #### 一、引言 随着大数据时代的到来,企业面临的非结构化数据处理需求日益增加。MapReduce框架因其高效处理大规模数据的能力而备受关注。Hadoop作为MapReduce的一种...

    20、MapReduce 工作流介绍

    总结来说,MapReduce工作流是Hadoop中处理多阶段数据处理任务的重要工具,通过`JobControl` 和`ControlledJob` ,可以管理和协调一系列相互依赖的MapReduce作业,确保它们按照正确的顺序和条件执行。这对于实现复杂...

    基于Hadoop MapReduce的分布式数据流聚类算法研究.pdf

    PGDC-Stream算法使用Hadoop MapReduce框架执行数据流聚类,可实现对大规模数据流的实时聚类。该算法首先基于网格密度对数据流进行初始聚类,然后当新的数据记录不断到达时,运用一种基于时间的密度阈值函数和检测...

    大数据处理技术简介.pptx

    * 数据流计算模型:普通集群基于消息传递的分布式模型,TB级/百台MPI云计算基于文件传输的并行计算模型,PB级/千台MapReduce数据流实时云计算基于消息(封装文件)传输的并行计算模型。 * Online MapReduce分布式...

    《SQL对MapReduce及与之相关的流数据处理的支持》国际提案研究.pdf

    SQL标准支持流数据的应用场景可能包括实时数据分析、监控系统、在线交易系统等,这些场景需要快速响应和处理连续不断的数据流。 为了实现这一目标,提案中提出了需要在SQL标准中扩展的功能,可能包括新的数据类型、...

    基于MapReduce+Pandas的电影排名与推荐以及数据分析与可视化展示

    基于MapReduce+Pandas的电影排名与推荐以及数据分析与可视化展示 数据科学与大数据技术领域中,电影排名与推荐系统的开发是非常重要的一部分。该系统可以通过对电影数据的分析和处理,提供电影排名和推荐服务,满足...

    Hadoop大数据期末考试重点

    17. **MapReduce数据流**:有些任务可能仅有Map过程,Map生成的数据直接写入HDFS。 18. **TextOutputFormat**:MapReduce确实通过TextOutputFormat将结果输出到文件。 19. **MapReduce数据源格式化**:MapReduce...

    MapReduce 设计模式

    Pig是一个高层次的数据流语言和执行框架,用于简化MapReduce程序的编写,而Hive提供了对大规模数据集进行查询和分析的简单数据仓库基础设施。 5. 数据总结模式(Summarization Patterns):涵盖了数据处理中的总结...

    行业文档-设计装置-云平台MapReduce工作流调度优化方法.zip

    MapReduce是Apache Hadoop框架下的一种分布式计算模型,广泛应用于大规模数据处理任务。针对云平台中的MapReduce工作流调度优化,这是一个至关重要的主题,因为它直接影响到系统的性能、效率和资源利用率。本文档将...

    大数据、大数据处理模型及MapReduce

    因此,针对大数据的分析需求,Google开发了GFS(Google File System)用于存储大量数据,并提出了MapReduce模型用于并行处理数据。后来,Apache Hadoop开源项目实现了这一框架,包含HDFS(Hadoop Distributed File ...

    Hadoop参数调优

    在本节中,我们主要关注与MapReduce数据流相关的属性,包括I/O属性和MapReduce属性这两类。 在开始介绍配置属性的优化之前,需要注意以下几点: 1. 部分属性除了配置文件之外还可以在MapReduce作业中动态修改。 2....

    支持大规模流数据处理的在线MapReduce数据传输机制

    基于Event推送方式,利用Netty底层异步通信方式等技术,建立在线MapReduce数据传输机制,进一步实现其原型程序,解决了大规模分布式计算程序的快速在线传输和数据分发等问题,支持流数据动态分发机制,为动态MapReduce模型...

    Scala和Spark大数据分析函数式编程、数据流和机器学习

    对于数据流处理,Spark Streaming构建在微批处理概念之上,它可以接收实时数据流并进行处理。通过DStream(Discretized Stream)抽象,开发者可以将实时数据流视为一系列离散的批处理作业,从而利用Spark的并行处理...

    MapReduce详解包括配置文件

    2. **不擅长流式计算**:MapReduce的设计假设输入数据集是静态不变的,对于动态更新的数据流处理不够灵活。 3. **不擅长DAG(有向无环图)计算**:在涉及多个任务间复杂的依赖关系时,每个任务的输出都需要写入磁盘...

    分布式数据流.zip

    2. MapReduce:Google的MapReduce是分布式数据流处理的一个早期范例,它定义了两个主要操作:Map(映射)和Reduce(化简)。Map阶段将原始数据分解为键值对,然后Reduce阶段对这些键值对进行聚合,生成最终结果。 3...

    如何画数据流图UML类图

    数据流图(Data Flow Diagram, DFD)和UML类图是软件工程中两种重要的建模工具,尤其在面向对象设计领域中占有重要地位。在大学课件中,这两种图常被用来帮助学生理解和设计复杂系统。 数据流图是一种描述系统中...

Global site tag (gtag.js) - Google Analytics