MapReduce数据流 - 海兰 - ITeye博客

`

tenght

浏览: 53169 次

最近访客更多访客>>

jxqc_job

汽车城路

极品拖拉机

aubdiy

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

MapReduce数据流

阅读更多

Hadoop does its best to run the map task on a node where the input data resides in
HDFS. This is called the data locality optimization because it doesn’t use valuable clus-
ter bandwidth. Sometimes, however, all three nodes hosting the HDFS block replicas
for a map task’s input split are running other map tasks, so the job scheduler will look
for a free map slot on a node in the same rack as one of the blocks. Very occasionally
even this is not possible, so an off-rack node is used, which results in an inter-rack

network transfer. The three possibilities:

Hadoop在存储有输入数据(HDFS中的数据)的节点上运行Map任务，可以获得最佳性能。这就是所谓的数据本地化优化(data locality optimization)。

a: Data-localmap tasks

b: rack-localmap tasks

c: off-rackmap tasks

MapReduce data flow with a single reduce task:

一个reduce任务的MapReduce数据流：

虚线框：node

虚线箭头：node内部的数据传输

实线箭头：节点之间的数据传输

MapReduce data flow with multiple reduce tasks：

多个reduce任务的MapReduce数据流：

This diagram makes it clear why the data flow between map and reduce tasks is collo-
quially known as “the shuffle,” as each reduce task is fed by many map tasks. The
shuffle is more complicated than this diagram suggests, and tuning it can have a big
impact on job execution time.

分享到：

MapReduce的逻辑数据流图 | MapReduce

2013-07-11 15:17
浏览 324
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

FlowS:一种MapReduce数据流公平调度方法: ### FlowS：一种MapReduce数据流公平调度方法 #### 一、引言随着大数据时代的到来，企业面临的非结构化数据处理需求日益增加。MapReduce框架因其高效处理大规模数据的能力而备受关注。Hadoop作为MapReduce的一种...

20、MapReduce 工作流介绍: 总结来说，MapReduce工作流是Hadoop中处理多阶段数据处理任务的重要工具，通过`JobControl` 和`ControlledJob` ，可以管理和协调一系列相互依赖的MapReduce作业，确保它们按照正确的顺序和条件执行。这对于实现复杂...

基于Hadoop MapReduce的分布式数据流聚类算法研究.pdf: PGDC-Stream算法使用Hadoop MapReduce框架执行数据流聚类，可实现对大规模数据流的实时聚类。该算法首先基于网格密度对数据流进行初始聚类，然后当新的数据记录不断到达时，运用一种基于时间的密度阈值函数和检测...

大数据处理技术简介.pptx: * 数据流计算模型：普通集群基于消息传递的分布式模型，TB级/百台MPI云计算基于文件传输的并行计算模型，PB级/千台MapReduce数据流实时云计算基于消息（封装文件）传输的并行计算模型。 * Online MapReduce分布式...

《SQL对MapReduce及与之相关的流数据处理的支持》国际提案研究.pdf: SQL标准支持流数据的应用场景可能包括实时数据分析、监控系统、在线交易系统等，这些场景需要快速响应和处理连续不断的数据流。为了实现这一目标，提案中提出了需要在SQL标准中扩展的功能，可能包括新的数据类型、...

基于MapReduce+Pandas的电影排名与推荐以及数据分析与可视化展示: 基于MapReduce+Pandas的电影排名与推荐以及数据分析与可视化展示数据科学与大数据技术领域中，电影排名与推荐系统的开发是非常重要的一部分。该系统可以通过对电影数据的分析和处理，提供电影排名和推荐服务，满足...

Hadoop大数据期末考试重点: 17. **MapReduce数据流**：有些任务可能仅有Map过程，Map生成的数据直接写入HDFS。 18. **TextOutputFormat**：MapReduce确实通过TextOutputFormat将结果输出到文件。 19. **MapReduce数据源格式化**：MapReduce...

MapReduce 设计模式: Pig是一个高层次的数据流语言和执行框架，用于简化MapReduce程序的编写，而Hive提供了对大规模数据集进行查询和分析的简单数据仓库基础设施。 5. 数据总结模式（Summarization Patterns）：涵盖了数据处理中的总结...

行业文档-设计装置-云平台MapReduce工作流调度优化方法.zip: MapReduce是Apache Hadoop框架下的一种分布式计算模型，广泛应用于大规模数据处理任务。针对云平台中的MapReduce工作流调度优化，这是一个至关重要的主题，因为它直接影响到系统的性能、效率和资源利用率。本文档将...

大数据、大数据处理模型及MapReduce: 因此，针对大数据的分析需求，Google开发了GFS（Google File System）用于存储大量数据，并提出了MapReduce模型用于并行处理数据。后来，Apache Hadoop开源项目实现了这一框架，包含HDFS（Hadoop Distributed File ...

Hadoop参数调优: 在本节中，我们主要关注与MapReduce数据流相关的属性，包括I/O属性和MapReduce属性这两类。在开始介绍配置属性的优化之前，需要注意以下几点： 1. 部分属性除了配置文件之外还可以在MapReduce作业中动态修改。 2....

支持大规模流数据处理的在线MapReduce数据传输机制: 基于Event推送方式,利用Netty底层异步通信方式等技术,建立在线MapReduce数据传输机制,进一步实现其原型程序,解决了大规模分布式计算程序的快速在线传输和数据分发等问题,支持流数据动态分发机制,为动态MapReduce模型...

Scala和Spark大数据分析函数式编程、数据流和机器学习: 对于数据流处理，Spark Streaming构建在微批处理概念之上，它可以接收实时数据流并进行处理。通过DStream（Discretized Stream）抽象，开发者可以将实时数据流视为一系列离散的批处理作业，从而利用Spark的并行处理...

mapreduce中文版论文: 随着数据规模的不断增长和技术的快速演进，如何进一步优化MapReduce的性能，如何更好地适应实时数据流处理和机器学习等新兴需求，成为研究者和开发者关注的焦点。未来，MapReduce有望与其他先进的数据处理框架（如...

MapReduce详解包括配置文件: 2. **不擅长流式计算**：MapReduce的设计假设输入数据集是静态不变的，对于动态更新的数据流处理不够灵活。 3. **不擅长DAG（有向无环图）计算**：在涉及多个任务间复杂的依赖关系时，每个任务的输出都需要写入磁盘...

分布式数据流.zip: 2. MapReduce：Google的MapReduce是分布式数据流处理的一个早期范例，它定义了两个主要操作：Map（映射）和Reduce（化简）。Map阶段将原始数据分解为键值对，然后Reduce阶段对这些键值对进行聚合，生成最终结果。 3...

如何画数据流图UML类图: 数据流图（Data Flow Diagram, DFD）和UML类图是软件工程中两种重要的建模工具，尤其在面向对象设计领域中占有重要地位。在大学课件中，这两种图常被用来帮助学生理解和设计复杂系统。数据流图是一种描述系统中...

Global site tag (gtag.js) - Google Analytics