Map/Reduce中的Combiner的使用 - - ITeye博客

`

dajuezhao

浏览: 61514 次
性别:
来自: 北京

最近访客更多访客>>

wjboy49

jaydonluo

追求卓绝

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

scu_cxh：您好，我在学习hadoop方面的东西，想做一个对task监控的 ...
JobClient应用概述
bennie19870116：看不到图呢...
Eclipse下配置使用Hadoop插件

Map/Reduce中的Combiner的使用

博客分类：

hadoop

阅读更多

一、作用

1、combiner最基本是实现本地key的聚合，对map输出的key排序，value进行迭代。如下所示：

map: (K1, V1) → list(K2, V2)
combine: (K2, list(V2)) → list(K2, V2)
reduce: (K2, list(V2)) → list(K3, V3)

2、combiner还具有类似本地的reduce功能.

例如hadoop自带的wordcount的例子和找出value的最大值的程序，combiner和reduce完全一致。如下所示：
map: (K1, V1) → list(K2, V2)
combine: (K2, list(V2)) → list(K3, V3)
reduce: (K3, list(V3)) → list(K4, V4)

3、如果不用combiner，那么，所有的结果都是reduce完成，效率会相对低下。使用combiner，先完成的map会在本地聚合，提升速度。

4、对于hadoop自带的wordcount的例子，value就是一个叠加的数字，所以map一结束就可以进行reduce的value叠加，而不必要等到所有的map结束再去进行reduce的value叠加。

二、总结

1、combiner使用的合适，可以在满足业务的情况下提升job的速度，如果不合适，则将导致输出的结果不正确。

2、没有贴代码，具体可以参看hadoop自带的wordcount

3、写的不对的地方欢迎发邮件到dajuezhao@gmail.com

分享到：

Map/Reduce中的Partiotioner使用 | Hadoop中DBInputFormat和DBOutputFormat使 ...

2010-10-27 09:38
浏览 1204
评论(0)
分类:企业架构
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Windows平台下Hadoop的Map/Reduce开发: Eclipse是一款广泛使用的Java集成开发环境，可以用来编写和调试Hadoop Map/Reduce程序。通过以下步骤在Eclipse中配置Hadoop： 1. 设置Hadoop主目录，指向Hadoop安装位置。 2. 创建Hadoop的远程工作区，指定HDFS中的...

hadoop之map/reduce: 在开发MapReduce程序时，还要注意优化性能，例如合理设置分区器（Partitioner）、Combiner（如果适用）以及优化数据本地性，以提高计算效率。同时，日志处理和异常处理也非常重要，可以帮助开发者更好地跟踪和调试...

MapReduce Tutorial: 通过本教程，读者将能够掌握 Map/Reduce 的基本原理及其在大数据处理中的应用。 #### 二、预备条件在开始学习 Map/Reduce 之前，请确保已经完成了以下步骤： - **安装 Hadoop**：确保 Hadoop 已经正确安装在你的...

Hadoop Map Reduce教程: - **Combiner 使用**：在 Map 端使用 Combiner 函数预先聚合数据，减少网络传输量。 #### 五、案例分析 - **WordCount 示例**：这是一个经典的 MapReduce 示例，用于统计文本文件中单词出现的次数。 - **Inverted ...

hadoop，map，reduce，hdfs: 它通过两个主要阶段实现：**Map阶段**和**Reduce阶段**。MapReduce的工作流程如下： 1. **Splitting**：输入数据被分成小块，每个块称为一个split。 2. **Mapping**：每个split被传递给映射函数，映射函数对输入数据...

Hadoop Combiner使用方法详解: Hadoop Combiner是MapReduce编程模型中的一个重要组件，它可以减少发送到Reducer的数据量，从而提高网络效率和Reduce端的效率。下面是Hadoop Combiner的使用方法详解： Combiner的优点 1. 减少发送到Reducer的数据...

combiner.zip: 例如，在计算单词频率的场景中，每个Map任务可以计算其处理部分的单词总数，然后这些局部总数通过Combiner聚合，再由Reduce进行全局汇总。 5. **编写Combiner**：Combiner类通常继承自Reducer类，并重写reduce()...

MapReduce模型--Map端Combiners聚合: Combiner的使用可以在Map端进行局部的数据聚合处理，避免了大量中间数据直接传输到Reduce端，从而降低网络带宽的消耗，加快MapReduce任务的执行速度。 ### 知识点详细说明 1. **Combiner的作用和优点** - ...

Hadoop MapReduce实战手册(完整版): 书中还可能涵盖了MapReduce编程模型，包括自定义Mapper和Reducer类，以及Combiner和Partitioner的使用。Combiner可以在本地节点上提前减少数据传输，提高效率；Partitioner则控制中间结果发送到哪个Reducer，通常...

forcombiner_reduce_java_mapReduce_markizj_yourselfarq_源码: Map Reduce中的Combiner就是为了避免map任务和reduce任务之间的数据传输而设置的，Hadoop允许用户针对map task的输出指定一个合并函数。即为了减少传输到Reduce中的数据量。它主要是为了削减Mapper的输出从而减少...

Map-Reduce-Tasks:文件夹包含 map reduce 的所有分配: 【描述】中的“文件夹包含map reduce的所有分配”意味着这个文件夹可能包含了一系列的源代码文件，这些文件分别对应了Map和Reduce阶段的不同任务。每个任务可能是独立的，用于演示如何处理特定类型的数据或实现特定...

在Hadoop Map-Reduce中实施联接: 2. **使用Combiner优化**：Combiner可以在Map阶段对局部数据进行预处理，减少网络传输的数据量。对于某些类型的联接（如内联接），Combiner可以帮助减少中间结果，提高效率。 3. **Multi-Combiner或Multi-Reduce**...

Map-Reduce-Stats-Operations: "Map-Reduce-Stats-Operations"这个项目显然关注的是如何利用MapReduce框架进行统计计算，包括求平均值、中位数和模式等基本统计量的计算。接下来，我们将深入探讨MapReduce及其在统计操作中的应用。 MapReduce由...

基于MapReduce的词频统计程序及其重构、MapReduce编程之Combiner、Partitioner组件应用.zip: 在词频统计中，Combiner可以将Map阶段输出的（单词，1）键值对进行本地求和，生成（单词，总计数）对。这样，每个Reducer只需处理每个单词的一条记录，而不是所有副本，显著提升了效率。四、Partitioner组件 ...

UsersClustering:采用K-means算法实现用户聚类（map-reduce架构）: 在这个项目中，我们将采用经典的K-means算法来实现用户聚类，并在map-reduce架构下进行处理，以适应大规模数据的计算需求。下面将详细介绍K-means算法、map-reduce架构以及如何在Java环境下实现这一过程。 **K-...

mapreduce原理: 4. Combiner 是可选择的，它的主要作用是在每一个 Map 执行完分析以后，在本地优先作 Reduce 的工作，减少在 Reduce 过程中的数据传输量。 5. Partitioner 也是选择配置，主要作用是在多个 Reduce 的情况下，指定 ...

cs6240-map-reduce:该存储库包含我的硕士课程的源代码和脚本 - CS6240 并行数据处理在 Map-Reduce 课程中，东北大学，波士顿马萨诸塞州波士顿大学计算机与信息科学学院: 在这个“cs6240-map-reduce”存储库中，你可能会找到与上述知识点相关的源代码和脚本，用于学习和实践MapReduce编程。这些代码可能包含了Mapper和Reducer的实现，以及如何配置和运行Hadoop作业的脚本。通过研究这些...

第7课+MaxCompute+MR处理.docx: 在Map和Reduce之间，有一个Shuffle阶段，其中可能包含Combiner操作，Combiner类似于一个小的Reduce，可以预先对相同Key的数据进行局部聚合，减少网络传输的数据量。以经典的WordCount程序为例，Map阶段会读取文本...

Global site tag (gtag.js) - Google Analytics