MapReduce二次排序 - 从水泥工到架构设计 - ITeye博客

`

aronlulu

浏览: 148117 次
性别:
来自: 南京

最近访客更多访客>>

zhl549342097

私奔到冰岛

lvite3mc

281506005

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

什么都不懂的孩子： mappedBuffer少了一行代码
Java IO读写大文件的几种方式及测试
sunshine_love： good
Java IO读写大文件的几种方式及测试
ln987604356： ...
在javaweb项目中使用flex
yuyu83818578：学习了！
java动态代理原理及简单模拟
ahack：难道是传说中的对日外包？
（转）五十音图记忆法

MapReduce二次排序

博客分类：

hadoop

Mapreduce 数据结构 Hadoop

阅读更多

默认情况下，map后会对key进行默认排序，但是有时候需要对key排序的同时再对value进行排序，这时候就要用到二次排序，一步到位。
原理很简单，就是改变key，map完成后进入reduce之前排序已完成，mapreduce，只能对key来排序，如何做到对key排序的同时又对reduce排序呢？
就是改变key，将value跟key结合起来作为新key,这个新key可以是自定义数据结构，也可以利用MapWritable等hadoop自带的数据结构：
map之前：
k2 2
k2 1
k1 4
k1 3
k3 8
k3 6
改变后的结构就是：
(k2 2 ) 2
(k2 1 ) 1
(k1 4 ) 4
(k1 3 ) 3
(k3 8 ) 8
(k3 6 ) 6
接下来就可以自定义key的排序类以及分组类：
job.setGroupingComparatorClass(A.class);
job.setSortComparatorClass(B.class);
这样的话reduce之前就会变成如下排过序的数据结构：
(k1 3 ) 3
(k1 4 ) 4
(k2 1 ) 1
(k2 2 ) 2
(k3 6 ) 6
(k3 8 ) 8
最后ruduce阶段输出key即完成排序：
k1 3
k1 4
k2 1
k2 2
k3 6
k3 8
一般二次排序跟join都是利用这种整合value与key，然后再对新key做文章进行排序或者合并的方式处理。

分享到：

hadoop中的Partitioner分区 | 自定义Writable实现类

2011-04-04 15:15
浏览 2662
评论(1)
分类:编程语言
查看更多

评论

1 楼 chgliu 2012-05-16

能展示新key类型和比较大小的方法不？谢谢哈～

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

mapreduce二次排序: 当我们需要对数据进行复杂的排序需求时，例如“年份升序，按照年份聚合，气温降序”，MapReduce的二次排序（Secondary Sort）机制就显得尤为重要。这个概念主要解决的是在MapReduce默认排序规则基础上，进行更精细化...

MapReduce模型--二次排序: MapReduce模型中的二次排序是大数据处理中一项重要的技术，它通过多层排序功能来优化数据处理性能。二次排序的核心思想在于对Key（键）进行分层排序，而不能对Value（值）进行排序。这主要是因为MapReduce框架设计时...

mapreduce secondarysort: ### MapReduce二次排序详解 #### 一、MapReduce二次排序概念及应用场景 **MapReduce**是一种分布式计算模型，主要用于处理大规模数据集。其中，二次排序（Secondary Sort）是指在一个键值对列表中，首先根据主键...

大数据学习资料全排序二次排序: "大数据学习资料全排序二次排序"这个主题，显然关注的是如何有效地对大规模数据进行排序，尤其是涉及到二次排序的概念。二次排序通常是指在第一次排序的基础上，根据另一个或多个字段进行第二次排序，以满足更复杂的...

hadoop 二次排序原理: 首先，二次排序是在MapReduce框架内进行的一种特殊排序方式，它遵循两个主要步骤：第一字段排序和相同第一字段下的第二字段排序。这种排序模式确保了在处理大量数据时，具有相同第一字段的记录会聚集在一起，然后再...

hadoop分区二次排序示例.zip: 在这个“hadoop分区二次排序示例.zip”压缩包中，我们重点探讨的是如何在Hadoop MapReduce中实现特定的排序逻辑，即二次排序和分区策略。首先，我们需要理解什么是二次排序。在标准的MapReduce流程中，数据经过map...

hadoop 二次排序插入数据库: 二次排序（Secondary Sort）是Hadoop MapReduce中的一个重要概念，它允许用户自定义数据的最终排序方式，以满足更复杂的排序需求。这篇博客文章（虽然链接无法直接访问，但我们可以根据常规知识来解释这个概念）可能...

MapReduce的小应用: - 二次排序仅适用于一步到位的MapReduce任务，不支持在Map阶段结束后对keys的任意值进行修改。 - 不可同时使用`org.apache.hadoop.mapred`和`org.apache.hadoop.mapreduce`包，这可能导致不便。 - MapReduce中间结果...

云应用系统开发第二次项目（mapreduce）: 15. 使用 MapReduce 实现二次排序：使用 MapReduce 来实现数据的二次排序，以便对数据进行复杂的排序处理。该项目旨在掌握 MapReduce 编程模型的基本概念和应用，并涵盖了 MapReduce 的高级应用，旨在提高学生对云...

大数据MapReduce和YARN二次开发.pdf: 大数据MapReduce和YARN二次开发大数据MapReduce和YARN二次开发是大数据处理技术的重要组成部分，本文档将详细介绍MapReduce的过程、搭建开发环境、运行程序和MR开发接口介绍。 MapReduce的过程 MapReduce是...

拓思爱诺大数据-第二次作业MapReduce编程: 在“拓思爱诺大数据-第二次作业MapReduce编程”中，你将学习到如何使用MapReduce解决实际问题。首先，我们来看Hadoop的wordcount程序，这是一个经典的MapReduce示例，用于统计文本中单词出现的频率。在Map阶段，程序...

java大数据作业_5Mapreduce、数据挖掘: 【Java大数据作业_5Mapreduce、数据挖掘】的课后作业涵盖了多个MapReduce和大数据处理的关键知识点，包括日志分析、Job执行模式、HBase的相关类、容量调度配置、MapReduce流程以及二次排序算法。下面将对这些内容...

大数据框架（HADOOP、HIVE、HBASE）优化和简历项目编写（视频+讲义+笔记）: 03_MapReduce 二次排序回顾及Reduce Join实现详解 04_MapReduce 中Map Join实现思路及伪代码详解 05_Hive重点知识回顾总结及小表与大表关联时MapJoin优化 06_Hive中大表与大表关联时SMB Join优化 07_Hive中高级...

大数据mapreduce案例: 除了基本的MapReduce模型，还有一些优化策略可以提高性能，例如Combiner（本地化Reduce）、Partitioner（自定义分区）和Secondary Sort（二次排序）等。这些技巧可以在不改变最终结果的情况下，减少数据传输量，提高...

Data-Intensive Text Processing with MapReduce: MapReduce算法的设计涉及到多种技术，包括但不限于局部聚合、对和条纹、相对频率计算、二次排序、关系连接等。 - **局部聚合**：通过在Mapper端使用Combiners来减少Reduce端的通信开销，从而提高整体性能。这种方法...

google mapreduce: #### 二、MapReduce的基本编程模式 MapReduce的基本编程模式涉及两个主要步骤： 1. **Map函数**：用户自定义的Map函数接收输入的键值对，并生成一系列中间的键值对。这些中间键值对会被MapReduce框架根据键进行...

云计算 mapreduce - <Data-Intensive[1].Text.Processing.With.MapReduce>: 探讨了如何设计有效的MapReduce算法，包括局部聚合、配对与条纹化、相对频率计算、二次排序、关系连接等技术。 - **第4章：用于文本检索的倒排索引** 讨论了如何构建和优化倒排索引，包括不同的实现方法和技术...

Mapreduce原理: #### 二、MapReduce原理 **1. 数据处理模型** - **Map阶段**：数据处理的第一步是将原始数据切分为多个块，这些块被称为“split”。Map函数接收这些split作为输入，并对其进行处理，将数据转换为键值对形式。Map...

mapreduce详细流程: - **排序过程**：在MapReduce的整个过程中，经历了多次排序操作，包括： - Map端对分区号的快速排序。 - Map端对每个分区内部键的快速排序。 - Map任务结束后对文件进行归并排序。 - Reduce端对复制过来的Map...

Global site tag (gtag.js) - Google Analytics