Secondary Sort in Hadoop - 小雨 - ITeye博客

`

yaojingguo

浏览: 212514 次
性别:
来自: 北京

最近访客更多访客>>

844700118

hubo.0508

viyondpay

aqi_008

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

fuliang： more cleanner than before
Big Integer Arithmetic
yaojingguo： Hi, Liang LiangThanks for the i ...
Redirect and restore stdout in C
fuliang：使用gcc编译.cpp,可以使用-lstdc++选项，这样gc ...
Redirect and restore stdout in C

Secondary Sort in Hadoop

博客分类：

java

阅读更多

I write this stuff since it confused me a lot.

First, the input Iterable values for reduce method is not sorted in any
order. It is mentioned on Page 277 in Hadoop: The Definitive Guide,
Third Edition.

Job has three methods related to second sort:

1) setPartitionerClass
2) setSortComparatorClass
3) setGroupingComparatorClass

For 0.18.3 API, JobConf's following three methods are used:
1) setPartitionerClass
2) setOutputKeyComparatorClass
3) setOutputValueGroupingComparator

The confusing part is setGroupingComparatorClass. For the following
input for reduce:

<k1, v1> <k2, v2> // sorted by key from map phase

If setGroupingComparatorClass decides that k1 is equivalent to k2 even
thought k1 and k2 are different, the output from reduce method will be:

<k1, <v1, v2>> // <v1, v2> are in the original key order, k2 is lost.

Now let's talk about MaxTemperatureUsingSecondarySort. Input is like:

1901 99
1901 98
1902 80
1902 10

The output from map is:

<<1901, 99>, null>
<<1901, 98>, null>
<<1902, 80>, null>
<<1902, 10>, null>

The reduce method will be invoked twice. The output is:

<1901, 99>
<1902, 80>

Now turns to SecondarySort in Hadoop examples. For the same input, the
output from map is:

<<1901, 98>, 98>
<<1901, 99>, 99>
<<1902, 10>, 10>
<<1902, 80>, 80>

The reduce method will also be invoked twice. The output is:

<1901, 98>
<1901, 99>
<1902, 10>
<1902, 80>

分享到：

Oracle Logging | How to read a reseach paper

2013-03-26 16:08
浏览 855
评论(0)
分类:数据库
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hadoop大数据期末考试重点: 2. **配置文件的区别**：hadoop-env.sh配置文件用于确保Hadoop系统能正常运行HDFS守护进程，如NameNode、Secondary NameNode和DataNode，而非yarn-env.sh。 3. **Hadoop2.x的Block大小**：在Hadoop2.x中，默认的...

hadoop in action中文电子版: 本书首先会介绍Hadoop的基本架构，包括NameNode、DataNode、Secondary NameNode等组件的工作方式，以及HDFS的文件读写流程。接着，它会详细讲解MapReduce的工作原理，包括Mapper和Reducer阶段，以及中间结果的 ...

Hadoop 官方文档(中文版): - MapReduce 模型：理解Map和Reduce两个主要阶段，以及Shuffle和Sort的过程。 - JobTracker与TaskTracker（旧版）/ResourceManager与NodeManager（YARN）：了解任务调度和执行的逻辑。 - 自定义Mapper和Reducer：...

hadoop源代码存档: 2. hadoop-hdfs：实现了HDFS，包括NameNode（元数据管理）、DataNode（数据存储）和Secondary NameNode（元数据备份）的源码。 3. hadoop-mapreduce：实现了MapReduce计算框架，包括JobTracker（任务调度）、...

hadoop 1.2.1核心源码: 9. **MapReduce工作流程**：在Hadoop 1.2.1中，MapReduce包括Map阶段和Reduce阶段，中间数据通过Shuffle和Sort进行处理。通过源码，我们可以看到这些阶段如何协调工作，以及数据如何在节点之间流动。 10. **HDFS...

数据算法--HadoopSpark大数据处理技巧.pdf: 这份“数据算法--HadoopSpark大数据处理技巧”文档显然探讨了如何利用这两个工具进行复杂的数据操作，具体涉及到Scala编程实现的两个重要算法：Secondary Sort（二级排序）和Common Friends（共同朋友计算）。...

Hadoop Real-World Solutions Cookbook 源代码: 6. **Chap 7 - 高级MapReduce技术**：涵盖如使用Secondary Sort进行复杂排序，或者使用New API（MapReduce v2, YARN）提升性能和资源管理。 7. **Chap 8 - Hadoop优化与故障排除**：这部分内容可能涉及Hadoop集群的...

hadoop高级应用: 5. **数据处理优化**：在Hadoop中，可以通过优化MapReduce的Job配置，如调整Split大小，优化Reducer数量，使用Combiner减少网络传输，以及利用Secondary Sort等技术来提升处理效率。 6. **容错与稳定性**：Hadoop...

hadoop-2.7.1.tar.gz: - HA(High Availability)：在2.7.1版本中，HDFS支持NameNode的高可用性，通过使用Secondary NameNode和Quorum Journal Manager实现，确保了服务的连续性。 - HDFS Federation：允许多个独立的命名空间并行运行在...

实战hadoop中的源码: Reduce阶段则将Mapper的结果聚合，通过Shuffle和Sort过程，保证相同键值对的数据被同一个Reducer处理。 4. **源码分析**：深入Hadoop源码，可以了解如数据分块策略、Block和Packet的定义、心跳机制、故障恢复策略等...

hadoop 二次排序原理: 本文将深入解析Hadoop的二次排序（Secondary Sort）原理，这是一个允许用户自定义排序规则以满足特定需求的功能。首先，二次排序是在MapReduce框架内进行的一种特殊排序方式，它遵循两个主要步骤：第一字段排序和...

Hadoop权威指南(中文版-带目录索引): 1. **Hadoop架构**：介绍Hadoop的整体设计，包括NameNode、DataNode、Secondary NameNode等节点的角色和功能，以及它们如何协同工作以提供数据存储和访问。 2. **HDFS原理**：详细解析HDFS的数据存储机制，如数据块...

Hadoop权威指南(中文版)(带书签): 在《Hadoop权威指南》中，读者可以深入了解到Hadoop的架构原理，包括NameNode和DataNode的角色，以及Secondary NameNode的功能。书中详细解释了HDFS的写入、读取过程，如何处理数据块的复制和故障恢复，以及如何扩展...

hadoop学习总结（面试必备): 2. Shuffle与Sort：Map阶段产生的中间结果依据键进行排序和分区，为Reduce阶段做准备。 3. Reduce阶段：Reduce函数将相同键的值组合，进行聚合计算，生成最终结果。 4. 并行处理：多个Map任务和Reduce任务可以并行...

hadoop-3.1.1-src.tar.gz: - **Secondary NameNode**：辅助NameNode，帮助合并编辑日志，减轻NameNode的压力。 - **HDFS副本策略**：通过在不同的节点上复制数据块，确保数据的可靠性和容错性。 3. **MapReduce**： - **Map阶段**：将输入...

Hadoop和hive大数据面试题: 1. Hadoop的架构：理解Hadoop的主节点（NameNode）和从节点（DataNode）的角色，以及Secondary NameNode的作用。 2. HDFS的工作原理：深入理解数据块的概念，以及副本策略如何确保数据冗余和容错性。 3. MapReduce的...

hadoop权威指南4书上项目源码等: 理解Hadoop的分布式环境，包括NameNode、DataNode、Secondary NameNode等节点的角色，以及它们如何协同工作以确保数据的可靠存储和访问。 2. **HDFS详解**：HDFS的文件块、副本策略、故障恢复机制是学习的重点。书...

Data Algorithms: Recipes for Scaling Up with Hadoop and Spark pdf: 书中还讨论了Secondary Sort（二级排序）问题，提供了Hadoop和Spark解决方案的详细案例分析，包括输入、预期输出、map()和reduce()函数的介绍，以及实际代码示例的运行结果。书中对于Secondary Sort问题进行了深入...

hadoop 2.7.2 源码: 源码中，你可以看到NameNode、DataNode和Secondary NameNode等节点的角色定义，以及文件的块级存储、复制策略和故障恢复机制。 2. **MapReduce**：MapReduce是Hadoop的计算模型，用于并行处理大量数据。它将复杂...

Hadoop面试100题: - **Shuffle & Sort**：中间结果的排序和分区，为Reducer输入做准备。 4. **Hadoop与Java的关系** - **编程接口**：Hadoop主要使用Java API开发，如`org.apache.hadoop.mapreduce`包下的类。 - **序列化**：...

Global site tag (gtag.js) - Google Analytics