`
king_c
  • 浏览: 223640 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Hadoop之更快的排序

阅读更多

 

键默认的排序处理是,从一个流中读键类型的实例,使用键类型的readFields()方法来解析字节流,然后对这两个对象调用compareTo()方法。为了更快的排序,可以只通过检视字节流而不用解析出包含在其中的数据来判断这两个key的顺序。比如,考虑比较字符串文本。如果字符按照顺序读入,我们就可以在第一个字符不同的地方确定它们的顺序。即使是需要读入所有的字节,对象自身也没有初始化的必要。要支持这个高速的排序机制,你可以在你自己的数据类型的比较器实现中继承WritableComparable类。然后,重载下面的方法:

 

public int compare(byte[] b1, int s1, int l1, byte[] b2, int s2, int l2)
 

所有默认的实现是在org.apache.hadoop.io.WritableComprator中。相应的方法在这:

 

public int compare(byte[] b1, int s1, int l1, byte[] b2, int s2, int l2){
try{
buffer.reset(b1, s1, l1);
key1.readFields(buffer);
buffer.reset(b2, s2, l2);
key2.readFields(buffer);
}catch(IOException e){
throw new RuntimeException(e);
}
return compare(key1, key2);
}
 

操作就像上面所说的;在它们被各自从各自的字节流中反序列化出来之后,两个对象就进行了直接的比对。两个对象必须是全结构的并且在比对发生之前必须被反序列化。Text类,允许通过重载这个方法实现增量比对。相应的代码是:

  /** A WritableComparator optimized for Text keys. */

  public static class Comparator extends WritableComparator {
    public Comparator() {
      super(Text.class);
    }


    public int compare(byte[] b1, int s1, int l1,
                       byte[] b2, int s2, int l2) {
      int n1 = WritableUtils.decodeVIntSize(b1[s1]);
      int n2 = WritableUtils.decodeVIntSize(b2[s2]);
      return compareBytes(b1, s1+n1, l1-n1, b2, s2+n2, l2-n2);
    }
  }
 

Text对象序列化,首先将它的长度字段写入到字节流中,然后是一个UTF编码的字符串。方法decodeVIntSize确定了描述字节流长度的整形数的长度。比较器跳过这些字节,直接比对UTF编码的真实的字符串部分的字节,比较是通过compareBytes方法实现的。一旦找到一个不同的,然后就返回结果,后面的不管。

注意,你不必手动在你的Hadoop程序中指名这个比较器。只需要注册一下就可以了,Hadoop会自动使用的:

 

  static {
    // register this comparator
    WritableComparator.define(Text.class, new Comparator());
  }
分享到:
评论

相关推荐

    hadoop分区二次排序示例.zip

    二次排序则是在这个基础之上,增加了对value或元数据的排序需求。在这个案例中,我们的目标是对基站数据进行排序,首先是按照电话号码升序排序,其次在同一电话号码内按照到达时间降序排序。这种排序方式有助于我们...

    Hadoop对文本文件的快速全局排序实现方法及分析

    Hadoop的排序功能是基于Hadoop生态系统中的其他组件,如Hive和Pig等,它们提供了更高级的抽象和更易于使用的接口来处理大规模数据排序。 实现局部抽样方法PartialSampler的步骤包括: - 首先通过InputFormat的...

    Hadoop的工作原理

    6. **Hadoop的扩展与优化**:随着Hadoop的发展,出现了许多优化和扩展,如Spark用于更快的实时计算,HBase提供NoSQL数据库服务,Hive支持SQL查询,Pig提供高级数据处理语言,以及Tez和YARN的改进调度算法等。...

    Hadoop集群

    由于Hadoop是一个批处理系统,并不支持实时的数据处理和在线事务处理,它更适用于对实时性要求不高的数据分析和挖掘任务。Hadoop的分布式架构是其处理大数据的关键,同时也在数据安全和隐私保护方面提出了新的挑战。...

    hadoop权威指南PDF

    8. **挑战与优化**:Hadoop在处理实时和交互式查询方面相对较弱,这催生了如Spark等更快速的计算框架。此外,Hadoop的资源管理和调度效率也是持续优化的重点。 9. **未来趋势**:随着Kubernetes等容器编排技术的...

    尚硅谷大数据技术之Hadoop(MapReduce)1

    【尚硅谷大数据技术之Hadoop(MapReduce)1】深入解析MapReduce MapReduce是Google提出的一种用于处理和生成大规模数据集的编程模型,被广泛应用于大数据处理领域。Hadoop将其作为核心组件,实现了分布式计算的功能...

    Hadoop大数据开发基础-PPT课件

    【Hadoop大数据开发基础-PPT课件】是一个涵盖了Hadoop生态系统入门知识的教育资源,适合初学者和希望深入了解大数据处理技术的IT专业人士。本课件主要围绕Hadoop框架展开,包括其设计原理、核心组件以及实际应用。...

    hadoop高级应用二

    "hadoop高级应用二"这个主题将深入探讨Hadoop生态系统中的高级概念和技术,帮助用户更好地理解和利用Hadoop进行大规模数据处理。以下是对这个主题的详细阐述: 一、Hadoop概述 Hadoop是由Apache基金会开发的一个...

    hadoop中文实战

    Spark则以其内存计算的优势,实现了比MapReduce更快的数据处理速度。 本书还会讨论数据安全和集群运维,包括权限控制、数据加密、监控和故障排查等,这对于企业级Hadoop部署至关重要。最后,会有一些实战项目,帮助...

    hadoop 索引相关记录

    通过创建这些中间结果的索引,可以加速Reduce阶段的数据分发,使得Reducer能够更快地找到与其相关的键值对。例如,BlockIndex和FileIndex是Hadoop中用于中间结果的两种索引结构,它们帮助优化数据分区和排序过程。 ...

    hadoop-2.7.6.zip

    3. 性能优化:包括更快的数据读写速度,更高效的内存管理和磁盘I/O。 4. 安全性增强:支持Kerberos认证,提供更加安全的集群环境。 5. 配置优化:对配置文件进行了改进,使用户更容易理解和调整设置。 五、Hadoop...

    hadoop经典实战教程

    ### Hadoop经典实战教程知识点详解 #### 一、Hadoop简介与生态系统 ...更重要的是,通过具体案例的分析,读者可以更好地理解和应用Hadoop解决实际问题的能力。希望本教程能够帮助大家在大数据处理领域取得更大的成就。

    hadoop map-reduce turorial

    **源代码解析**:单词计数是Hadoop Map-Reduce中最经典的示例之一,用于演示如何读取文本文件,统计其中每个单词出现的次数。Map函数将文本文件中的每一行分解为单词,为每个单词创建键值对(<单词,1>),Reduce...

    Hadoop大数据常见面试题库

    - Kubernetes集成:将Hadoop运行在Kubernetes之上,实现更灵活的资源管理和调度。 - 多云和混合云策略:企业倾向于将Hadoop部署在多云环境中,以应对不同的需求。 9. **面试准备**: - 理解基本概念:清楚地知道...

    hadoop 64位 本地库

    在Hadoop中,“本地库”(Native Libraries)是指为优化Hadoop性能而编译的一系列C/C++库,这些库与Java代码一起工作,以提供更好的I/O性能、计算效率以及对特定硬件(如GPU或SSD)的支持。尤其对于64位系统,使用...

    Partitioner, SortComparator and GroupingComparator in Hadoop

    在实际项目中,可能还需要结合Hadoop提供的其他工具,如Hadoop命令行工具、HDFS浏览器等,进行数据预处理、检查数据分布和排序情况,以便更好地优化MapReduce作业。 总之,Partitioner、SortComparator和...

    Hadoop进行分布式计算的入门资料

    - Hadoop生态:包括Hive(数据仓库工具)、Pig(数据分析工具)、Spark(快速数据处理框架)等,它们与Hadoop协同工作,提供了更丰富的数据处理功能。 - HBase:基于Hadoop的分布式NoSQL数据库,适用于实时查询...

    hadoop-2.7.1.tar.gz

    - Erasure Coding:在2.7.1版本中,HDFS开始支持数据冗余的另一种形式,除了传统的复制方式外,还提供了更节省空间的编码方式。 3. **Hadoop安装与配置**: - 解压`hadoop-2.7.1.tar.gz`后,用户需要配置环境...

Global site tag (gtag.js) - Google Analytics