`
beijing.josh
  • 浏览: 10134 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Hadoop赢得1TB排序基准评估第一名

阅读更多
强烈祝贺Hadoop赢得1TB排序基准评估第一名。Yadoo的一个集群最近用209秒时间排序1TB的数据 [1],比上一年的的纪录保持者保持的297秒 [2]快乐将近90秒。1998年Jim Gray创建了排序基准评估的方法,建立100亿条100个字节的纪录,评估对这100亿条纪录完全排序和把纪录写入磁盘的时间。评估是建立在未发布的版本0.18上的。排序所用的源码在这个地址 [3]。   评测集群的配置: 910 nodes 4 dual core Xeons @ 2.0ghz per a node 4 SATA disks per a node 8G RAM per a node 1 gigabit ethernet on each node 40 nodes per a rack 8 gigabit ethernet uplinks from each rack to the core Red Hat Enterprise Linux Server Release 5.1 (kernel 2.6.18) Sun Java JDK 1.6.0_05-b13 大家可能非常想知道如何配置Hadoop集群以提高集群处理效率。过些日子我会和大家探讨如何设置Hadoop的集群问题,包括configuration的配置,集群的监控,集群的资源管理等等,和一些来自Facebook Dhruba Borthakur [4]的经验。 [1] http://www.hpl.hp.com/hosted/sortbenchmark/YahooHadoop.pdf [2] http://www.hpl.hp.com/hosted/sortbenchmark/ [3] http://hudson.zones.apache.org/hudson/job/Hadoop-trunk/ws/trunk/src/examples/org/apache/hadoop/examples/terasort/ [4] http://borthakur.com/dhruba_borthakur
分享到:
评论

相关推荐

    hadoop 二次排序 原理

    首先,二次排序是在MapReduce框架内进行的一种特殊排序方式,它遵循两个主要步骤:第一字段排序和相同第一字段下的第二字段排序。这种排序模式确保了在处理大量数据时,具有相同第一字段的记录会聚集在一起,然后再...

    hadoop分区二次排序示例.zip

    1. **自定义Partitioner**:创建一个新的类继承自`org.apache.hadoop.mapreduce.Partitioner`,重写`getPartition()`方法。在这个方法里,我们将电话号码作为分区的依据,确保同一号码的数据分配到同一分区。 2. **...

    Hadoop 分布式部署配置及基准性能测试

    本文将详细介绍如何在Hadoop v3.3.3版本下进行分布式集群的部署,并进行DFSIO和Tersort基准测试,以评估系统的性能。 首先,我们来看硬件环境的要求。为了建立一个高效的Hadoop集群,至少需要两台服务器,这里分别...

    hadoop shuffle和排序1

    1. **分区内部排序(Within-partition sorting)**:首先,数据按照key进行排序,同一分区内的所有键值对都会根据key的自然顺序或者用户自定义的Comparator进行升序排序。此外,如果一个job配置了`...

    Hadoop权威指南第四版和第二版

    第二版的《Hadoop权威指南》主要覆盖了Hadoop 1.x的时代,这是Hadoop发展的初期阶段。在这一版本中,作者详细介绍了Hadoop的基本架构,包括HDFS(Hadoop分布式文件系统)和MapReduce。HDFS是Hadoop的核心组件,用于...

    Hadoop集群(1-11期)

    Hadoop集群·CentOS安装配置(第1期) Hadoop集群·机器信息分布表(第2期) Hadoop集群·VSFTP安装配置(第3期) Hadoop集群·SecureCRT使用(第4期) Hadoop集群·Hadoop安装配置(第5期) Hadoop集群·JDK和SSH无...

    Hadoop权威指南 第二版(中文版)

    第1章 初识Hadoop  数据!数据!  数据存储与分析  与其他系统相比  关系型数据库管理系统  网格计算  志愿计算  1.3.4 Hadoop 发展简史  Apache Hadoop和Hadoop生态圈 第2章 关于MapReduce  一个气象数据...

    hadoop 二次排序 插入数据库

    二次排序(Secondary Sort)是Hadoop MapReduce中的一个重要概念,它允许用户自定义数据的最终排序方式,以满足更复杂的排序需求。这篇博客文章(虽然链接无法直接访问,但我们可以根据常规知识来解释这个概念)可能...

    hadoop实现分区二次排序代码示例.zip

    在大数据处理领域,Hadoop是一个不可或缺的开源框架,它提供了分布式存储和计算的能力。本示例中的"had

    hadoop排序和google三大论文

    标题中的“Hadoop排序”指的是Hadoop框架中的MapReduce排序机制。MapReduce是Apache Hadoop的核心组件,主要用于处理和生成大规模数据集。在Hadoop中,数据被分割成多个块,然后并行处理,其中排序是一个关键步骤,...

    Hadoop应用实例:基于Hadoop的大规模数据排序算法pdf

    一、前言 我们小组主要对基于[hadoop的大规模数据排序算法、海量数据的生成做了一定的研究。我们首先对于hadoop做了初步了解,其次,mapreduce是hadoop的很重要的算法,我们在第二阶段对mapreduce以及一些代码做了...

    Hadoop云计算2.0笔记第一课Hadoop介绍

    Hadoop 云计算 2.0 笔记第一课 Hadoop 介绍 Hadoop 云计算 2.0 笔记第一课 Hadoop 介绍中,我们可以了解到 Hadoop 的生态系统特点、Hadoop 生态系统概况、Hadoop 生态系统版本衍化、下一代 Hadoop、Hadoop 学习...

    Hadoop源码分析 第一章 Hadoop脚本

    《Hadoop源码分析 第一章 Hadoop脚本》 Hadoop是大数据处理领域中的一个核心框架,它为海量数据的存储和计算提供了分布式解决方案。本文将深入剖析Hadoop脚本,带你理解其背后的实现机制,这对于理解Hadoop的工作...

    Hadoop集群pdf文档

    Hadoop_Hadoop集群(第1期)_CentOS安装配置 Hadoop_Hadoop集群(第2期)_机器信息分布表 Hadoop_Hadoop集群(第4期)_SecureCRT使用 Hadoop_Hadoop集群(第5期)_Hadoop安装配置 Hadoop_Hadoop集群(第5期副刊)_...

    hadoop详细视频教程

    01_hadoop_hdfs1分布式文件系统01 02_hadoop_hdfs1分布式文件系统02 03_hadoop_hdfs1分布式文件系统03 04_hadoop_hdfs1分布式文件系统04 05_hadoop_hdfs1分布式文件系统05 06_hadoop_hdfs1分布式文件系统06 07_...

Global site tag (gtag.js) - Google Analytics