强烈祝贺Hadoop赢得1TB排序基准评估第一名。Yadoo的一个集群最近用209秒时间排序1TB的数据 [1],比上一年的的纪录保持者保持的297秒 [2]快乐将近90秒。1998年Jim Gray创建了排序基准评估的方法,建立100亿条100个字节的纪录,评估对这100亿条纪录完全排序和把纪录写入磁盘的时间。评估是建立在未发布的版本0.18上的。排序所用的源码在这个地址 [3]。
评测集群的配置:
910 nodes
4 dual core Xeons @ 2.0ghz per a node
4 SATA disks per a node
8G RAM per a node
1 gigabit ethernet on each node
40 nodes per a rack
8 gigabit ethernet uplinks from each rack to the core
Red Hat Enterprise Linux Server Release 5.1 (kernel 2.6.18)
Sun Java JDK 1.6.0_05-b13
大家可能非常想知道如何配置Hadoop集群以提高集群处理效率。过些日子我会和大家探讨如何设置Hadoop的集群问题,包括configuration的配置,集群的监控,集群的资源管理等等,和一些来自Facebook Dhruba Borthakur [4]的经验。
[1] http://www.hpl.hp.com/hosted/sortbenchmark/YahooHadoop.pdf
[2] http://www.hpl.hp.com/hosted/sortbenchmark/
[3] http://hudson.zones.apache.org/hudson/job/Hadoop-trunk/ws/trunk/src/examples/org/apache/hadoop/examples/terasort/
[4] http://borthakur.com/dhruba_borthakur
分享到:
相关推荐
首先,二次排序是在MapReduce框架内进行的一种特殊排序方式,它遵循两个主要步骤:第一字段排序和相同第一字段下的第二字段排序。这种排序模式确保了在处理大量数据时,具有相同第一字段的记录会聚集在一起,然后再...
1. **自定义Partitioner**:创建一个新的类继承自`org.apache.hadoop.mapreduce.Partitioner`,重写`getPartition()`方法。在这个方法里,我们将电话号码作为分区的依据,确保同一号码的数据分配到同一分区。 2. **...
本文将详细介绍如何在Hadoop v3.3.3版本下进行分布式集群的部署,并进行DFSIO和Tersort基准测试,以评估系统的性能。 首先,我们来看硬件环境的要求。为了建立一个高效的Hadoop集群,至少需要两台服务器,这里分别...
1. **分区内部排序(Within-partition sorting)**:首先,数据按照key进行排序,同一分区内的所有键值对都会根据key的自然顺序或者用户自定义的Comparator进行升序排序。此外,如果一个job配置了`...
第二版的《Hadoop权威指南》主要覆盖了Hadoop 1.x的时代,这是Hadoop发展的初期阶段。在这一版本中,作者详细介绍了Hadoop的基本架构,包括HDFS(Hadoop分布式文件系统)和MapReduce。HDFS是Hadoop的核心组件,用于...
Hadoop集群·CentOS安装配置(第1期) Hadoop集群·机器信息分布表(第2期) Hadoop集群·VSFTP安装配置(第3期) Hadoop集群·SecureCRT使用(第4期) Hadoop集群·Hadoop安装配置(第5期) Hadoop集群·JDK和SSH无...
第1章 初识Hadoop 数据!数据! 数据存储与分析 与其他系统相比 关系型数据库管理系统 网格计算 志愿计算 1.3.4 Hadoop 发展简史 Apache Hadoop和Hadoop生态圈 第2章 关于MapReduce 一个气象数据...
二次排序(Secondary Sort)是Hadoop MapReduce中的一个重要概念,它允许用户自定义数据的最终排序方式,以满足更复杂的排序需求。这篇博客文章(虽然链接无法直接访问,但我们可以根据常规知识来解释这个概念)可能...
在大数据处理领域,Hadoop是一个不可或缺的开源框架,它提供了分布式存储和计算的能力。本示例中的"had
标题中的“Hadoop排序”指的是Hadoop框架中的MapReduce排序机制。MapReduce是Apache Hadoop的核心组件,主要用于处理和生成大规模数据集。在Hadoop中,数据被分割成多个块,然后并行处理,其中排序是一个关键步骤,...
一、前言 我们小组主要对基于[hadoop的大规模数据排序算法、海量数据的生成做了一定的研究。我们首先对于hadoop做了初步了解,其次,mapreduce是hadoop的很重要的算法,我们在第二阶段对mapreduce以及一些代码做了...
Hadoop 云计算 2.0 笔记第一课 Hadoop 介绍 Hadoop 云计算 2.0 笔记第一课 Hadoop 介绍中,我们可以了解到 Hadoop 的生态系统特点、Hadoop 生态系统概况、Hadoop 生态系统版本衍化、下一代 Hadoop、Hadoop 学习...
《Hadoop源码分析 第一章 Hadoop脚本》 Hadoop是大数据处理领域中的一个核心框架,它为海量数据的存储和计算提供了分布式解决方案。本文将深入剖析Hadoop脚本,带你理解其背后的实现机制,这对于理解Hadoop的工作...
Hadoop_Hadoop集群(第1期)_CentOS安装配置 Hadoop_Hadoop集群(第2期)_机器信息分布表 Hadoop_Hadoop集群(第4期)_SecureCRT使用 Hadoop_Hadoop集群(第5期)_Hadoop安装配置 Hadoop_Hadoop集群(第5期副刊)_...
01_hadoop_hdfs1分布式文件系统01 02_hadoop_hdfs1分布式文件系统02 03_hadoop_hdfs1分布式文件系统03 04_hadoop_hdfs1分布式文件系统04 05_hadoop_hdfs1分布式文件系统05 06_hadoop_hdfs1分布式文件系统06 07_...
- **1TB测试**:评估系统在处理1TB数据集时的性能。 - **10TB测试**:进一步测试系统在处理更大规模数据集时的能力。 通过对这两种不同规模数据集的测试,可以看出不同系统的扩展性和性能稳定性。 ##### 6.1.2 TPC...
细品味Hadoop_Hadoop集群(第1期)_CentOS安装配置