1T字节的数据排序209秒内完成,成功打破297秒的纪录。
100亿100字节的纪录,
yahoo拥有13000以上各节点的Hadopp集群。
One of Yahoo's Hadoop
clusters sorted 1 terabyte of data in 209 seconds
, which beat the previous record of 297 seconds in the annual general purpose (daytona) terabyte sort benchmark
.
The sort benchmark, which was created in 1998 by Jim Gray, specifies
the input data (10 billion 100 byte records), which must be completely
sorted and written to disk. This is the first time that either a Java
or an open source program has won. Yahoo is both the largest user of
Hadoop with 13,000+ nodes running hundreds of thousands of jobs a month
and the largest contributor, although non-Yahoo usage
and contributions
are increasing rapidly.
The cluster statistics were:
- 910 nodes
- 2 quad core Xeons @ 2.0ghz per a node
- 4 SATA disks per a node
- 8G RAM per a node
- 1 gigabit ethernet on each node
- 40 nodes per a rack
- 8 gigabit ethernet uplinks from each rack to the core
- Red Hat Enterprise Linux Server Release 5.1 (kernel 2.6.18)
- Sun Java JDK 1.6.0_05-b13
The benchmark was run with Hadoop trunk (pre-0.18) with a couple of
optimization patches to remove intermediate writes to disk. The sort
used 1800 maps and 1800 reduces and allocated enough memory to buffers
to hold the intermediate data in memory. All of the code for the
benchmark has been checked in as a Hadoop example.
分享到:
相关推荐
### TeraByte Sort on Apache Hadoop #### 概述 《TeraByte Sort on Apache Hadoop》是由Yahoo公司的Owen O’Malley撰写的一篇关于Hadoop基准测试方法的论文,该论文详细介绍了一种用于Hadoop平台的大规模数据排序...
Spring Data for Apache Hadoop API。 Spring Data for Apache Hadoop 开发文档
《Pro Apache Hadoop》是一本深入探讨Apache Hadoop生态系统的专业书籍,旨在为读者提供全面且深入的Hadoop知识。Hadoop是大数据处理领域的重要框架,由Apache软件基金会开发,以分布式计算为核心,实现了对海量数据...
标题中提到的“SQL for Apache Hadoop”指向一种通过SQL语言访问和操作Apache Hadoop存储的数据的能力。Hadoop是一个开源的框架,最初由Apache软件基金会开发,设计用于存储和处理大量数据。Hadoop主要采用分布式...
Apache Hadoop 是一个开源的分布式计算框架,专为处理和存储大规模数据集而设计。它由Apache软件基金会维护,是大数据处理领域中的核心组件。Hadoop 的主要特点是高容错性和可扩展性,使得它能够处理PB级别的数据。...
Apache Hadoop is a widely used distributed data platform. It enables large datasets to be efficiently processed instead of using one large computer to store and process the data. This book will get ...
《Apache Hadoop YARN》,全名Apache Hadoop YARN: Moving beyond MapReduce and Batch Processing with Apache Hadoop 2 (Addison-Wesley Data & Analytics Series) 这本书是2014年3月31号出版的,是基于Hadoop 2...
Apache Hadoop YARN: Moving beyond MapReduce and Batch Processing with Apache Hadoop 2 完整版哦,绝对清晰,不是扫描的mobi格式电子书,请使用电子书库calibre (http://calibre-ebook.com/download) 打开。
《Pro Apache Hadoop, 2nd Edition》是一本专门介绍Apache Hadoop第二版的专业书籍。Hadoop是一个开源框架,旨在从大型数据集中进行存储和处理的分布式系统。它允许开发者使用简单的编程模型在计算机集群上分布式地...
Apache Hadoop v2.7.0是大数据处理领域的一个关键组件,它是一个开源框架,主要用于分布式存储和计算。Hadoop的出现使得企业能够处理和分析海量数据,即使这些数据超过了单台机器的处理能力。在v2.7.0这个版本中,...
Apache Hadoop (hadoop-3.3.3.tar.gz)项目为可靠、可扩展的分布式计算开发开源软件。 Apache Hadoop 软件库是一个框架,它允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千...
### Apache Hadoop 实现Facebook实时计算的关键技术与实践 #### 概述 随着大数据时代的到来,数据处理的需求日益增长,特别是在社交媒体平台如Facebook这样的大型应用上。为了应对这些挑战,Facebook选择采用...
Apache Hadoop是一个开源框架,主要用于分布式存储和计算大数据。自2004年诞生以来,Hadoop已经走过了一个十年的历程,经历了多个关键的发展阶段。2006年,Hadoop从Google的GFS(Google文件系统)和MapReduce启发,...
根据提供的文件信息,本知识点将详细介绍英特尔Apache Hadoop软件发行版安装手册2.3版的内容。 ### 英特尔Apache Hadoop软件发行版安装手册2.3概述 该手册为2013年2月版本,主要目的是提供关于英特尔提供的Apache ...
在这个“Apache Hadoop基于开源监控模板大全”中,我们关注的是如何使用它们来监控Hadoop生态系统中的组件,如Hadoop本身、Zookeeper以及HBase。 首先,JMX(Java Management Extensions)是Java平台提供的一种标准...
Apache Hadoop (hadoop-3.2.3.tar.gz)项目为可靠、可扩展的分布式计算开发开源软件。 Apache Hadoop 软件库是一个框架,它允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千...
Apache Ambari 是一款强大的开源工具,专门设计用于简化Apache Hadoop生态系统的集群管理与监控。它通过一个直观的Web界面提供了丰富的功能,使管理员能够轻松地供应、配置、管理和监控Hadoop集群。Hadoop在这里指的...