Hadoop赢得1TB排序基准评估第一名 - - ITeye博客

`

beijing.josh

浏览: 10226 次
性别:
来自: 北京

最近访客更多访客>>

自恋小猪42

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

2008-07 ( 2)
更多存档...

最新评论

Hadoop赢得1TB排序基准评估第一名

Hadoop Rack HP Linux 配置管理

阅读更多

强烈祝贺Hadoop赢得1TB排序基准评估第一名。Yadoo的一个集群最近用209秒时间排序1TB的数据 [1]，比上一年的的纪录保持者保持的297秒 [2]快乐将近90秒。1998年Jim Gray创建了排序基准评估的方法，建立100亿条100个字节的纪录，评估对这100亿条纪录完全排序和把纪录写入磁盘的时间。评估是建立在未发布的版本0.18上的。排序所用的源码在这个地址 [3]。评测集群的配置： 910 nodes 4 dual core Xeons @ 2.0ghz per a node 4 SATA disks per a node 8G RAM per a node 1 gigabit ethernet on each node 40 nodes per a rack 8 gigabit ethernet uplinks from each rack to the core Red Hat Enterprise Linux Server Release 5.1 (kernel 2.6.18) Sun Java JDK 1.6.0_05-b13 大家可能非常想知道如何配置Hadoop集群以提高集群处理效率。过些日子我会和大家探讨如何设置Hadoop的集群问题，包括configuration的配置，集群的监控，集群的资源管理等等，和一些来自Facebook Dhruba Borthakur [4]的经验。 [1] http://www.hpl.hp.com/hosted/sortbenchmark/YahooHadoop.pdf [2] http://www.hpl.hp.com/hosted/sortbenchmark/ [3] http://hudson.zones.apache.org/hudson/job/Hadoop-trunk/ws/trunk/src/examples/org/apache/hadoop/examples/terasort/ [4] http://borthakur.com/dhruba_borthakur

分享到：

HBase的概念和性能选项

2008-07-07 12:53
浏览 4268
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

hadoop 二次排序原理: 首先，二次排序是在MapReduce框架内进行的一种特殊排序方式，它遵循两个主要步骤：第一字段排序和相同第一字段下的第二字段排序。这种排序模式确保了在处理大量数据时，具有相同第一字段的记录会聚集在一起，然后再...

hadoop分区二次排序示例.zip: 1. **自定义Partitioner**：创建一个新的类继承自`org.apache.hadoop.mapreduce.Partitioner`，重写`getPartition()`方法。在这个方法里，我们将电话号码作为分区的依据，确保同一号码的数据分配到同一分区。 2. **...

Hadoop 分布式部署配置及基准性能测试: 本文将详细介绍如何在Hadoop v3.3.3版本下进行分布式集群的部署，并进行DFSIO和Tersort基准测试，以评估系统的性能。首先，我们来看硬件环境的要求。为了建立一个高效的Hadoop集群，至少需要两台服务器，这里分别...

hadoop shuffle和排序1: 1. **分区内部排序（Within-partition sorting）**：首先，数据按照key进行排序，同一分区内的所有键值对都会根据key的自然顺序或者用户自定义的Comparator进行升序排序。此外，如果一个job配置了`...

Hadoop权威指南第四版和第二版: 第二版的《Hadoop权威指南》主要覆盖了Hadoop 1.x的时代，这是Hadoop发展的初期阶段。在这一版本中，作者详细介绍了Hadoop的基本架构，包括HDFS（Hadoop分布式文件系统）和MapReduce。HDFS是Hadoop的核心组件，用于...

Hadoop集群（1-11期）: Hadoop集群·CentOS安装配置（第1期） Hadoop集群·机器信息分布表（第2期） Hadoop集群·VSFTP安装配置（第3期） Hadoop集群·SecureCRT使用（第4期） Hadoop集群·Hadoop安装配置（第5期） Hadoop集群·JDK和SSH无...

Hadoop权威指南第二版(中文版): 第1章初识Hadoop 　数据！数据！　数据存储与分析　与其他系统相比　关系型数据库管理系统　网格计算　志愿计算　1.3.4 Hadoop 发展简史　Apache Hadoop和Hadoop生态圈第2章关于MapReduce 　一个气象数据...

hadoop 二次排序插入数据库: 二次排序（Secondary Sort）是Hadoop MapReduce中的一个重要概念，它允许用户自定义数据的最终排序方式，以满足更复杂的排序需求。这篇博客文章（虽然链接无法直接访问，但我们可以根据常规知识来解释这个概念）可能...

hadoop实现分区二次排序代码示例.zip: 在大数据处理领域，Hadoop是一个不可或缺的开源框架，它提供了分布式存储和计算的能力。本示例中的"had

hadoop排序和google三大论文: 标题中的“Hadoop排序”指的是Hadoop框架中的MapReduce排序机制。MapReduce是Apache Hadoop的核心组件，主要用于处理和生成大规模数据集。在Hadoop中，数据被分割成多个块，然后并行处理，其中排序是一个关键步骤，...

Hadoop应用实例：基于Hadoop的大规模数据排序算法pdf: 一、前言我们小组主要对基于[hadoop的大规模数据排序算法、海量数据的生成做了一定的研究。我们首先对于hadoop做了初步了解，其次，mapreduce是hadoop的很重要的算法，我们在第二阶段对mapreduce以及一些代码做了...

Hadoop云计算2.0笔记第一课Hadoop介绍: Hadoop 云计算 2.0 笔记第一课 Hadoop 介绍 Hadoop 云计算 2.0 笔记第一课 Hadoop 介绍中，我们可以了解到 Hadoop 的生态系统特点、Hadoop 生态系统概况、Hadoop 生态系统版本衍化、下一代 Hadoop、Hadoop 学习...

Hadoop源码分析第一章 Hadoop脚本: 《Hadoop源码分析第一章 Hadoop脚本》 Hadoop是大数据处理领域中的一个核心框架，它为海量数据的存储和计算提供了分布式解决方案。本文将深入剖析Hadoop脚本，带你理解其背后的实现机制，这对于理解Hadoop的工作...

Hadoop集群pdf文档: Hadoop_Hadoop集群（第1期）_CentOS安装配置 Hadoop_Hadoop集群（第2期）_机器信息分布表 Hadoop_Hadoop集群（第4期）_SecureCRT使用 Hadoop_Hadoop集群（第5期）_Hadoop安装配置 Hadoop_Hadoop集群（第5期副刊）_...

hadoop详细视频教程: 01_hadoop_hdfs1分布式文件系统01 02_hadoop_hdfs1分布式文件系统02 03_hadoop_hdfs1分布式文件系统03 04_hadoop_hdfs1分布式文件系统04 05_hadoop_hdfs1分布式文件系统05 06_hadoop_hdfs1分布式文件系统06 07_...

细品味Hadoop_Hadoop集群（第1期）_CentOS安装配置: 细品味Hadoop_Hadoop集群（第1期）_CentOS安装配置

传智黑马赵星老师hadoop七天课程资料笔记-第一天(全): 【标题】"传智黑马赵星老师hadoop七天课程资料笔记-第一天(全)" 提供的是一份关于Hadoop的全面学习资料，主要聚焦在Hadoop的第一天课程内容。这个资源包涵盖了从基础概念到实际操作的多个方面，旨在帮助初学者快速...

Global site tag (gtag.js) - Google Analytics