Hadoop赢得1TB排序基准评估第一名 - gqf2008 - ITeye博客

`

gqf2008

浏览: 77526 次
性别:
来自: 上海

最近访客更多访客>>

zihai367

tanghui

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

qswdit：哥们话说文中CAS 提供扩展认证是怎么进行的啊！！求详 ...
单点登陆（SSO）CAS介绍
liuxuejin：这样的资料是在是太少了
lame+ffmpeg+flvtool2+mencoder
kfc_davy： NICE ~ 有点少了http://hi.baidu.com ...
ubuntu下安装Tokyo Tyrant（ttserver）
kkppccdd：请问付费怎么付的?大陆的信用卡申请不了google check ...
搜搜工作网正式迁移到Google App Engine
gqf2008： CLASSPATH=$CLASSPATH:/usr/local ...
Tokyo Tyrant（ttserver） java api的安装

Hadoop赢得1TB排序基准评估第一名

博客分类：

网站

Hadoop Rack Linux 配置管理 Facebook

阅读更多

强烈祝贺Hadoop赢得1TB排序基准评估第一名。Yadoo的一个集群最近用209秒时间排序1TB的数据，比上一年的的纪录保持者保持的297秒快乐将近90秒。1998年Jim Gray创建了排序基准评估的方法，建立100亿条100个字节的纪录，评估对这100亿条纪录完全排序和把纪录写入磁盘的时间。评估是建立在未发布的版本0.18上的。排序所用的源码在这个地址。

评测集群的配置：

910 nodes
4 dual core Xeons @ 2.0ghz per a node
4 SATA disks per a node
8G RAM per a node
1 gigabit ethernet on each node
40 nodes per a rack
8 gigabit ethernet uplinks from each rack to the core
Red Hat Enterprise Linux Server Release 5.1 (kernel 2.6.18)
Sun Java JDK 1.6.0_05-b13

大家可能非常想知道如何配置Hadoop集群以提高集群处理效率。过些日子我会和大家探讨如何设置Hadoop的集群问题，包括configuration的配置，集群的监控，集群的资源管理等等，和一些来自Facebook Dhruba Borthakur 的经验。

分享到：

CloudStore分布式文件系统 | Hadoop分布式计算、存储系统

2009-08-14 11:07
浏览 1346
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

hadoop 二次排序原理: 首先，二次排序是在MapReduce框架内进行的一种特殊排序方式，它遵循两个主要步骤：第一字段排序和相同第一字段下的第二字段排序。这种排序模式确保了在处理大量数据时，具有相同第一字段的记录会聚集在一起，然后再...

hadoop分区二次排序示例.zip: 1. **自定义Partitioner**：创建一个新的类继承自`org.apache.hadoop.mapreduce.Partitioner`，重写`getPartition()`方法。在这个方法里，我们将电话号码作为分区的依据，确保同一号码的数据分配到同一分区。 2. **...

Hadoop 分布式部署配置及基准性能测试: 本文将详细介绍如何在Hadoop v3.3.3版本下进行分布式集群的部署，并进行DFSIO和Tersort基准测试，以评估系统的性能。首先，我们来看硬件环境的要求。为了建立一个高效的Hadoop集群，至少需要两台服务器，这里分别...

hadoop shuffle和排序1: 1. **分区内部排序（Within-partition sorting）**：首先，数据按照key进行排序，同一分区内的所有键值对都会根据key的自然顺序或者用户自定义的Comparator进行升序排序。此外，如果一个job配置了`...

Hadoop权威指南第四版和第二版: 第二版的《Hadoop权威指南》主要覆盖了Hadoop 1.x的时代，这是Hadoop发展的初期阶段。在这一版本中，作者详细介绍了Hadoop的基本架构，包括HDFS（Hadoop分布式文件系统）和MapReduce。HDFS是Hadoop的核心组件，用于...

Hadoop集群（1-11期）: Hadoop集群·CentOS安装配置（第1期） Hadoop集群·机器信息分布表（第2期） Hadoop集群·VSFTP安装配置（第3期） Hadoop集群·SecureCRT使用（第4期） Hadoop集群·Hadoop安装配置（第5期） Hadoop集群·JDK和SSH无...

Hadoop权威指南第二版(中文版): 第1章初识Hadoop 　数据！数据！　数据存储与分析　与其他系统相比　关系型数据库管理系统　网格计算　志愿计算　1.3.4 Hadoop 发展简史　Apache Hadoop和Hadoop生态圈第2章关于MapReduce 　一个气象数据...

hadoop 二次排序插入数据库: 二次排序（Secondary Sort）是Hadoop MapReduce中的一个重要概念，它允许用户自定义数据的最终排序方式，以满足更复杂的排序需求。这篇博客文章（虽然链接无法直接访问，但我们可以根据常规知识来解释这个概念）可能...

hadoop实现分区二次排序代码示例.zip: 在大数据处理领域，Hadoop是一个不可或缺的开源框架，它提供了分布式存储和计算的能力。本示例中的"had

hadoop排序和google三大论文: 标题中的“Hadoop排序”指的是Hadoop框架中的MapReduce排序机制。MapReduce是Apache Hadoop的核心组件，主要用于处理和生成大规模数据集。在Hadoop中，数据被分割成多个块，然后并行处理，其中排序是一个关键步骤，...

Hadoop应用实例：基于Hadoop的大规模数据排序算法pdf: 一、前言我们小组主要对基于[hadoop的大规模数据排序算法、海量数据的生成做了一定的研究。我们首先对于hadoop做了初步了解，其次，mapreduce是hadoop的很重要的算法，我们在第二阶段对mapreduce以及一些代码做了...

Hadoop云计算2.0笔记第一课Hadoop介绍: Hadoop 云计算 2.0 笔记第一课 Hadoop 介绍 Hadoop 云计算 2.0 笔记第一课 Hadoop 介绍中，我们可以了解到 Hadoop 的生态系统特点、Hadoop 生态系统概况、Hadoop 生态系统版本衍化、下一代 Hadoop、Hadoop 学习...

Hadoop源码分析第一章 Hadoop脚本: 《Hadoop源码分析第一章 Hadoop脚本》 Hadoop是大数据处理领域中的一个核心框架，它为海量数据的存储和计算提供了分布式解决方案。本文将深入剖析Hadoop脚本，带你理解其背后的实现机制，这对于理解Hadoop的工作...

Hadoop集群pdf文档: Hadoop_Hadoop集群（第1期）_CentOS安装配置 Hadoop_Hadoop集群（第2期）_机器信息分布表 Hadoop_Hadoop集群（第4期）_SecureCRT使用 Hadoop_Hadoop集群（第5期）_Hadoop安装配置 Hadoop_Hadoop集群（第5期副刊）_...

hadoop详细视频教程: 01_hadoop_hdfs1分布式文件系统01 02_hadoop_hdfs1分布式文件系统02 03_hadoop_hdfs1分布式文件系统03 04_hadoop_hdfs1分布式文件系统04 05_hadoop_hdfs1分布式文件系统05 06_hadoop_hdfs1分布式文件系统06 07_...

细品味Hadoop_Hadoop集群（第1期）_CentOS安装配置: 细品味Hadoop_Hadoop集群（第1期）_CentOS安装配置

Global site tag (gtag.js) - Google Analytics