`
ginge
  • 浏览: 211888 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

Yahoo! 启动了世界上最大的Hadoop生产应用[译]

阅读更多

原文:http://developer.yahoo.net/blogs/hadoop/2008/02/yahoo-worlds-largest-production-hadoop.html

 

 

最近,Yahoo! 启动了目前世界上最大的Apache Hadoop生产应用。Yahoo! Search WebmapHadoop应用,运行在超过10000Linux系统的集群里。Yahoo! 的网页搜索查询使用的数据正是由它生产的。

 

Webmap的构建从Yahoo! 对网页的爬行开始,之后产出包含一个所有已知网页和互联网站点的数据库,还生成一个关于所有页面和站点的海量数据组。这些数据再输送给位于Yahoo! Search中心懂得排行算法的计算机。

 

一些Webmap数字:

l  索引中页面间的链接数量:大概1T 个链接

l  数据产出量的大小:超过300T,还是经过压缩的!

l  运行一个Map-Reduce任务的核心数量:超过10000

l  生产环境中使用的存储量:超过5P

 

这个流程并不新鲜,新鲜的是Hadoop的使用。Hadoop让我们系统只用前Hadoop时代66%的时间运行同一个流程。它在做管理的同时处理了上述的流程。我们更加相信随着我们加大Hadoop的规模,我们将可以根据需要增大生产任务至更大的集群规模。

 

YahooWebmapHadoop开发,我们的团队感到非常的兴奋。因为尽管Hadoop还处在开发的初级阶段(甚至是未成熟阶段),Hadoop就已经可以以低成本的方式胜任真正互联网级别的项目。这个以及Yahoo!其他生产系统的开发,其他组织证明Hadoop正获得市场的青睐,其价值正在增加。

 

 

2006年以来,Yahoo!网格计算团队一直在很多研究和开发任务中使用和增强Hadoop。将Hadoop从一个两年前还在几十个计算机上运行,带领成为今天成千上万上计算机上运行的系统,我们感到非常的骄傲。Webmap证明了Hadoop解决真正互联网级别问题,令人信任地在一个大型生产规模运作的能力。可以说,Yahoo!每月产生的几十亿个Web搜索查询结果很大程度归功于Hadoop集群生产的数据。

 

Eric Baldeschwieler
Senior Director, Grid Computing
Yahoo! Inc.

3
0
分享到:
评论
1 楼 meteormatt 2009-12-18  
恩.
这个Apache的项目.雅虎支持的很好.

相关推荐

    hadoop介绍

    ### Hadoop介绍及安装详解 #### 一、Hadoop简介 **Hadoop** 是一个能够对大量...通过以上步骤,不仅可以成功安装和启动Hadoop,还能深入了解Hadoop的工作原理和技术架构,为后续的大数据分析和处理打下坚实的基础。

    hadoop的经典讲义

    启动Hadoop涉及配置文件的设置,如`Core-site.xml`、`Hdfs-site.xml`、`Mapred-site.xml`等,以及环境变量的配置。启动和停止Hadoop服务通常通过相应的脚本或命令完成,例如`start-hadoop`和`stop-hadoop`。 总结来...

    Hadoop The Definitive Guide PDF

    - **Hadoop简介**:Hadoop 项目始于2006年,由雅虎公司的工程师 Doug Cutting 和 Mike Cafarella 开发,其初衷是为了实现Google论文中提出的MapReduce算法和GFS(Google 文件系统)的概念。随着社区的发展,Hadoop ...

    ZooKeeper 原理及其在 Hadoop 和 HBase 中的应用

    ### ZooKeeper原理及其在Hadoop和HBase中的应用 #### ZooKeeper概述 ZooKeeper是一个由雅虎开发的开源分布式协调服务系统,旨在为分布式应用提供一致性和可靠性支持。它是Google Chubby系统的开源版本,主要功能...

    hadoop实战教程.doc

    Hadoop在众多公司中得到了广泛应用,例如Facebook、淘宝、360、京东、Yahoo和Google等。 安装Hadoop通常涉及以下步骤: 1. 单机安装:如Hadoop4win,它是一个集成了Linux、JDK和Hadoop的安装程序,简化了在Windows...

    基于Ubuntu的Hadoop简易集群安装与配置

    - 启动Hadoop集群。 #### 四、测试是否安装成功 - 使用`jps`命令检查Hadoop各进程是否正常运行。 - 使用`hdfs dfs -ls /`命令查看HDFS根目录下的文件。 #### 五、Hadoop中HDFS的应用 ##### 4.1 HDFS体系架构 HDFS...

    linux下载,安装,JDK配置,hadoop安装

    **3.4 启动Hadoop** - **格式化 HDFS**:使用 `hadoop namenode -format`。 - **启动 Hadoop**: - 单机模式:无需额外操作。 - 伪分布模式:配置 SSH 免密码登录,启动相关守护进程。 - 全分布模式:除了伪分布...

    Hadoop实战

    ### Hadoop实战——详解Hadoop的核心技术和应用场景 #### 一、Hadoop概述 **Hadoop** 是一个由 Apache 软件基金会维护的开源分布式计算平台。它主要由 **Hadoop 分布式文件系统 (HDFS)** 和 **MapReduce** 两大...

    Hadoop从初级到资深的必知必会35问

    Hadoop是一个广泛应用于大数据领域的分布式存储与计算平台,对于想要从入门到精通掌握Hadoop技术的专业人士而言,理解其架构、部署、运行机制和特点是非常关键的。Hadoop不仅包括了核心项目HDFS和MapReduce,还包含...

    Lecture4_Hadoop

    - **启动Hadoop服务**:完成上述准备工作后,即可启动Hadoop服务。 以上就是关于Hadoop的基本介绍和技术要点。Hadoop不仅解决了大数据处理中的存储问题,还通过MapReduce提供了一种高效的数据处理方式。随着大数据...

    hadoop学习资料地址

    - 解释了当磁盘空间过满时Hadoop任务启动失败的原因及解决方法。 6. **特殊应用** - **WebDav**:`http://www.blogjava.net/badqiu/archive/2008/11/24/242225.html` - 介绍了如何使用WebDav与HDFS集成。 通过...

    Chapter2-厦门大学-林子雨-大数据技术原理与应用-第2讲-大数据处理架构Hadoop(中国大学MOOC2018年春季学期

    Hadoop的设计理念是简单性和可扩展性,允许用户在普通硬件组成的集群上运行应用程序,而无需关心底层的复杂性。由于其核心组件HDFS(Hadoop Distributed File System)和MapReduce,Hadoop能够以高容错性的方式处理...

    Hadoop权威指南 第3版.pdf

    雅虎的Doug Cutting受到启发,创建了Hadoop项目。Hadoop最初版本是在2006年发布的,之后经过多个版本的迭代,逐渐成为大数据处理领域的核心技术之一。 #### 二、Hadoop架构详解 - **Hadoop的核心组件**主要包括...

    单节点Hadoop配置.doc

    - 在启动Hadoop集群之前,需要对名称节点进行一次性的格式化操作,这将初始化HDFS的元数据。 5. **启动和停止集群** - **启动**:通过执行相应的脚本启动namenode、datanode、jobtracker和tasktracker。 - **...

Global site tag (gtag.js) - Google Analytics