阅读更多

50顶
7踩

编程语言

原创新闻 Yahoo! 启动了世界上最大的Hadoop生产应用[译]

2009-02-16 09:44 by 见习记者 ginge 评论(12) 有13572人浏览

原文:http://developer.yahoo.net/blogs/hadoop/2008/02/yahoo-worlds-largest-production-hadoop.html

 

 

最近,Yahoo! 启动了目前世界上最大的Apache Hadoop生产应用。Yahoo! Search WebmapHadoop应用,运行在超过10000Linux系统的集群里。Yahoo! 的网页搜索查询使用的数据正是由它生产的。

 

Webmap的构建从Yahoo! 对网页的爬行开始,之后产出包含一个所有已知网页和互联网站点的数据库,还生成一个关于所有页面和站点的海量数据组。这些数据再输送给位于Yahoo! Search中心懂得排行算法的计算机。

 

一些Webmap数字:

l  索引中页面间的链接数量:大概1T 个链接

l  数据产出量的大小:超过300T,还是经过压缩的!

l  运行一个Map-Reduce任务的核心数量:超过10000

l  生产环境中使用的存储量:超过5P

 

这个流程并不新鲜,新鲜的是Hadoop的使用。Hadoop让我们系统只用前Hadoop时代66%的时间运行同一个流程。它在做管理的同时处理了上述的流程。我们更加相信随着我们加大Hadoop的规模,我们将可以根据需要增大生产任务至更大的集群规模。

 

YahooWebmapHadoop开发,我们的团队感到非常的兴奋。因为尽管Hadoop还处在开发的初级阶段(甚至是未成熟阶段),Hadoop就已经可以以低成本的方式胜任真正互联网级别的项目。这个以及Yahoo!其他生产系统的开发,其他组织证明Hadoop正获得市场的青睐,其价值正在增加。

 

 

2006年以来,Yahoo!网格计算团队一直在很多研究和开发任务中使用和增强Hadoop。将Hadoop从一个两年前还在几十个计算机上运行,带领成为今天成千上万上计算机上运行的系统,我们感到非常的骄傲。Webmap证明了Hadoop解决真正互联网级别问题,令人信任地在一个大型生产规模运作的能力。可以说,Yahoo!每月产生的几十亿个Web搜索查询结果很大程度归功于Hadoop集群生产的数据。

 

Eric Baldeschwieler
Senior Director, Grid Computing
Yahoo! Inc.

50
7
评论 共 12 条 请登录后发表评论
12 楼 shuchaoo 2009-02-18 13:40
hadoop有那么强?
11 楼 weidewei 2009-02-18 09:20
强大
10 楼 raymond2006k 2009-02-17 14:15
lzy.je 写道

真想不明白,erlang在这方面的天生优势,居然拼不过java的后天技能。崩溃了。这可能就是语言、框架、平台的区别和力量吧。


map-reduce 特色更在于超大规模集群计算能力, 在于发挥架构的魔力。 erlang 强于多核计算,在于充分发挥cpu的能力
9 楼 monke82 2009-02-17 11:56
把小飞象搞强搞大!!!!
8 楼 quiii 2009-02-17 11:21
gongmingwind 写道

hadoop是什么意思?


小飞象
7 楼 woods 2009-02-17 11:20
Sky net 只是想到了这个...
6 楼 lzy.je 2009-02-17 11:11
真想不明白,erlang在这方面的天生优势,居然拼不过java的后天技能。崩溃了。

这可能就是语言、框架、平台的区别和力量吧。
5 楼 gongmingwind 2009-02-17 08:48
hadoop是什么意思?
4 楼 worldmaomao 2009-02-16 18:25
平民级的。
3 楼 gqf2008 2009-02-16 13:21
hadoop起初的设计目标是1000个节点,yahoo已经搞了1万的节点,真是太强了
2 楼 showtime520 2009-02-16 13:07
类似google?
1 楼 whaosoft 2009-02-16 12:28
yahoo还是那么有钱~!

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • windows找不到文件'hcw'

    vs2008编译出错:windows找不到文件'hcw',需下载hcw.exe并安装

  • hcw.exe相关文件

    提示hcw.exe 出错时 使用,将文件夹解压并添加路径到PATH

  • vs2008编译提示“系统找不到HCW.exe”的解决办法

    VC6项目迁移至vs2008出现“系统找不到HCW.exe”,

  • vc6.0项目到vc2013移植记录

    从vc6.0移植到vc2013的相关经验记录

  • vue+element-ui中实现多层级复杂的维度根据数据自动生成的表头

    表头主要复杂在:1,有三层,一层是大类,第二层是具体项,第三层是标准值/对比值2,首列和末尾列是一层3,整个表格的维度是根据数据的输入自己生成,也就是动态的下面是在 vue + eleUI 中的解决方案:<el-table :data="tableData" border style="width: 100%" max-height="700" v-loading="areaLoading"...

  • 基于若依springboot架构实现数据多维统计

    基于springboot架构实现数据多维统计,列表动态增减列,mybatis动态传入字段等内容

  • 解决vc6迁移到vs2010时出现的 “系统找不到文件 hcw” 错误

    找到hcw.exe,位于“...\Microsoft Visual Studio\Common\Tools”,然后将路径加入到环境变量中就OK了!!     错误信息:   1>  Making help include file... 1>  Making help file... 1>  系统找不到文件 hcw。 1>hlp\Simulation.hpj...

  • 用Htmlhelp Workshop制作符合Windows98规范的帮助文件

    Windows   98的帮助文件与Windows   95的比有较大的改变,它使用一种基于HTML文件特征的帮助文件,用Internet   Explorer显示帮助内容,支持HTML、ActiveX、Java、脚本(Java脚本和VB脚本)以及HTML图像格式(.JPEG、G

  • ^^^^^^^^WIN95帮助文件制作^^^^^^^^^^

    google_ad_client = "pub-2947489232296736";/* 728x15, 创建于 08-4-23MSDN */google_ad_slot = "3624277373";google_ad_width = 728;google_ad_height = 15;//<script type="text/javascript"

  • 如何制作和使用帮助文件

    如何制作和使用帮助文件  整理编辑:China ASP     带 有 帮 助 文 件 的 应 用 程 序 无 论 对 程 序 员 还 是 用 户 都 是 不 同 凡 响 的, 它 能 节 省 印 刷 大 量 用 户 手 册 的 开 支, 对 程 序 员 编 辑 修 改 和 用 户 手 册 的 复 制 保 存 都 极 为 方 便。 帮 助 文 件 的 另 一 个 很 有 前 景 的 应 用 是 单

  • 家庭支出与收入数据数据集,根据人口统计和地理指标进行了分类,加拿大为例,适用于数据分析、机器学习

    这个数据集提供了2010年至2021年间加拿大各省的家庭支出与收入数据,这些数据根据人口统计和地理指标进行了分类。每行代表了年份(REF_DATE)、省份(GEO)以及编码后的支出或收入类型的唯一组合(COORDINATE)。以下是该数据集的关键特点及包含的列信息: 关键特点: 支出数据:家庭支出按照收入五分位数和支出类别进行分类。 收入数据:家庭收入值根据家庭类型、较年长成年人的年龄组别和收入水平细分。 地理位置匿名化:为了保护隐私,原始的地理位置标识符被替换为如“Province 1”这样的标签。 时间序列:涵盖了超过十年的财务数据(2010–2021),适合用于纵向经济和社会趋势分析。 包含的列: REF_DATE:记录年份(2010–2021) GEO:省份标签(例如,“Province 1”) Statistic:度量类型(例如,平均家庭支出) Before-tax household income quintile:税前家庭收入水平分组 Household expenditures, summary-level categories:支出类别 UOM:计量单位 COORD

  • 【锂电池剩余寿命预测】GRU门控循环单元锂电池剩余寿命预测(Matlab完整源码和数据)

    1.【锂电池剩余寿命预测】GRU门控循环单元锂电池剩余寿命预测(Matlab完整源码和数据) 2.数据集:NASA数据集,已经处理好,B0005电池训练、测试; 3.环境准备:Matlab2023b,可读性强; 4.模型描述:GRU门控循环单元在各种各样的问题上表现非常出色,现在被广泛使用。 5.领域描述:近年来,随着锂离子电池的能量密度、功率密度逐渐提升,其安全性能与剩余使用寿命预测变得愈发重要。本代码实现了GRU门控循环单元在该领域的应用。 6.作者介绍:机器学习之心,博客专家认证,机器学习领域创作者,2023博客之星TOP50,主做机器学习和深度学习时序、回归、分类、聚类和降维等程序设计和案例分析,文章底部有博主联系方式。从事Matlab、Python算法仿真工作8年,更多仿真源码、数据集定制私信。

  • 【更新至2024年】2000-2024年各省专利侵权案件结案数数据

    2000-2024年各省专利侵权案件结案数数据 1、时间:2000-2024年 2、来源:国家知识产权J 3、指标:专利侵权案件结案数 4、范围:31省 5、用途:可用于衡量知识产权保护水平

  • HMTL+JS+CSS实现贪吃蛇游戏,包含有一般模式,困难模式,还有无敌模式

    - 使用`<div>` 容器组织游戏界面,包含得分显示、游戏画布和操作按钮 - 支持三种游戏模式选择(一般模式、困难模式、无敌模式) - 移动端和桌面端兼容,提供触摸和键盘两种控制方式 2. CSS样式 : - 采用Flex布局实现页面居中显示 - 使用Grid布局实现方向按钮的排列 - 定义了游戏容器的阴影、圆角等视觉效果 - 为按钮添加了hover效果和过渡动画 3. JavaScript逻辑 : - 使用Canvas API实现游戏渲染 - 实现了蛇的移动、食物生成、碰撞检测等核心游戏逻辑 - 支持三种游戏模式,不同模式对应不同的游戏速度和规则 - 使用localStorage保存最高分记录 - 实现随机颜色生成,使游戏更具趣味性 代码整体结构清晰,功能完整,具有良好的可扩展性和可维护性。

Global site tag (gtag.js) - Google Analytics