阅读更多

50顶
7踩

编程语言

原创新闻 Yahoo! 启动了世界上最大的Hadoop生产应用[译]

2009-02-16 09:44 by 见习记者 ginge 评论(12) 有13527人浏览

原文:http://developer.yahoo.net/blogs/hadoop/2008/02/yahoo-worlds-largest-production-hadoop.html

 

 

最近,Yahoo! 启动了目前世界上最大的Apache Hadoop生产应用。Yahoo! Search WebmapHadoop应用,运行在超过10000Linux系统的集群里。Yahoo! 的网页搜索查询使用的数据正是由它生产的。

 

Webmap的构建从Yahoo! 对网页的爬行开始,之后产出包含一个所有已知网页和互联网站点的数据库,还生成一个关于所有页面和站点的海量数据组。这些数据再输送给位于Yahoo! Search中心懂得排行算法的计算机。

 

一些Webmap数字:

l  索引中页面间的链接数量:大概1T 个链接

l  数据产出量的大小:超过300T,还是经过压缩的!

l  运行一个Map-Reduce任务的核心数量:超过10000

l  生产环境中使用的存储量:超过5P

 

这个流程并不新鲜,新鲜的是Hadoop的使用。Hadoop让我们系统只用前Hadoop时代66%的时间运行同一个流程。它在做管理的同时处理了上述的流程。我们更加相信随着我们加大Hadoop的规模,我们将可以根据需要增大生产任务至更大的集群规模。

 

YahooWebmapHadoop开发,我们的团队感到非常的兴奋。因为尽管Hadoop还处在开发的初级阶段(甚至是未成熟阶段),Hadoop就已经可以以低成本的方式胜任真正互联网级别的项目。这个以及Yahoo!其他生产系统的开发,其他组织证明Hadoop正获得市场的青睐,其价值正在增加。

 

 

2006年以来,Yahoo!网格计算团队一直在很多研究和开发任务中使用和增强Hadoop。将Hadoop从一个两年前还在几十个计算机上运行,带领成为今天成千上万上计算机上运行的系统,我们感到非常的骄傲。Webmap证明了Hadoop解决真正互联网级别问题,令人信任地在一个大型生产规模运作的能力。可以说,Yahoo!每月产生的几十亿个Web搜索查询结果很大程度归功于Hadoop集群生产的数据。

 

Eric Baldeschwieler
Senior Director, Grid Computing
Yahoo! Inc.

50
7
评论 共 12 条 请登录后发表评论
12 楼 shuchaoo 2009-02-18 13:40
hadoop有那么强?
11 楼 weidewei 2009-02-18 09:20
强大
10 楼 raymond2006k 2009-02-17 14:15
lzy.je 写道

真想不明白,erlang在这方面的天生优势,居然拼不过java的后天技能。崩溃了。这可能就是语言、框架、平台的区别和力量吧。


map-reduce 特色更在于超大规模集群计算能力, 在于发挥架构的魔力。 erlang 强于多核计算,在于充分发挥cpu的能力
9 楼 monke82 2009-02-17 11:56
把小飞象搞强搞大!!!!
8 楼 quiii 2009-02-17 11:21
gongmingwind 写道

hadoop是什么意思?


小飞象
7 楼 woods 2009-02-17 11:20
Sky net 只是想到了这个...
6 楼 lzy.je 2009-02-17 11:11
真想不明白,erlang在这方面的天生优势,居然拼不过java的后天技能。崩溃了。

这可能就是语言、框架、平台的区别和力量吧。
5 楼 gongmingwind 2009-02-17 08:48
hadoop是什么意思?
4 楼 worldmaomao 2009-02-16 18:25
平民级的。
3 楼 gqf2008 2009-02-16 13:21
hadoop起初的设计目标是1000个节点,yahoo已经搞了1万的节点,真是太强了
2 楼 showtime520 2009-02-16 13:07
类似google?
1 楼 whaosoft 2009-02-16 12:28
yahoo还是那么有钱~!

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • hcw.exe相关文件

    提示hcw.exe 出错时 使用,将文件夹解压并添加路径到PATH

  • windows找不到文件'hcw'

    解决方法: 1. 下载并安装hcw.exe http://download.csdn.net/detail/cgf_909/6205293 允许它安装到 C:\Program Files\Help Workshop\. 2. 控制面板 -> 系统 -> 高级 -> 环境变量 在系统变量里,找到Path, 在变量值后加上; C:\Program Files\Help Wor

  • vs2008编译提示“系统找不到HCW.exe”的解决办法

    VC6项目迁移至vs2008出现“系统找不到HCW.exe”,

  • vc6.0项目到vc2013移植记录

    从vc6.0移植到vc2013的相关经验记录

  • vue+element-ui中实现多层级复杂的维度根据数据自动生成的表头

    表头主要复杂在:1,有三层,一层是大类,第二层是具体项,第三层是标准值/对比值2,首列和末尾列是一层3,整个表格的维度是根据数据的输入自己生成,也就是动态的下面是在 vue + eleUI 中的解决方案:<el-table :data="tableData" border style="width: 100%" max-height="700" v-loading="areaLoading"...

  • 基于若依springboot架构实现数据多维统计

    基于springboot架构实现数据多维统计,列表动态增减列,mybatis动态传入字段等内容

  • 解决vc6迁移到vs2010时出现的 “系统找不到文件 hcw” 错误

    找到hcw.exe,位于“...\Microsoft Visual Studio\Common\Tools”,然后将路径加入到环境变量中就OK了!!     错误信息:   1>  Making help include file... 1>  Making help file... 1>  系统找不到文件 hcw。 1>hlp\Simulation.hpj...

  • 用Htmlhelp Workshop制作符合Windows98规范的帮助文件

    Windows   98的帮助文件与Windows   95的比有较大的改变,它使用一种基于HTML文件特征的帮助文件,用Internet   Explorer显示帮助内容,支持HTML、ActiveX、Java、脚本(Java脚本和VB脚本)以及HTML图像格式(.JPEG、G

  • ^^^^^^^^WIN95帮助文件制作^^^^^^^^^^

    google_ad_client = "pub-2947489232296736";/* 728x15, 创建于 08-4-23MSDN */google_ad_slot = "3624277373";google_ad_width = 728;google_ad_height = 15;//<script type="text/javascript"

  • 如何制作和使用帮助文件

    如何制作和使用帮助文件  整理编辑:China ASP     带 有 帮 助 文 件 的 应 用 程 序 无 论 对 程 序 员 还 是 用 户 都 是 不 同 凡 响 的, 它 能 节 省 印 刷 大 量 用 户 手 册 的 开 支, 对 程 序 员 编 辑 修 改 和 用 户 手 册 的 复 制 保 存 都 极 为 方 便。 帮 助 文 件 的 另 一 个 很 有 前 景 的 应 用 是 单

  • nginx-1.24.0.tar

    Nginx 1.24.0 是 Nginx 开源项目发布的一个重要更新版本,该版本在性能优化、功能增强以及安全性提升方面带来了诸多改进。当您下载 Nginx 1.24.0 的压缩包时,您将获得一个包含 Nginx 源代码的压缩文件,通常命名为 nginx-1.24.0.tar.gz(对于 GNU/Linux 和 macOS 系统)或类似的格式,具体取决于发布平台。 这个压缩包包含了编译 Nginx 服务器所需的所有源代码文件、配置文件模板(如 nginx.conf)、模块源码以及构建和安装说明。通过解压这个压缩包,您可以在支持 C 语言编译器的操作系统上编译并安装 Nginx 1.24.0。 Nginx 1.24.0 引入了一系列新特性和优化,可能包括但不限于对 HTTP/2 和 HTTP/3 协议的进一步支持、性能提升、新的模块或模块更新,以及对已知安全漏洞的修复。这使得 Nginx 能够在保持其作为高性能 HTTP 和反向代理服务器的声誉的同时,继续满足不断发展的网络需求。

  • 智能化病虫害标注系统前端.zip

    图像识别技术在病虫害检测中的应用是一个快速发展的领域,它结合了计算机视觉和机器学习算法来自动识别和分类植物上的病虫害。以下是这一技术的一些关键步骤和组成部分: 1. **数据收集**:首先需要收集大量的植物图像数据,这些数据包括健康植物的图像以及受不同病虫害影响的植物图像。 2. **图像预处理**:对收集到的图像进行处理,以提高后续分析的准确性。这可能包括调整亮度、对比度、去噪、裁剪、缩放等。 3. **特征提取**:从图像中提取有助于识别病虫害的特征。这些特征可能包括颜色、纹理、形状、边缘等。 4. **模型训练**:使用机器学习算法(如支持向量机、随机森林、卷积神经网络等)来训练模型。训练过程中,算法会学习如何根据提取的特征来识别不同的病虫害。 5. **模型验证和测试**:在独立的测试集上验证模型的性能,以确保其准确性和泛化能力。 6. **部署和应用**:将训练好的模型部署到实际的病虫害检测系统中,可以是移动应用、网页服务或集成到智能农业设备中。 7. **实时监测**:在实际应用中,系统可以实时接收植物图像,并快速给出病虫害的检测结果。 8. **持续学习**:随着时间的推移,系统可以不断学习新的病虫害样本,以提高其识别能力。 9. **用户界面**:为了方便用户使用,通常会有一个用户友好的界面,显示检测结果,并提供进一步的指导或建议。 这项技术的优势在于它可以快速、准确地识别出病虫害,甚至在早期阶段就能发现问题,从而及时采取措施。此外,它还可以减少对化学农药的依赖,支持可持续农业发展。随着技术的不断进步,图像识别在病虫害检测中的应用将越来越广泛。

  • Python 小游戏 (贪吃蛇、五子棋、扫雷、俄罗斯方块)

    python

  • MATLAB/simulink 电力系统之变压器仿真-变压器空载运行仿真,磁通饱和+励磁电流

    MATLAB/simulink 电力系统之变压器仿真- 变压器空载运行仿真,磁通饱和+励磁电流

Global site tag (gtag.js) - Google Analytics