阅读更多

10顶
3踩

数据库
google日前宣布,他们能够在6小时2分钟操作4000台电脑排序1 PB的数据,1 PB = 1,024 TB ! 根据google的博客,从这个数据量的角度来看,1 PB相当于2008年5月份美国国会图书馆存档web数据的12倍,都是通过google MapReduce实例来处理巨大的数据,数据额在2008年一月差不多是每天 20 PB。强大的MapReduc 技术可能成为一个编程模型 和 一个处理/生成巨大数据的联合实现方式。

MapReduce 是google数据处理的核心技术,是Google开发的C++编程工具,用于大规模数据集(大于1TB)的并行运算, 同时Yahoo,Facebook和LinkedIn也采用此项技术。但是这是一项有争议的技术,主要是和标准的数据仓储data warehousing的通用方式有明显冲突。目前两个data warehouse DBMS 厂商Greenplum 和 Aster Data,发布了集成MapReduce进入SQL数据库管理工具,MapReduce将极大促进高端数据分析技术的发展,尤其在三个方面的应用:1)文本字符解析,索引和搜索;2)创建其他类型的数据结构(比如graphs图);3)数据挖掘和机器学习(数据转换也在这个列表中)。所有这些领域要获得更好的结果取决于性能,MapReduce提供了让主要数据处理速度大幅提高的可能性。

对MapReduce有兴趣,还可以查看:google发布的一个来自google技术圆桌会议讨论MapReduce的视频
来自: slashdot.or
10
3
评论 共 14 条 请登录后发表评论
14 楼 duanyong 2012-12-20 10:13
EXvision 写道
lazy 写道

单纯的计算,每台电脑只负责256GB数据排序,每小时43G,每分钟700M,每秒不到12M。

说的简单,你也写一个啊。囧死了。现在的娃子。


原来大数据就是这样子分下来的啊。那还做大数据研究啊?

请问哥们,数据之间的关系不考虑了?这才是最复杂的啊。要划分那些数据先处理的顺序,分析数据与数据关系的联系啊。
13 楼 wjch_111 2012-05-18 16:09
咱是码农,,,处理不了这么牛B的技术!!!安心写增删查改吧~~~
12 楼 jkfzero 2009-07-21 22:31
Yahoo用Hadoop打破这个记录了吧。不过同样是基于MapReduce。
11 楼 toeo 2008-11-28 20:05
....
lazy 写道

单纯的计算,每台电脑只负责256GB数据排序,每小时43G,每分钟700M,每秒不到12M。

...google会这么简单的运算么...??
总之Google就是牛..这个不可否认...在说..说不定人家还验算几遍呢.....
技术上面肯定是没的说.....大神...
10 楼 beiyangshuishi 2008-11-25 20:29
上帝呀这么大的数据量居然只用1个小时,值得深思
9 楼 elmar 2008-11-25 11:15
bookong 写道

比 PB 还大的是什么……NB吗?

1000m 10n Prefix Symbol Since[1] Short scale Long scale Decimal
10008 1024 yotta- Y 1991 Septillion Quadrillion 1 000 000 000 000 000 000 000 000
10007 1021 zetta- Z 1991 Sextillion Trilliard 1 000 000 000 000 000 000 000
10006 1018 exa- E 1975 Quintillion Trillion 1 000 000 000 000 000 000
10005 1015 peta- P 1975 Quadrillion Billiard 1 000 000 000 000 000
10004 1012 tera- T 1960 Trillion Billion 1 000 000 000 000
10003 109 giga- G 1960 Billion Milliard 1 000 000 000
10002 106 mega- M 1960 Million 1 000 000
10001 103 kilo- k 1795 Thousand 1 000
10002/3 102 hecto- h 1795 Hundred 100
10001/3 101 deca- da 1795 Ten 10
10000 100 (none) (none) NA One 1
1000−1/3 10−1 deci- d 1795 Tenth 0.1
1000−2/3 10−2 centi- c 1795 Hundredth 0.01
1000−1 10−3 milli- m 1795 Thousandth 0.001
1000−2 10−6 micro- µ 1960[2] Millionth 0.000 001
1000−3 10−9 nano- n 1960 Billionth Milliardth 0.000 000 001
1000−4 10−12 pico- p 1960 Trillionth Billionth 0.000 000 000 001
1000−5 10−15 femto- f 1964 Quadrillionth Billiardth 0.000 000 000 000 001
1000−6 10−18 atto- a 1964 Quintillionth Trillionth 0.000 000 000 000 000 001
1000−7 10−21 zepto- z 1991 Sextillionth Trilliardth 0.000 000 000 000 000 000 001
1000−8 10−24 yocto- y 1991 Septillionth Quadrillionth 0.000 000 000 000 000 000 000 001
8 楼 ray_linn 2008-11-25 11:08
strongkill 写道

lazy 写道
单纯的计算,每台电脑只负责256GB数据排序,每小时43G,每分钟700M,每秒不到12M。平均起来是每秒不到12M,但你不需要考虑这12M跟其它数据的关系吗??单独处理。。。这样有意义吗?



web数据应该有其特殊性,这个和关系数据库差别很大。
7 楼 bookong 2008-11-25 09:51
比 PB 还大的是什么……NB吗?
6 楼 EXvision 2008-11-25 08:37
lazy 写道

单纯的计算,每台电脑只负责256GB数据排序,每小时43G,每分钟700M,每秒不到12M。

说的简单,你也写一个啊。囧死了。现在的娃子。
5 楼 rainsf 2008-11-24 23:42
这就是MapReduce,先切分数据交由不同的机器去处理,然后归约。博大精深,Hadoop就是Java版的MapReduce,值得研究。
4 楼 strongkill 2008-11-24 23:23
lazy 写道

单纯的计算,每台电脑只负责256GB数据排序,每小时43G,每分钟700M,每秒不到12M。


平均起来是每秒不到12M,但你不需要考虑这12M跟其它数据的关系吗??单独处理。。。这样有意义吗?
3 楼 iceboundrock 2008-11-24 16:36
lazy 写道

单纯的计算,每台电脑只负责256GB数据排序,每小时43G,每分钟700M,每秒不到12M。

问题是你如何把1PB乱序数据切成大致有序的4000块
2 楼 lazy 2008-11-24 15:46
单纯的计算,每台电脑只负责256GB数据排序,每小时43G,每分钟700M,每秒不到12M。
1 楼 satan_smile 2008-11-24 15:09
有点高深的东西

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Global site tag (gtag.js) - Google Analytics