Google能够在6个小时排序1 PB数据

10顶
3踩

2008-11-24 11:40 by 副主编 QQbyte 评论(14) 有9991人浏览

Google 数据结构数据挖掘 Mapreduce

声明：ITeye资讯文章的版权属于ITeye网站所有，严禁任何网站转载本文，否则必将追究法律责任！

google日前宣布，他们能够在6小时2分钟操作4000台电脑排序1 PB的数据，1 PB ＝ 1,024 TB ！根据google的博客，从这个数据量的角度来看，1 PB相当于2008年5月份美国国会图书馆存档web数据的12倍，都是通过google MapReduce实例来处理巨大的数据，数据额在2008年一月差不多是每天 20 PB。强大的MapReduc 技术可能成为一个编程模型和一个处理/生成巨大数据的联合实现方式。

MapReduce 是google数据处理的核心技术，是Google开发的C++编程工具，用于大规模数据集（大于1TB）的并行运算，同时Yahoo，Facebook和LinkedIn也采用此项技术。但是这是一项有争议的技术，主要是和标准的数据仓储data warehousing的通用方式有明显冲突。目前两个data warehouse DBMS 厂商Greenplum 和 Aster Data，发布了集成MapReduce进入SQL数据库管理工具，MapReduce将极大促进高端数据分析技术的发展，尤其在三个方面的应用：1）文本字符解析，索引和搜索；2）创建其他类型的数据结构(比如graphs图)；3）数据挖掘和机器学习(数据转换也在这个列表中)。所有这些领域要获得更好的结果取决于性能，MapReduce提供了让主要数据处理速度大幅提高的可能性。

对MapReduce有兴趣，还可以查看：google发布的一个来自google技术圆桌会议讨论MapReduce的视频。

来自: slashdot.or

分享到：

10
顶

3
踩

评论共 14 条请登录后发表评论

14 楼 duanyong 2012-12-20 10:13

EXvision 写道

lazy 写道

单纯的计算，每台电脑只负责256GB数据排序，每小时43G，每分钟700M，每秒不到12M。

说的简单，你也写一个啊。囧死了。现在的娃子。

原来大数据就是这样子分下来的啊。那还做大数据研究啊？

请问哥们，数据之间的关系不考虑了？这才是最复杂的啊。要划分那些数据先处理的顺序，分析数据与数据关系的联系啊。

13 楼 wjch_111 2012-05-18 16:09

咱是码农，，，处理不了这么牛B的技术！！！安心写增删查改吧~~~

12 楼 jkfzero 2009-07-21 22:31

Yahoo用Hadoop打破这个记录了吧。不过同样是基于MapReduce。

11 楼 toeo 2008-11-28 20:05

....

lazy 写道

单纯的计算，每台电脑只负责256GB数据排序，每小时43G，每分钟700M，每秒不到12M。

...google会这么简单的运算么...??
总之Google就是牛..这个不可否认...在说..说不定人家还验算几遍呢.....
技术上面肯定是没的说.....大神...

10 楼 beiyangshuishi 2008-11-25 20:29

上帝呀这么大的数据量居然只用1个小时,值得深思

9 楼 elmar 2008-11-25 11:15

bookong 写道

比 PB 还大的是什么……NB吗？

1000m 10n Prefix Symbol Since[1] Short scale Long scale Decimal
10008 1024 yotta- Y 1991 Septillion Quadrillion 1 000 000 000 000 000 000 000 000
10007 1021 zetta- Z 1991 Sextillion Trilliard 1 000 000 000 000 000 000 000
10006 1018 exa- E 1975 Quintillion Trillion 1 000 000 000 000 000 000
10005 1015 peta- P 1975 Quadrillion Billiard 1 000 000 000 000 000
10004 1012 tera- T 1960 Trillion Billion 1 000 000 000 000
10003 109 giga- G 1960 Billion Milliard 1 000 000 000
10002 106 mega- M 1960 Million 1 000 000
10001 103 kilo- k 1795 Thousand 1 000
10002/3 102 hecto- h 1795 Hundred 100
10001/3 101 deca- da 1795 Ten 10
10000 100 (none) (none) NA One 1
1000−1/3 10−1 deci- d 1795 Tenth 0.1
1000−2/3 10−2 centi- c 1795 Hundredth 0.01
1000−1 10−3 milli- m 1795 Thousandth 0.001
1000−2 10−6 micro- µ 1960[2] Millionth 0.000 001
1000−3 10−9 nano- n 1960 Billionth Milliardth 0.000 000 001
1000−4 10−12 pico- p 1960 Trillionth Billionth 0.000 000 000 001
1000−5 10−15 femto- f 1964 Quadrillionth Billiardth 0.000 000 000 000 001
1000−6 10−18 atto- a 1964 Quintillionth Trillionth 0.000 000 000 000 000 001
1000−7 10−21 zepto- z 1991 Sextillionth Trilliardth 0.000 000 000 000 000 000 001
1000−8 10−24 yocto- y 1991 Septillionth Quadrillionth 0.000 000 000 000 000 000 000 001

8 楼 ray_linn 2008-11-25 11:08

strongkill 写道

lazy 写道
单纯的计算，每台电脑只负责256GB数据排序，每小时43G，每分钟700M，每秒不到12M。平均起来是每秒不到12M，但你不需要考虑这12M跟其它数据的关系吗？？单独处理。。。这样有意义吗？

web数据应该有其特殊性，这个和关系数据库差别很大。

7 楼 bookong 2008-11-25 09:51

比 PB 还大的是什么……NB吗？

6 楼 EXvision 2008-11-25 08:37

lazy 写道

单纯的计算，每台电脑只负责256GB数据排序，每小时43G，每分钟700M，每秒不到12M。

说的简单，你也写一个啊。囧死了。现在的娃子。

5 楼 rainsf 2008-11-24 23:42

这就是MapReduce,先切分数据交由不同的机器去处理，然后归约。博大精深，Hadoop就是Java版的MapReduce，值得研究。

4 楼 strongkill 2008-11-24 23:23

lazy 写道

单纯的计算，每台电脑只负责256GB数据排序，每小时43G，每分钟700M，每秒不到12M。

平均起来是每秒不到12M，但你不需要考虑这12M跟其它数据的关系吗？？单独处理。。。这样有意义吗？

3 楼 iceboundrock 2008-11-24 16:36

lazy 写道

单纯的计算，每台电脑只负责256GB数据排序，每小时43G，每分钟700M，每秒不到12M。

问题是你如何把1PB乱序数据切成大致有序的4000块

2 楼 lazy 2008-11-24 15:46

单纯的计算，每台电脑只负责256GB数据排序，每小时43G，每分钟700M，每秒不到12M。

1 楼 satan_smile 2008-11-24 15:09

有点高深的东西

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Spring 学习笔记

1、Spring介绍 5 1.1 Spring是什么 5 1.2 Spring官方网站 5 1.3 Spring能做什么 5 1.4 Spring的体系结构 5 2、IoC 6 2.1 IoC的概念 6 2.2简单的使用 6 2.3三种实例化Bean的方式 9 2.3.1 使用类构造器...

spring mvc 框架

注：原创作者具有文章的所有权利，转载注明 1 Spring MVC简介 1.1. Spring3MVC VS Struts2 l 官方的下载网址是：... ...l 我们用Struts2时采用的传统的配置文件的方式,并没有使用传说中的

【JavaEE】NoteSet

Spring是一个轻量级的IOC和AOP容器框架 ②. Spring是非侵入式的，基于Spring开发的应用一般不依赖于Spring的类 ③. Spring是个容器，包含并且管理应用对象的生命周期和配置。 ④. Spring提供对事务的管理 ⑤. ...

深入springmvc

1.springMVC控制器：非注解使用：继承自Controller和MultiActionController 单个Controller，实现...spring配置文件中配置：方式二包含了方式一中的两个bean 直接加 @Controller, @Reque

SpringMVC源码分析-DispatcherServlet

在整个 Spring MVC 框架中，DispatcherServlet 处于核心位置，它负责协调和组织不同组件完成请求处理并返回响应工作。在看 DispatcherServlet 类之前，我们先来看一下请求处理的大致流程： Tomcat 启动，对 ...

SSH笔记

书籍推荐：《开发者突击：Java Web主流框架整合开发》一、JSP与Servlet 1、基础语法 ... 1.5 include指令用于在JSP中包含一个静态文件，同时解析这个JSP文件中的JSP语句。文件名一般是相对路径

springmvc2 一个控制器写多个方法（非注解方式）

springmvc 一个控制器写多个方法（非注解方式） ...分类： spring 2014-04-17 02:50 318人阅读评论(0) 收藏举报 web.xml 的配置。其实web.xml 的配置和之前的没有什么区别主要是DispatcherServle...

Web MVC framework Web框架

13.1. 概述 Spring的web框架围绕DispatcherServlet设计。 DispatcherServlet的作用是将请求分发到不同的处理器。 Spring的web框架包括可配置的处理器...Spring的Web框架中缺省的处理器是Controller 接口，这是一个

java 面试总结（框架）

(1)Spring MVC是Spring提供的一个强大而灵活的模块式web框架。通过Dispatcher Servlet, ModelAndView 和 View Resolver，开发web应用变得很容易。 (2)SpringMVC是一种基于Java的以请求为驱动类型的轻量级Web框架...

TimerFactoryBean来建立tasks

Spring的web框架是围绕分发器（DispatcherServlet）设计的，DispatcherServlet将请求分发到不同的处理器，框架还包括可配置的处理器映射，视图解析，本地化，主题解析，还支持文件上传。缺省的处理器是一个简单的...

2019年JAVA开发工程师面试题系列一

1、spring是如何创建bean的？在IoC容器中，bean的获取主要通过BeanFactory和ApplicationContext获取，这里ApplicationContext实际上是继承自BeanFactory的，两者的区别在于BeanFactory对bean的初始化主要是延迟...

operamasks-ui和struts2、springMVC框架整合实践

org.springframework.aop-3.0.5.RELEASE.jar ：与 Aop 编程相关的包 org.springframework.beans-3.0.5.RELEASE.jar ：提供了简捷操作 bean 的接口 org.springframework.context-3.0.5.RELEASE.jar ：构建在 ...

移动开发_Android_基础框架_SAFApi组件开发_1742847786.zip

《基于YOLOv8的气功动作识别系统》（包含源码、完整数据集、可视化界面、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip

资源内项目源码是来自个人的毕业设计，代码都测试ok，包含源码、数据集、可视化页面和部署说明，可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源，毕设答辩评审绝对信服的保底85分以上，放心下载使用，拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务，拿来就能用的绝对好资源！！！项目备注 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习，也适合小白学习进阶，当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行，也可在此代码基础上进行修改，以实现其他功能，也可用于毕设、课设、作业等。下载后请首先打开README.txt文件，仅供学习参考, 切勿用于商业用途。

FourOnes_jquerybootstraptenine_1742855636.zip

app开发

MobaXterm安装包

30页-清华科技园智慧园区方案.pdf

智慧园区，作为智慧城市的重要组成部分，正借助5G、云计算、大数据等前沿技术，实现园区的全面智慧化升级。它不仅仅是技术的堆砌，更是园区管理模式和服务理念的革新。智慧园区通过构建统一的大数据平台，实现园区内各类数据的整合与共享，让管理者能够全局掌握园区运营状态，实现人、事、物的穿透式管理。在5G技术的加持下，智慧园区的特色应用得以更加广泛和深入地开展。从便捷通行到智慧物联，从楼宇自控到企业服务，5G智慧园区为园区内的企业和员工提供了前所未有的便捷与高效。刷脸通行、车牌识别、访客线上预约等技术的应用，不仅提升了园区的安全等级，更让通行变得简单快捷。而智慧垃圾桶、路灯等物联网设备的引入，则让园区的环境管理更加智能化、精细化。此外，5G智慧园区还通过无人机巡检、无人驾驶等创新应用，为园区的安全管理、物资配送等方面带来了全新的解决方案。值得一提的是，智慧园区的建设并不仅仅局限于硬件设施的升级，更在于服务模式的创新。通过园区APP、在线服务平台等渠道，智慧园区实现了园区服务的线上化、便捷化，让企业和员工能够随时随地享受到园区提供的各类服务。这种以人为本的服务理念，不仅提升了园区的整体服务水平，更增强了园区的吸引力和竞争力。总之，5G智慧园区的建设为园区的可持续发展注入了新的活力，也为未来城市的发展提供了有益的借鉴和启示。

C基础day9 思维导图

Simulink仿真实现物体终端速度与信号处理的MATLAB代码解析（复现论文或解决问题，含详细可运行代码及解释）

内容概要：本文档详细介绍了使用Simulink进行两个物理问题的仿真建模。第一个任务是模拟一个球体从高空落下的终端速度，通过建立重力与空气阻力的平衡模型，利用MATLAB代码构建Simulink模型，最终计算出终端速度。第二个任务是基于提供的加速度数据，通过两次积分计算物体的速度和位置，同样使用MATLAB代码实现了Simulink模型。每个任务都包含了详细的数学公式推导、参数设置以及Simulink模块的具体连接方法。仿真结果显示，终端速度约为53.6 m/s，而1秒后的速度和位置则取决于输入的加速度数据。适合人群：对Simulink仿真工具感兴趣的工程技术人员、科研工作者以及相关专业的学生。使用场景及目标：适用于需要进行物理系统仿真、信号处理的研究项目或教学实验。主要目标是帮助读者掌握Simulink的基本操作和应用技巧，同时加深对物理现象的理解。其他说明：文中提供了完整的MATLAB代码，方便读者直接复制并在自己的环境中运行测试。此外，还给出了详细的中文注释，有助于初学者更好地理解各个步骤的功能和意义。

《基于YOLOv8的隧道安全监测系统》（包含源码、完整数据集、可视化界面、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip

10顶3踩