阅读更多

10顶
3踩

数据库
google日前宣布,他们能够在6小时2分钟操作4000台电脑排序1 PB的数据,1 PB = 1,024 TB ! 根据google的博客,从这个数据量的角度来看,1 PB相当于2008年5月份美国国会图书馆存档web数据的12倍,都是通过google MapReduce实例来处理巨大的数据,数据额在2008年一月差不多是每天 20 PB。强大的MapReduc 技术可能成为一个编程模型 和 一个处理/生成巨大数据的联合实现方式。

MapReduce 是google数据处理的核心技术,是Google开发的C++编程工具,用于大规模数据集(大于1TB)的并行运算, 同时Yahoo,Facebook和LinkedIn也采用此项技术。但是这是一项有争议的技术,主要是和标准的数据仓储data warehousing的通用方式有明显冲突。目前两个data warehouse DBMS 厂商Greenplum 和 Aster Data,发布了集成MapReduce进入SQL数据库管理工具,MapReduce将极大促进高端数据分析技术的发展,尤其在三个方面的应用:1)文本字符解析,索引和搜索;2)创建其他类型的数据结构(比如graphs图);3)数据挖掘和机器学习(数据转换也在这个列表中)。所有这些领域要获得更好的结果取决于性能,MapReduce提供了让主要数据处理速度大幅提高的可能性。

对MapReduce有兴趣,还可以查看:google发布的一个来自google技术圆桌会议讨论MapReduce的视频
来自: slashdot.or
10
3
评论 共 14 条 请登录后发表评论
14 楼 duanyong 2012-12-20 10:13
EXvision 写道
lazy 写道

单纯的计算,每台电脑只负责256GB数据排序,每小时43G,每分钟700M,每秒不到12M。

说的简单,你也写一个啊。囧死了。现在的娃子。


原来大数据就是这样子分下来的啊。那还做大数据研究啊?

请问哥们,数据之间的关系不考虑了?这才是最复杂的啊。要划分那些数据先处理的顺序,分析数据与数据关系的联系啊。
13 楼 wjch_111 2012-05-18 16:09
咱是码农,,,处理不了这么牛B的技术!!!安心写增删查改吧~~~
12 楼 jkfzero 2009-07-21 22:31
Yahoo用Hadoop打破这个记录了吧。不过同样是基于MapReduce。
11 楼 toeo 2008-11-28 20:05
....
lazy 写道

单纯的计算,每台电脑只负责256GB数据排序,每小时43G,每分钟700M,每秒不到12M。

...google会这么简单的运算么...??
总之Google就是牛..这个不可否认...在说..说不定人家还验算几遍呢.....
技术上面肯定是没的说.....大神...
10 楼 beiyangshuishi 2008-11-25 20:29
上帝呀这么大的数据量居然只用1个小时,值得深思
9 楼 elmar 2008-11-25 11:15
bookong 写道

比 PB 还大的是什么……NB吗?

1000m 10n Prefix Symbol Since[1] Short scale Long scale Decimal
10008 1024 yotta- Y 1991 Septillion Quadrillion 1 000 000 000 000 000 000 000 000
10007 1021 zetta- Z 1991 Sextillion Trilliard 1 000 000 000 000 000 000 000
10006 1018 exa- E 1975 Quintillion Trillion 1 000 000 000 000 000 000
10005 1015 peta- P 1975 Quadrillion Billiard 1 000 000 000 000 000
10004 1012 tera- T 1960 Trillion Billion 1 000 000 000 000
10003 109 giga- G 1960 Billion Milliard 1 000 000 000
10002 106 mega- M 1960 Million 1 000 000
10001 103 kilo- k 1795 Thousand 1 000
10002/3 102 hecto- h 1795 Hundred 100
10001/3 101 deca- da 1795 Ten 10
10000 100 (none) (none) NA One 1
1000−1/3 10−1 deci- d 1795 Tenth 0.1
1000−2/3 10−2 centi- c 1795 Hundredth 0.01
1000−1 10−3 milli- m 1795 Thousandth 0.001
1000−2 10−6 micro- µ 1960[2] Millionth 0.000 001
1000−3 10−9 nano- n 1960 Billionth Milliardth 0.000 000 001
1000−4 10−12 pico- p 1960 Trillionth Billionth 0.000 000 000 001
1000−5 10−15 femto- f 1964 Quadrillionth Billiardth 0.000 000 000 000 001
1000−6 10−18 atto- a 1964 Quintillionth Trillionth 0.000 000 000 000 000 001
1000−7 10−21 zepto- z 1991 Sextillionth Trilliardth 0.000 000 000 000 000 000 001
1000−8 10−24 yocto- y 1991 Septillionth Quadrillionth 0.000 000 000 000 000 000 000 001
8 楼 ray_linn 2008-11-25 11:08
strongkill 写道

lazy 写道
单纯的计算,每台电脑只负责256GB数据排序,每小时43G,每分钟700M,每秒不到12M。平均起来是每秒不到12M,但你不需要考虑这12M跟其它数据的关系吗??单独处理。。。这样有意义吗?



web数据应该有其特殊性,这个和关系数据库差别很大。
7 楼 bookong 2008-11-25 09:51
比 PB 还大的是什么……NB吗?
6 楼 EXvision 2008-11-25 08:37
lazy 写道

单纯的计算,每台电脑只负责256GB数据排序,每小时43G,每分钟700M,每秒不到12M。

说的简单,你也写一个啊。囧死了。现在的娃子。
5 楼 rainsf 2008-11-24 23:42
这就是MapReduce,先切分数据交由不同的机器去处理,然后归约。博大精深,Hadoop就是Java版的MapReduce,值得研究。
4 楼 strongkill 2008-11-24 23:23
lazy 写道

单纯的计算,每台电脑只负责256GB数据排序,每小时43G,每分钟700M,每秒不到12M。


平均起来是每秒不到12M,但你不需要考虑这12M跟其它数据的关系吗??单独处理。。。这样有意义吗?
3 楼 iceboundrock 2008-11-24 16:36
lazy 写道

单纯的计算,每台电脑只负责256GB数据排序,每小时43G,每分钟700M,每秒不到12M。

问题是你如何把1PB乱序数据切成大致有序的4000块
2 楼 lazy 2008-11-24 15:46
单纯的计算,每台电脑只负责256GB数据排序,每小时43G,每分钟700M,每秒不到12M。
1 楼 satan_smile 2008-11-24 15:09
有点高深的东西

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • Spring 学习笔记

    1、Spring介绍 5 1.1 Spring是什么 5 1.2 Spring官方网站 5 1.3 Spring能做什么 5 1.4 Spring的体系结构 5 2、IoC 6 2.1 IoC的概念 6 2.2简单的使用 6 2.3三种实例化Bean的方式 9 2.3.1 使用类构造器...

  • spring mvc 框架

    注:原创作者具有文章的所有权利,转载注明   1 Spring MVC简介 1.1. Spring3MVC VS Struts2 l 官方的下载网址是:... ...l 我们用Struts2时采用的传统的配置文件的方式,并没有使用传说中的

  • 【JavaEE】NoteSet

    Spring是一个轻量级的IOC和AOP容器框架 ②. Spring是非侵入式的,基于Spring开发的应用一般不依赖于Spring的类 ③. Spring是个容器,包含并且管理应用对象的生命周期和配置。 ④. Spring提供对事务的管理 ⑤. ...

  • 深入springmvc

    1.springMVC控制器: 非注解使用: 继承自Controller和MultiActionController 单个Controller,实现...spring配置文件中配置: 方式二包含了方式一中的两个bean 直接加 @Controller, @Reque

  • SpringMVC源码分析-DispatcherServlet

    在整个 Spring MVC 框架中,DispatcherServlet 处于核心位置,它负责协调和组织不同组件完成请求处理并返回响应工作。在看 DispatcherServlet 类之前,我们先来看一下请求处理的大致流程: Tomcat 启动,对 ...

  • SSH笔记

    书籍推荐:《开发者突击:Java Web主流框架整合开发》 一、JSP与Servlet 1、 基础语法 ... 1.5 include指令用于在JSP中包含一个静态文件,同时解析这个JSP文件中的JSP语句。 文件名一般是相对路径  

  • springmvc2 一个控制器写多个方法(非注解方式)

    springmvc 一个控制器写多个方法(非注解方式) ...分类: spring 2014-04-17 02:50 318人阅读 评论(0) 收藏 举报 web.xml 的配置。 其实web.xml 的配置和之前的没有什么区别 主要是DispatcherServle...

  • Web MVC framework Web框架

    13.1. 概述 Spring的web框架围绕DispatcherServlet设计。 DispatcherServlet的作用是将请求分发到不同的处理器。 Spring的web框架包括可配置的处理器...Spring的Web框架中缺省的处理器是Controller 接口,这是一个

  • java 面试总结(框架)

     (1)Spring MVC是Spring提供的一个强大而灵活的模块式web框架。通过Dispatcher Servlet, ModelAndView 和 View Resolver,开发web应用变得很容易。  (2)SpringMVC是一种基于Java的以请求为驱动类型的轻量级Web框架...

  • TimerFactoryBean来建立tasks

    Spring的web框架是围绕分发器(DispatcherServlet)设计的,DispatcherServlet将请求分发到不同的处理器,框架还包括可配置的处理器映射,视图解析,本地化,主题解析,还支持文件上传。缺省的处理器是一个简单的...

  • 2019年JAVA开发工程师面试题系列一

    1、spring是如何创建bean的? 在IoC容器中,bean的获取主要通过BeanFactory和ApplicationContext获取,这里ApplicationContext实际上是继承自BeanFactory的,两者的区别在于BeanFactory对bean的初始化主要是延迟...

  • operamasks-ui和struts2、springMVC框架整合实践

    org.springframework.aop-3.0.5.RELEASE.jar :与 Aop 编程相关的包 org.springframework.beans-3.0.5.RELEASE.jar :提供了简捷操作 bean 的接口 org.springframework.context-3.0.5.RELEASE.jar :构建在 ...

  • 基于微信小程序的在线办公小程序答辩PPT.pptx

    基于微信小程序的在线办公小程序答辩PPT.pptx

  • 机器学习(预测模型):2000年至2015年期间193个国家的预期寿命和相关健康因素的数据

    这个数据集来自世界卫生组织(WHO),包含了2000年至2015年期间193个国家的预期寿命和相关健康因素的数据。它提供了一个全面的视角,用于分析影响全球人口预期寿命的多种因素。数据集涵盖了从婴儿死亡率、GDP、BMI到免疫接种覆盖率等多个维度,为研究者提供了丰富的信息来探索和预测预期寿命。 该数据集的特点在于其跨国家的比较性,使得研究者能够识别出不同国家之间预期寿命的差异,并分析这些差异背后的原因。数据集包含22个特征列和2938行数据,涉及的变量被分为几个大类:免疫相关因素、死亡因素、经济因素和社会因素。这些数据不仅有助于了解全球健康趋势,还可以辅助制定公共卫生政策和社会福利计划。 数据集的处理包括对缺失值的处理、数据类型转换以及去重等步骤,以确保数据的准确性和可靠性。研究者可以使用这个数据集来探索如教育、健康习惯、生活方式等因素如何影响人们的寿命,以及不同国家的经济发展水平如何与预期寿命相关联。此外,数据集还可以用于预测模型的构建,通过回归分析等统计方法来预测预期寿命。 总的来说,这个数据集是研究全球健康和预期寿命变化的宝贵资源,它不仅提供了历史数据,还为未来的研究和政策制

  • 基于微信小程序的“健康早知道”微信小程序答辩PPT.pptx

    基于微信小程序的“健康早知道”微信小程序答辩PPT.pptx

  • 基于微信小程序的电影交流平台答辩PPT.pptx

    基于微信小程序的电影交流平台答辩PPT.pptx

  • 计算机字符编码GB18030.PDF

    计算机字符编码GB18030

  • Hive 操作基础(进阶版)多级分区数据文件2

    Hive 操作基础(进阶版)多级分区数据文件2

  • 基于java的贫困生管理系统答辩PPT.pptx

    基于java的贫困生管理系统答辩PPT.pptx

  • pandas-2.1.4-cp312-cp312-win_amd64.zip

    pandas whl安装包,对应各个python版本和系统(具体看资源名字),找准自己对应的下载即可! 下载后解压出来是已.whl为后缀的安装包,进入终端,直接pip install pandas-xxx.whl即可,非常方便。 再也不用担心pip联网下载网络超时,各种安装不成功的问题。

Global site tag (gtag.js) - Google Analytics