阅读更多

10顶
3踩

数据库
google日前宣布,他们能够在6小时2分钟操作4000台电脑排序1 PB的数据,1 PB = 1,024 TB ! 根据google的博客,从这个数据量的角度来看,1 PB相当于2008年5月份美国国会图书馆存档web数据的12倍,都是通过google MapReduce实例来处理巨大的数据,数据额在2008年一月差不多是每天 20 PB。强大的MapReduc 技术可能成为一个编程模型 和 一个处理/生成巨大数据的联合实现方式。

MapReduce 是google数据处理的核心技术,是Google开发的C++编程工具,用于大规模数据集(大于1TB)的并行运算, 同时Yahoo,Facebook和LinkedIn也采用此项技术。但是这是一项有争议的技术,主要是和标准的数据仓储data warehousing的通用方式有明显冲突。目前两个data warehouse DBMS 厂商Greenplum 和 Aster Data,发布了集成MapReduce进入SQL数据库管理工具,MapReduce将极大促进高端数据分析技术的发展,尤其在三个方面的应用:1)文本字符解析,索引和搜索;2)创建其他类型的数据结构(比如graphs图);3)数据挖掘和机器学习(数据转换也在这个列表中)。所有这些领域要获得更好的结果取决于性能,MapReduce提供了让主要数据处理速度大幅提高的可能性。

对MapReduce有兴趣,还可以查看:google发布的一个来自google技术圆桌会议讨论MapReduce的视频
来自: slashdot.or
10
3
评论 共 14 条 请登录后发表评论
14 楼 duanyong 2012-12-20 10:13
EXvision 写道
lazy 写道

单纯的计算,每台电脑只负责256GB数据排序,每小时43G,每分钟700M,每秒不到12M。

说的简单,你也写一个啊。囧死了。现在的娃子。


原来大数据就是这样子分下来的啊。那还做大数据研究啊?

请问哥们,数据之间的关系不考虑了?这才是最复杂的啊。要划分那些数据先处理的顺序,分析数据与数据关系的联系啊。
13 楼 wjch_111 2012-05-18 16:09
咱是码农,,,处理不了这么牛B的技术!!!安心写增删查改吧~~~
12 楼 jkfzero 2009-07-21 22:31
Yahoo用Hadoop打破这个记录了吧。不过同样是基于MapReduce。
11 楼 toeo 2008-11-28 20:05
....
lazy 写道

单纯的计算,每台电脑只负责256GB数据排序,每小时43G,每分钟700M,每秒不到12M。

...google会这么简单的运算么...??
总之Google就是牛..这个不可否认...在说..说不定人家还验算几遍呢.....
技术上面肯定是没的说.....大神...
10 楼 beiyangshuishi 2008-11-25 20:29
上帝呀这么大的数据量居然只用1个小时,值得深思
9 楼 elmar 2008-11-25 11:15
bookong 写道

比 PB 还大的是什么……NB吗?

1000m 10n Prefix Symbol Since[1] Short scale Long scale Decimal
10008 1024 yotta- Y 1991 Septillion Quadrillion 1 000 000 000 000 000 000 000 000
10007 1021 zetta- Z 1991 Sextillion Trilliard 1 000 000 000 000 000 000 000
10006 1018 exa- E 1975 Quintillion Trillion 1 000 000 000 000 000 000
10005 1015 peta- P 1975 Quadrillion Billiard 1 000 000 000 000 000
10004 1012 tera- T 1960 Trillion Billion 1 000 000 000 000
10003 109 giga- G 1960 Billion Milliard 1 000 000 000
10002 106 mega- M 1960 Million 1 000 000
10001 103 kilo- k 1795 Thousand 1 000
10002/3 102 hecto- h 1795 Hundred 100
10001/3 101 deca- da 1795 Ten 10
10000 100 (none) (none) NA One 1
1000−1/3 10−1 deci- d 1795 Tenth 0.1
1000−2/3 10−2 centi- c 1795 Hundredth 0.01
1000−1 10−3 milli- m 1795 Thousandth 0.001
1000−2 10−6 micro- µ 1960[2] Millionth 0.000 001
1000−3 10−9 nano- n 1960 Billionth Milliardth 0.000 000 001
1000−4 10−12 pico- p 1960 Trillionth Billionth 0.000 000 000 001
1000−5 10−15 femto- f 1964 Quadrillionth Billiardth 0.000 000 000 000 001
1000−6 10−18 atto- a 1964 Quintillionth Trillionth 0.000 000 000 000 000 001
1000−7 10−21 zepto- z 1991 Sextillionth Trilliardth 0.000 000 000 000 000 000 001
1000−8 10−24 yocto- y 1991 Septillionth Quadrillionth 0.000 000 000 000 000 000 000 001
8 楼 ray_linn 2008-11-25 11:08
strongkill 写道

lazy 写道
单纯的计算,每台电脑只负责256GB数据排序,每小时43G,每分钟700M,每秒不到12M。平均起来是每秒不到12M,但你不需要考虑这12M跟其它数据的关系吗??单独处理。。。这样有意义吗?



web数据应该有其特殊性,这个和关系数据库差别很大。
7 楼 bookong 2008-11-25 09:51
比 PB 还大的是什么……NB吗?
6 楼 EXvision 2008-11-25 08:37
lazy 写道

单纯的计算,每台电脑只负责256GB数据排序,每小时43G,每分钟700M,每秒不到12M。

说的简单,你也写一个啊。囧死了。现在的娃子。
5 楼 rainsf 2008-11-24 23:42
这就是MapReduce,先切分数据交由不同的机器去处理,然后归约。博大精深,Hadoop就是Java版的MapReduce,值得研究。
4 楼 strongkill 2008-11-24 23:23
lazy 写道

单纯的计算,每台电脑只负责256GB数据排序,每小时43G,每分钟700M,每秒不到12M。


平均起来是每秒不到12M,但你不需要考虑这12M跟其它数据的关系吗??单独处理。。。这样有意义吗?
3 楼 iceboundrock 2008-11-24 16:36
lazy 写道

单纯的计算,每台电脑只负责256GB数据排序,每小时43G,每分钟700M,每秒不到12M。

问题是你如何把1PB乱序数据切成大致有序的4000块
2 楼 lazy 2008-11-24 15:46
单纯的计算,每台电脑只负责256GB数据排序,每小时43G,每分钟700M,每秒不到12M。
1 楼 satan_smile 2008-11-24 15:09
有点高深的东西

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • Spring 学习笔记

    1、Spring介绍 5 1.1 Spring是什么 5 1.2 Spring官方网站 5 1.3 Spring能做什么 5 1.4 Spring的体系结构 5 2、IoC 6 2.1 IoC的概念 6 2.2简单的使用 6 2.3三种实例化Bean的方式 9 2.3.1 使用类构造器...

  • spring mvc 框架

    注:原创作者具有文章的所有权利,转载注明   1 Spring MVC简介 1.1. Spring3MVC VS Struts2 l 官方的下载网址是:... ...l 我们用Struts2时采用的传统的配置文件的方式,并没有使用传说中的

  • 【JavaEE】NoteSet

    Spring是一个轻量级的IOC和AOP容器框架 ②. Spring是非侵入式的,基于Spring开发的应用一般不依赖于Spring的类 ③. Spring是个容器,包含并且管理应用对象的生命周期和配置。 ④. Spring提供对事务的管理 ⑤. ...

  • 深入springmvc

    1.springMVC控制器: 非注解使用: 继承自Controller和MultiActionController 单个Controller,实现...spring配置文件中配置: 方式二包含了方式一中的两个bean 直接加 @Controller, @Reque

  • SpringMVC源码分析-DispatcherServlet

    在整个 Spring MVC 框架中,DispatcherServlet 处于核心位置,它负责协调和组织不同组件完成请求处理并返回响应工作。在看 DispatcherServlet 类之前,我们先来看一下请求处理的大致流程: Tomcat 启动,对 ...

  • SSH笔记

    书籍推荐:《开发者突击:Java Web主流框架整合开发》 一、JSP与Servlet 1、 基础语法 ... 1.5 include指令用于在JSP中包含一个静态文件,同时解析这个JSP文件中的JSP语句。 文件名一般是相对路径  

  • springmvc2 一个控制器写多个方法(非注解方式)

    springmvc 一个控制器写多个方法(非注解方式) ...分类: spring 2014-04-17 02:50 318人阅读 评论(0) 收藏 举报 web.xml 的配置。 其实web.xml 的配置和之前的没有什么区别 主要是DispatcherServle...

  • Web MVC framework Web框架

    13.1. 概述 Spring的web框架围绕DispatcherServlet设计。 DispatcherServlet的作用是将请求分发到不同的处理器。 Spring的web框架包括可配置的处理器...Spring的Web框架中缺省的处理器是Controller 接口,这是一个

  • java 面试总结(框架)

     (1)Spring MVC是Spring提供的一个强大而灵活的模块式web框架。通过Dispatcher Servlet, ModelAndView 和 View Resolver,开发web应用变得很容易。  (2)SpringMVC是一种基于Java的以请求为驱动类型的轻量级Web框架...

  • TimerFactoryBean来建立tasks

    Spring的web框架是围绕分发器(DispatcherServlet)设计的,DispatcherServlet将请求分发到不同的处理器,框架还包括可配置的处理器映射,视图解析,本地化,主题解析,还支持文件上传。缺省的处理器是一个简单的...

  • 2019年JAVA开发工程师面试题系列一

    1、spring是如何创建bean的? 在IoC容器中,bean的获取主要通过BeanFactory和ApplicationContext获取,这里ApplicationContext实际上是继承自BeanFactory的,两者的区别在于BeanFactory对bean的初始化主要是延迟...

  • operamasks-ui和struts2、springMVC框架整合实践

    org.springframework.aop-3.0.5.RELEASE.jar :与 Aop 编程相关的包 org.springframework.beans-3.0.5.RELEASE.jar :提供了简捷操作 bean 的接口 org.springframework.context-3.0.5.RELEASE.jar :构建在 ...

  • 模具状态监测行业发展趋势:预计到2030年市场规模为5.06亿美元

    模具状态监测市场:6.8%的年复合增长率引领制造业智能化升级 在快速发展的制造业中,模具作为生产过程中的核心部件,其状态直接影响到产品的质量和生产效率。然而,模具的损耗和故障往往难以预测,给企业带来不小的损失。如今,随着模具状态监测技术的兴起,这一切正在发生改变。这项创新技术不仅能够帮助企业提前发现模具的潜在问题,还能显著延长模具的使用寿命,提升生产效率。但你真的了解这个市场的潜力和现状吗?让我们一同揭开模具状态监测市场的神秘面纱。 市场概况: 根据QYR(恒州博智)的统计,2023年全球模具状态监测市场的销售额已经达到了3.2亿美元,预计到2030年,这一数字将攀升至5.06亿美元,年复合增长率高达6.8%。这一显著的增长背后,是制造业对智能化、自动化生产需求的不断提升,以及模具状态监测技术在提高生产效率、降低维护成本方面的显著优势。 技术创新与趋势: 模具状态监测技术主要依赖于传感器、数据分析和处理等技术手段,能够实时采集模具的温度、振动、压力等指标,并通过与预设参数的比对,及时识别模具的异常情况。随着物联网、大数据和人工智能等技术的不断发展,模具状态监测技术将更加智能化,能够提供

  • Kubernetes DevOps实践工作坊-从理论到实战操作脚本集(含源码).zip

    Kubernetes DevOps实践工作坊-从理论到实战操作脚本集(含源码).zip [资源说明] 1、该项目是团队成员近期最新开发,代码完整,资料齐全,含设计文档等 2、上传的项目源码经过严格测试,功能完善且能正常运行,请放心下载使用! 3、本项目适合计算机相关专业(人工智能、通信工程、自动化、电子信息、物联网等)的高校学生、教师、科研工作者、行业从业者下载使用,可借鉴学习,也可直接作为毕业设计、课程设计、作业、项目初期立项演示等,也适合小白学习进阶,遇到问题不懂就问,欢迎交流。 4、如果基础还行,可以在此代码基础上进行修改,以实现其他功能,也可直接用于毕设、课设、作业等。 5、不懂配置和运行,可远程教学 欢迎下载,学习使用!

  • 基于springboot+vue3+uniapp的点餐小程序源代码+数据库+文档说明(高分毕设)

    基于springboot+vue3+uniapp的点餐小程序源代码+数据库+文档说明(高分毕设),个人经导师指导并认可通过的毕业设计项目,评审分98分,项目中的源码都是经过本地编译过可运行的,都经过严格调试,确保可以运行!主要针对计算机相关专业的正在做毕业设计的学生和需要项目实战练习的学习者,资源项目的难度比较适中,内容都是经过助教老师审定过的能够满足学习、使用需求,如果有需要的话可以放心下载使用。 基于springboot+vue3+uniapp的点餐小程序源代码+数据库+文档说明(高分毕设)基于springboot+vue3+uniapp的点餐小程序源代码+数据库+文档说明(高分毕设)基于springboot+vue3+uniapp的点餐小程序源代码+数据库+文档说明(高分毕设)基于springboot+vue3+uniapp的点餐小程序源代码+数据库+文档说明(高分毕设)基于springboot+vue3+uniapp的点餐小程序源代码+数据库+文档说明(高分毕设)基于springboot+vue3+uniapp的点餐小程序源代码+数据库+文档说明(高分毕设)基于springb

  • 欧姆龙NX1P2系列总线plc程序 自动检测机,plc程序,无触摸屏程序 1.多工位DDR马达转盘控制,多工位同时加工 2.多产品配方功能程序 3.各种实用型自制功能块程序,可重复调用,成熟设备

    欧姆龙NX1P2系列总线plc程序 自动检测机,plc程序,无触摸屏程序 1.多工位DDR马达转盘控制,多工位同时加工。 2.多产品配方功能程序。 3.各种实用型自制功能块程序,可重复调用,成熟设备

Global site tag (gtag.js) - Google Analytics