阅读更多

10顶
3踩

数据库
google日前宣布,他们能够在6小时2分钟操作4000台电脑排序1 PB的数据,1 PB = 1,024 TB ! 根据google的博客,从这个数据量的角度来看,1 PB相当于2008年5月份美国国会图书馆存档web数据的12倍,都是通过google MapReduce实例来处理巨大的数据,数据额在2008年一月差不多是每天 20 PB。强大的MapReduc 技术可能成为一个编程模型 和 一个处理/生成巨大数据的联合实现方式。

MapReduce 是google数据处理的核心技术,是Google开发的C++编程工具,用于大规模数据集(大于1TB)的并行运算, 同时Yahoo,Facebook和LinkedIn也采用此项技术。但是这是一项有争议的技术,主要是和标准的数据仓储data warehousing的通用方式有明显冲突。目前两个data warehouse DBMS 厂商Greenplum 和 Aster Data,发布了集成MapReduce进入SQL数据库管理工具,MapReduce将极大促进高端数据分析技术的发展,尤其在三个方面的应用:1)文本字符解析,索引和搜索;2)创建其他类型的数据结构(比如graphs图);3)数据挖掘和机器学习(数据转换也在这个列表中)。所有这些领域要获得更好的结果取决于性能,MapReduce提供了让主要数据处理速度大幅提高的可能性。

对MapReduce有兴趣,还可以查看:google发布的一个来自google技术圆桌会议讨论MapReduce的视频
来自: slashdot.or
10
3
评论 共 14 条 请登录后发表评论
14 楼 duanyong 2012-12-20 10:13
EXvision 写道
lazy 写道

单纯的计算,每台电脑只负责256GB数据排序,每小时43G,每分钟700M,每秒不到12M。

说的简单,你也写一个啊。囧死了。现在的娃子。


原来大数据就是这样子分下来的啊。那还做大数据研究啊?

请问哥们,数据之间的关系不考虑了?这才是最复杂的啊。要划分那些数据先处理的顺序,分析数据与数据关系的联系啊。
13 楼 wjch_111 2012-05-18 16:09
咱是码农,,,处理不了这么牛B的技术!!!安心写增删查改吧~~~
12 楼 jkfzero 2009-07-21 22:31
Yahoo用Hadoop打破这个记录了吧。不过同样是基于MapReduce。
11 楼 toeo 2008-11-28 20:05
....
lazy 写道

单纯的计算,每台电脑只负责256GB数据排序,每小时43G,每分钟700M,每秒不到12M。

...google会这么简单的运算么...??
总之Google就是牛..这个不可否认...在说..说不定人家还验算几遍呢.....
技术上面肯定是没的说.....大神...
10 楼 beiyangshuishi 2008-11-25 20:29
上帝呀这么大的数据量居然只用1个小时,值得深思
9 楼 elmar 2008-11-25 11:15
bookong 写道

比 PB 还大的是什么……NB吗?

1000m 10n Prefix Symbol Since[1] Short scale Long scale Decimal
10008 1024 yotta- Y 1991 Septillion Quadrillion 1 000 000 000 000 000 000 000 000
10007 1021 zetta- Z 1991 Sextillion Trilliard 1 000 000 000 000 000 000 000
10006 1018 exa- E 1975 Quintillion Trillion 1 000 000 000 000 000 000
10005 1015 peta- P 1975 Quadrillion Billiard 1 000 000 000 000 000
10004 1012 tera- T 1960 Trillion Billion 1 000 000 000 000
10003 109 giga- G 1960 Billion Milliard 1 000 000 000
10002 106 mega- M 1960 Million 1 000 000
10001 103 kilo- k 1795 Thousand 1 000
10002/3 102 hecto- h 1795 Hundred 100
10001/3 101 deca- da 1795 Ten 10
10000 100 (none) (none) NA One 1
1000−1/3 10−1 deci- d 1795 Tenth 0.1
1000−2/3 10−2 centi- c 1795 Hundredth 0.01
1000−1 10−3 milli- m 1795 Thousandth 0.001
1000−2 10−6 micro- µ 1960[2] Millionth 0.000 001
1000−3 10−9 nano- n 1960 Billionth Milliardth 0.000 000 001
1000−4 10−12 pico- p 1960 Trillionth Billionth 0.000 000 000 001
1000−5 10−15 femto- f 1964 Quadrillionth Billiardth 0.000 000 000 000 001
1000−6 10−18 atto- a 1964 Quintillionth Trillionth 0.000 000 000 000 000 001
1000−7 10−21 zepto- z 1991 Sextillionth Trilliardth 0.000 000 000 000 000 000 001
1000−8 10−24 yocto- y 1991 Septillionth Quadrillionth 0.000 000 000 000 000 000 000 001
8 楼 ray_linn 2008-11-25 11:08
strongkill 写道

lazy 写道
单纯的计算,每台电脑只负责256GB数据排序,每小时43G,每分钟700M,每秒不到12M。平均起来是每秒不到12M,但你不需要考虑这12M跟其它数据的关系吗??单独处理。。。这样有意义吗?



web数据应该有其特殊性,这个和关系数据库差别很大。
7 楼 bookong 2008-11-25 09:51
比 PB 还大的是什么……NB吗?
6 楼 EXvision 2008-11-25 08:37
lazy 写道

单纯的计算,每台电脑只负责256GB数据排序,每小时43G,每分钟700M,每秒不到12M。

说的简单,你也写一个啊。囧死了。现在的娃子。
5 楼 rainsf 2008-11-24 23:42
这就是MapReduce,先切分数据交由不同的机器去处理,然后归约。博大精深,Hadoop就是Java版的MapReduce,值得研究。
4 楼 strongkill 2008-11-24 23:23
lazy 写道

单纯的计算,每台电脑只负责256GB数据排序,每小时43G,每分钟700M,每秒不到12M。


平均起来是每秒不到12M,但你不需要考虑这12M跟其它数据的关系吗??单独处理。。。这样有意义吗?
3 楼 iceboundrock 2008-11-24 16:36
lazy 写道

单纯的计算,每台电脑只负责256GB数据排序,每小时43G,每分钟700M,每秒不到12M。

问题是你如何把1PB乱序数据切成大致有序的4000块
2 楼 lazy 2008-11-24 15:46
单纯的计算,每台电脑只负责256GB数据排序,每小时43G,每分钟700M,每秒不到12M。
1 楼 satan_smile 2008-11-24 15:09
有点高深的东西

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • Spring 学习笔记

    1、Spring介绍 5 1.1 Spring是什么 5 1.2 Spring官方网站 5 1.3 Spring能做什么 5 1.4 Spring的体系结构 5 2、IoC 6 2.1 IoC的概念 6 2.2简单的使用 6 2.3三种实例化Bean的方式 9 2.3.1 使用类构造器...

  • spring mvc 框架

    注:原创作者具有文章的所有权利,转载注明   1 Spring MVC简介 1.1. Spring3MVC VS Struts2 l 官方的下载网址是:... ...l 我们用Struts2时采用的传统的配置文件的方式,并没有使用传说中的

  • 【JavaEE】NoteSet

    Spring是一个轻量级的IOC和AOP容器框架 ②. Spring是非侵入式的,基于Spring开发的应用一般不依赖于Spring的类 ③. Spring是个容器,包含并且管理应用对象的生命周期和配置。 ④. Spring提供对事务的管理 ⑤. ...

  • 深入springmvc

    1.springMVC控制器: 非注解使用: 继承自Controller和MultiActionController 单个Controller,实现...spring配置文件中配置: 方式二包含了方式一中的两个bean 直接加 @Controller, @Reque

  • SpringMVC源码分析-DispatcherServlet

    在整个 Spring MVC 框架中,DispatcherServlet 处于核心位置,它负责协调和组织不同组件完成请求处理并返回响应工作。在看 DispatcherServlet 类之前,我们先来看一下请求处理的大致流程: Tomcat 启动,对 ...

  • SSH笔记

    书籍推荐:《开发者突击:Java Web主流框架整合开发》 一、JSP与Servlet 1、 基础语法 ... 1.5 include指令用于在JSP中包含一个静态文件,同时解析这个JSP文件中的JSP语句。 文件名一般是相对路径  

  • springmvc2 一个控制器写多个方法(非注解方式)

    springmvc 一个控制器写多个方法(非注解方式) ...分类: spring 2014-04-17 02:50 318人阅读 评论(0) 收藏 举报 web.xml 的配置。 其实web.xml 的配置和之前的没有什么区别 主要是DispatcherServle...

  • Web MVC framework Web框架

    13.1. 概述 Spring的web框架围绕DispatcherServlet设计。 DispatcherServlet的作用是将请求分发到不同的处理器。 Spring的web框架包括可配置的处理器...Spring的Web框架中缺省的处理器是Controller 接口,这是一个

  • java 面试总结(框架)

     (1)Spring MVC是Spring提供的一个强大而灵活的模块式web框架。通过Dispatcher Servlet, ModelAndView 和 View Resolver,开发web应用变得很容易。  (2)SpringMVC是一种基于Java的以请求为驱动类型的轻量级Web框架...

  • TimerFactoryBean来建立tasks

    Spring的web框架是围绕分发器(DispatcherServlet)设计的,DispatcherServlet将请求分发到不同的处理器,框架还包括可配置的处理器映射,视图解析,本地化,主题解析,还支持文件上传。缺省的处理器是一个简单的...

  • 2019年JAVA开发工程师面试题系列一

    1、spring是如何创建bean的? 在IoC容器中,bean的获取主要通过BeanFactory和ApplicationContext获取,这里ApplicationContext实际上是继承自BeanFactory的,两者的区别在于BeanFactory对bean的初始化主要是延迟...

  • operamasks-ui和struts2、springMVC框架整合实践

    org.springframework.aop-3.0.5.RELEASE.jar :与 Aop 编程相关的包 org.springframework.beans-3.0.5.RELEASE.jar :提供了简捷操作 bean 的接口 org.springframework.context-3.0.5.RELEASE.jar :构建在 ...

  • 移动开发_Android_基础框架_SAFApi组件开发_1742847786.zip

    移动开发_Android_基础框架_SAFApi组件开发_1742847786.zip

  • 《基于YOLOv8的气功动作识别系统》(包含源码、完整数据集、可视化界面、部署教程)简单部署即可运行。功能完善、操作简单,适合毕设或课程设计.zip

    资源内项目源码是来自个人的毕业设计,代码都测试ok,包含源码、数据集、可视化页面和部署说明,可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源,毕设答辩评审绝对信服的保底85分以上,放心下载使用,拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务,拿来就能用的绝对好资源!!! 项目备注 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.txt文件,仅供学习参考, 切勿用于商业用途。

  • FourOnes_jquerybootstraptenine_1742855636.zip

    app开发

  • MobaXterm安装包

    MobaXterm安装包

  • 30页-清华科技园智慧园区方案.pdf

    智慧园区,作为智慧城市的重要组成部分,正借助5G、云计算、大数据等前沿技术,实现园区的全面智慧化升级。它不仅仅是技术的堆砌,更是园区管理模式和服务理念的革新。智慧园区通过构建统一的大数据平台,实现园区内各类数据的整合与共享,让管理者能够全局掌握园区运营状态,实现人、事、物的穿透式管理。 在5G技术的加持下,智慧园区的特色应用得以更加广泛和深入地开展。从便捷通行到智慧物联,从楼宇自控到企业服务,5G智慧园区为园区内的企业和员工提供了前所未有的便捷与高效。刷脸通行、车牌识别、访客线上预约等技术的应用,不仅提升了园区的安全等级,更让通行变得简单快捷。而智慧垃圾桶、路灯等物联网设备的引入,则让园区的环境管理更加智能化、精细化。此外,5G智慧园区还通过无人机巡检、无人驾驶等创新应用,为园区的安全管理、物资配送等方面带来了全新的解决方案。 值得一提的是,智慧园区的建设并不仅仅局限于硬件设施的升级,更在于服务模式的创新。通过园区APP、在线服务平台等渠道,智慧园区实现了园区服务的线上化、便捷化,让企业和员工能够随时随地享受到园区提供的各类服务。这种以人为本的服务理念,不仅提升了园区的整体服务水平,更增强了园区的吸引力和竞争力。总之,5G智慧园区的建设为园区的可持续发展注入了新的活力,也为未来城市的发展提供了有益的借鉴和启示。

  • C基础day9 思维导图

    C基础day9 思维导图

  • Simulink仿真实现物体终端速度与信号处理的MATLAB代码解析(复现论文或解决问题,含详细可运行代码及解释)

    内容概要:本文档详细介绍了使用Simulink进行两个物理问题的仿真建模。第一个任务是模拟一个球体从高空落下的终端速度,通过建立重力与空气阻力的平衡模型,利用MATLAB代码构建Simulink模型,最终计算出终端速度。第二个任务是基于提供的加速度数据,通过两次积分计算物体的速度和位置,同样使用MATLAB代码实现了Simulink模型。每个任务都包含了详细的数学公式推导、参数设置以及Simulink模块的具体连接方法。仿真结果显示,终端速度约为53.6 m/s,而1秒后的速度和位置则取决于输入的加速度数据。 适合人群:对Simulink仿真工具感兴趣的工程技术人员、科研工作者以及相关专业的学生。 使用场景及目标:适用于需要进行物理系统仿真、信号处理的研究项目或教学实验。主要目标是帮助读者掌握Simulink的基本操作和应用技巧,同时加深对物理现象的理解。 其他说明:文中提供了完整的MATLAB代码,方便读者直接复制并在自己的环境中运行测试。此外,还给出了详细的中文注释,有助于初学者更好地理解各个步骤的功能和意义。

  • 《基于YOLOv8的隧道安全监测系统》(包含源码、完整数据集、可视化界面、部署教程)简单部署即可运行。功能完善、操作简单,适合毕设或课程设计.zip

    资源内项目源码是来自个人的毕业设计,代码都测试ok,包含源码、数据集、可视化页面和部署说明,可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源,毕设答辩评审绝对信服的保底85分以上,放心下载使用,拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务,拿来就能用的绝对好资源!!! 项目备注 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.txt文件,仅供学习参考, 切勿用于商业用途。

Global site tag (gtag.js) - Google Analytics