Google 热衷于处理全球的信息,每天,他们花费大量时间探索更好的信息整理技术,他们目前使用的技术为 MapReduce
,这是一种可以对数据进行并发处理的软件架构。鉴于其简单性与处理大规模数据的能力,MapReduce 是 Google
日常数据处理的完美技术方案。
Google 的数据整理实验一直以每 TB 数据表现为基准
。这些标准话实验帮助 Google 理解和对比不同技术的优秀劣,并获得经验和教训,以改进下一代数据处理技术。
目前,Google 的每 TB 数据处理能力为,在1000台计算机中处理 1TB 数据的时间为68秒(使用 Google File System
将 1TB 数据保存在100亿个 100 字节的非压缩文本文件中),以前的表现为 910 台电脑 209秒
。
但 Google 要处理的数据远超过 TB 级,因此,Google 做了 PB 级数据处理实验。1PB 数据是 1TB 的1000倍,或者,形象一点说,1PB 数据相当于 2008 年5月,美国国会图书馆存档的 Web 数据
的 12 倍。2008年1月
的统计结果显示,Google 每天处理的数据为平均为 20PB,相当于 20000TB。在 4000 台计算机中处理 1PB 数据花费6小时领2分钟。
有一个有趣的问题,就是,如何保存这么多数据。Google 将这些数据保存在 48000
个硬盘中(每个只利用了部分空间),每次进行数据整理,至少有一个硬盘坏掉(鉴于处理的时长,硬盘的数目和硬盘本身的寿命,这并不奇怪),因此,为了保证
数据安全,Google 将每份数据都在不同的硬盘上写三份。
分享到:
相关推荐
例如,纽约证券交易所每天生成1TB的交易数据,Facebook存储了数十亿张照片,占据了PB级别的存储空间,互联网档案馆的数据以每月20TB的速度增长,大型强子对撞机每年产生约15PB的数据。这些数据的存储和处理成为了IT...
这些领域的快速发展导致数据量呈指数级增长,例如,Google每天处理的数据量达到约24PB,Facebook每天处理25TB的数据,而中国移动的日数据量则包括10TB以上的通话记录、30TB以上的上网日志以及100TB以上的信令数据。...
* 谷歌翻译每天处理的文字数量,每天翻译次数达十亿次,相当于一百万册图书,超过了全世界的专业翻译人员一年能够翻译的文字规模 * 百度每天的关键词搜索量 50 亿,谷歌 33.3 亿 * 淘宝天猫双 11 那一天营业额达 191...
- **故障处理**:即便采用了超级可靠的服务器(平均无故障时间MTBF为30年),但在部署了数千台服务器的情况下,每天仍会有一台服务器发生故障。 - **容错软件设计**:因此,开发能够容忍硬件故障的软件是必不可少的...
大数据的起始计量单位通常是 PB(约 1,000TB)、EB(约 100 万 TB)或 ZB(约 10亿 TB)。多样的数据类型指数据种类和来源多样化,包括结构化、半结构化和非结构化数据,具体表现为关系型数据、日志、音频、视频、...
在这个阶段,传统的数据库系统如Oracle、MySQL、DB2等虽然在处理小规模数据时表现良好,但面对日益增长的数据量,特别是日增长达到100亿级、每天约100TB的数据时,显得力不从心。为了解决这一问题,业界引入了Hadoop...
- 例如,Facebook 在 2008 年每天产生的数据量为 200GB,而在 2011 年这一数字已经增长到超过 12TB(压缩后)。 - 这种趋势表明现有的一些封闭式专有系统难以跟上数据增长的步伐。 2. **硬件发展趋势**: - CPU ...
在描述中,提到的场景是一个网站每天生成约4.2GB的日志数据,一年累计达3TB。为了解决存储和分析这些数据的问题,采取了不压缩日志、使用RAID1保护系统盘和RAID5保护数据盘的策略,并将所有数据集中到LogBackup...
例如,每秒钟有超过290万封电子邮件被发送,每天约有2.88万小时的视频被上传到YouTube,Facebook每天的评论数量达到32亿条,照片上传近3亿张,每月处理的数据总量高达130万TB。 大数据的关键技术主要包括以下几个...
考虑到谷歌每天的搜索量高达35亿次,ChatGPT的用户基数还有巨大的增长潜力,这将进一步推高其算力需求。 此外,ChatGPT不仅仅局限于文本交互,它正朝着多模态输入输出发展。未来,大模型可能不仅处理文本,还将涵盖...
这些消息足够一个人昼夜不息的浏览16年…每天亚马逊上将产生6.3百万笔订单…每个月网民在Facebook上要花费7千亿分钟, 被移动互联网使用者发送和接收的数据高达1.3EB…Google上每天需要处理24PB的数据… 大数据在...
另一方面,大型整合式数据中心如谷歌在俄勒冈州达尔斯的数据中心正成为处理大规模数据的基础设施。在数据中心内部,其架构包括服务器、内存、磁盘以及网络组件等。 #### 服务器组件 - **CPU**:负责执行指令的核心...