谷歌的海量数据排序实验史

0顶
1踩

2016-04-11 14:14 by 副主编 mengyidan1988 评论(0) 有8416人浏览

google 算法

声明：ITeye资讯文章的版权属于ITeye网站所有，严禁任何网站转载本文，否则必将追究法律责任！

自从相关工具创建以来，我们一直通过对海量的随机数据执行排序来测试MapReduce。这种方式很受欢迎，因为生成任意数量的数据非常简单，想要验证输出结果是否正确也很简单。

尽管最开始的MapReduce论文报告的是TeraSort的结果。工程师们将定期对1TB或10TB数据执行排序当作回归测试来做，因为测试时使用的数据量越大，那些不显眼的bug就越容易被发现。然而，当我们进一步扩大数据规模后，真正的乐趣才刚开始。本文将会讨论几年前我们所做的一些PB规模的排序实验，包括在我们看来最大的一次MapReduce任务：对50PB的数据执行排序。

如今，GraySort已是海量数据排序基准之选，测试者必须以最快速度按字典顺序对至少100TB的数据执行排序。网站sortbenchmark.org跟踪记录了这项基准测试的官方优胜者，但谷歌从未参加过官方竞赛。

由于实现Reduce的过程就是对键值排序，MapReduce刚好适合解决这个问题。通过合适的（词典）分片功能，MapReduce就能输出一系列的文件，其中包含最终排序后的数据集。

有时在数据中心有新集群出现时（一般是为了搜索索引团队的使用），我们这些MapReduce团队的人员就有机会歇口气，在实际工作量压过来之前休闲几周。这些时候，我们才有机会试试看：让集群“超负荷”、探究硬件的极限、搞挂一些硬盘、测试一些非常昂贵的设备，并学到很多系统性能相关的东西，同时（在非官方的）排序基准测试获得胜利。

图一：谷歌的Petasort记录

2007

（1PB，12.13小时，1.37TB/分钟，2.9 MB/秒/worker）

我们在2007年首次运行Petasort。那时候，我们主要是开心能把这个测试完成，尽管对输出结果的正确性还有些疑问（由于未作验证而无法确认）。当时，若不是我们关闭了检查map分片与备份的输出结果是否一致的机制，这项任务是无法完成的。我们怀疑，这是用作输入和输出结果存储的谷歌档案系统（GFS）所造成的限制。GFS的校验和保护不足，有时会返回损坏的数据。不幸的是，该基准测试所使用的文件格式并不包含任何内嵌的校验和，无法让MapReduce发送通知（在谷歌，通常使用MapReduce的方式就是使用内嵌校验和的文件格式）。

2008

（1PB，6.03小时，2.76TB/分钟，11.5 MB/秒/worker）

2008年，我们首次专注于优化调整，花了几天时间调整分片数量、不同缓冲区的大小、预读/预写策略、页面缓存使用等，并在博客中记录了结果。最终，通过将输出结果三路复制到GFS，我们解决掉了瓶颈，这也成了我们那时在谷歌的标准用法，少一路都会有很高的风险损失掉数据。

2010

（1PB，2.95小时，5.65TB/分钟，11.8 MB/秒/worker）

在这个测试中，我们使用了新版本的GraySort基准，这个版本使用到了不可压缩的数据。在前几年中，我们从GFS读取或者向其写入1PB数据时，实际shuffle的数据量仅有大约300TB左右，因为那时所使用的ASCII格式都是压缩过的。

在这一年中，谷歌将GFS更新为下一代分布式存储系统Colossus。之前使用GFS时所遇到的数据损坏问题不再出现了，我们还在输出结果中使用了RS编码（Colossus的新功能），从而将写入的总数据量从3PB（三路复制）减少到大约1.6PB。这时我们也首次证实了输出结果的正确性。

为了减少离散数据的影响，我们运用了动态分片技术（也就是减少子分片），后来演变为了在Dataflow中使用完全动态分片技术。

2011

（1PB，0.55小时，30.3TB/分钟，63.1 MB/秒/worker）

这一年我们的网络速度更快，也开始关注每台服务器的效率，特别是输入/输出（I/O）方面的问题。我们要确保所有的硬盘I/O操作都是在2MB大小的块区内进行的，解决有时会缩小到64kB块区的问题。我们使用了固态硬盘（SSD）来记录部分数据，这使得Petasort测试首次在一小时之内完成，准确来讲是33分钟，可以参考这里的记录。最终，在分布式存储中输入/输出以及将中间数据保存在硬盘中以支持容错（由于在实验中，某些硬盘甚至整台服务器都会宕掉，而且这种情况会频繁出现，因此容错非常重要）的问题上，性能达到了指定MapReduce架构的硬件极限性能的将近两倍。同时也获得了更高的扩展：我们在6小时27分钟之内运行了10PB的数据（26TB/分钟）。

2012

（50PB，23小时，36.2TB/分钟，50 MB/秒/worker）

在这个测试中，我们将注意力转向更大规模的数据排序，通过调用我们在谷歌所能控制的最大规模集群，将shuffle的数据量提到最大，然后运行相应的MapReduce任务。不幸的是，这个集群的空间不够让100PB的数据排序，因此我们将要排序的数据限制在50PB。这个测试仅运行了一次，也没有做专门的优化调整，而且设置还是取自之前做10PB实验时所用的那一套，完成时间为23小时5分钟。

注意，这个排序的规模是GraySort的500倍，在吞吐量上是2015年GraySort官方优胜者的两倍。

学到的经验

这些实验让我们获益良多：包括在运行万台规模的服务器上执行排序时遇到了什么挑战，以及如何优化调整以接近硬件性能的速度极限。

尽管这些排序实验非常有趣，但仍有一些缺点：

真正海量的全局排序输出是没有人需要的，我们还没有找到如上所述实验的任何一个真实用例。
这些实验证实了系统能够良好地运行，不过回避了所需努力程度的问题。MapReduce需要很多的调整才能良好运行，事实上，我们发现在生产中有很多的MapReduce任务就是由于配置不当而导致表现不佳。

近来，我们已经转向对系统自身构建的注重，让大多部分不再需要优化调整。例如：Dataflow可以自动找出分片的数量（以及自动按需重新分片），以代替人工摸索着手动执行这一任务。不过这些话题还有达成的结果，我们会在以后的博客中再来描述。

原文：History of massive-scale sorting experiments at Google
作者：Marian Dvorsky
译者：孙薇
责编：钱曙光，关注架构和算法领域，寻求报道或者投稿请发邮件qianshg@csdn.net，另有「CSDN 高级架构师群」，内有诸多知名互联网公司的大牛架构师，欢迎架构师加微信qshuguang2008申请入群，备注姓名+公司+职位。

查看图片附件

分享到：

0
顶

1
踩

评论共 0 条请登录后发表评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

数据挖掘大数据海量实时处理实战

1999年，MIT计算机科学系的马文·塞缪尔·沃森设计出了第一台商用大型机Donald Knuth，它是第一台...在信息爆炸、海量数据产生、复杂应用场景下，如何快速有效地进行海量数据的实时处理是数据分析和挖掘的核心问题。

大数据处理流程.pdf

Spark：尽管MapReduce和Hive能完成海量数据的⼤多数批处理⼯作，并且在打数据时代称为企业⼤数据处理的⾸选技术，但是其数据查询的延迟⼀直被诟病，⽽且也⾮常不适合迭代计算和DAG(有限⽆环图)计算。由于Spark具有...

云计算与海量数据处理技术

为解决广大系统设计人员深入研究与开发云计算系统的需要，培训中心特举办“云计算与海量数据处理技术”培训班，具体事宜通知如下：一、培训对象 1，系统架构师、系统分析师、高级程序员、资深开发人员。 2，牵涉...

海量数据处理总结

所谓海量数据处理，无非就是基于海量数据上的存储、处理、操作。何谓海量，就是数据量太大，所以导致要么是无法在较短时间内迅速解决，要么是数据太大，导致无法一次性装入内存。那解决办法呢?针对时间，我们...

何谓海量数据处理？

所谓海量数据处理，无非就是基于海量数据上的存储、处理、操作。何谓海量，就是数据量太大，所以导致要么是无法在较短时间内迅速解决，要么是数据太大，导致无法一次性装入内存。那解决办法呢?针对时间，我们可以...

【大数据处理技术】期末复习整理

所用教材：《大数据技术原理与应用——概念、存储、处理、分析与应用（第2版）》，由厦门大学...第2章大数据处理架构Hadoop 第二篇大数据存储与管理第3章分布式文件系统HDFS 第4章分布式数据库HBase 第5章 No

Google之海量数据的交互式分析工具Dremel

Google Dremel 原理 ...Dremel 是Google 的“交互式”数据分析系统。...作为MapReduce的发起人，Google开发了Dremel将处理时间缩短到秒级，作为MapReduce的有力补充。Dremel作为Google BigQuery的report引擎，

海量数据处理题

BAT、FLAG(Facebook,LinkedIn,Amazon/Apple,Google)这类涉及到大数据的公司面试的时候都喜欢问关于海量数据处理的问题，本文将对海量处理问题进行总结。我买了July出的《编程之法》，对海量数据处理问题有总结。 ...

Python数据分析海量数据营销（2）-尹成-专题视频课程

Python数据分析海量数据营销，分析数据，使用数据

海量数据的并发处理

1、海量数据的处理众所周知，对于一些相对小的站点来说，数据量并不是很大，select和update就可以解决我们面对的问题，本身负载量不是很大，最多再加几个索引就可以搞定。对于大型应用，每天的数据量可能就上百万...

Python数据分析海量数据营销（1）-尹成-专题视频课程

Python数据分析海量数据营销，分析数据，使用数据

大数据处理流程

大数据处理流程 1．数据处理流程网站流量日志数据分析是一个纯粹的数据分析项目，其整体流程基本上就是依据数据的处理流程进行。有以下几个大的步骤： 1.1 数据采集 &nbsp;&nbsp;&nbsp;&nbsp;&...

人工智能大数据,公开的海量数据集下载

数据集的网站： 1、Public Data Sets on Amazon Web Services (AWS) http://aws.amazon.com/datasets Amazon从2008年开始就为开发者提供几十TB的开发数据。 2、Yahoo! Webscope ... 3、Konect is a...

海量数据分布式存储技术-作业一

1、信息技术发展史上3 次信息化浪潮及其具体内容； 2、数据产生方式经历的几个阶段； 3、科学研究经历的4个阶段； 4、大数据对思维方式的影响； 5、大数据的关键技术有哪些； 6、大数据产业包含那些层次； 7、云计算...

spring-ai-spring-boot-autoconfigure-1.0.0-M5.jar中文文档.zip

# 【spring-ai-spring-boot-autoconfigure-***.jar中文文档.zip】中包含：中文文档：【spring-ai-spring-boot-autoconfigure-***-javadoc-API文档-中文(简体)版.zip】 jar包下载地址：【spring-ai-spring-boot-autoconfigure-***.jar下载地址(官方地址+国内镜像地址).txt】 Maven依赖：【spring-ai-spring-boot-autoconfigure-***.jar Maven依赖信息(可用于项目pom.xml).txt】 Gradle依赖：【spring-ai-spring-boot-autoconfigure-***.jar Gradle依赖信息(可用于项目build.gradle).txt】源代码下载地址：【spring-ai-spring-boot-autoconfigure-***-sources.jar下载地址(官方地址+国内镜像地址).txt】 # 本文件关键字： spring-ai-spring-boot-autoconfigure-***.jar中文文档.zip,java,spring-ai-spring-boot-autoconfigure-***.jar,org.springframework.ai,spring-ai-spring-boot-autoconfigure,***,org.springframework.ai.autoconfigure.anthropic,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,springframework,spring,ai,boot,autoconfigure,中文API文档,手册,开发手册,使用手册,参考手册 # 使用方法：解压【spring-ai-spring-boot-autoconfigure-***.jar中文文档.zip】，再解压其中的【spring-ai-spring-boot-autoconfigure-***-javadoc-API文档-中文(简体)版.zip】，双击【index.html】文件，即可用浏览器打开、进行查看。 # 特殊说明： ·本文档为人性化翻译，精心制作，请放心使用。 ·只翻译了该翻译的内容，如：注释、说明、描述、用法讲解等； ·不该翻译的内容保持原样，如：类名、方法名、包名、类型、关键字、代码等。 # 温馨提示：（1）为了防止解压后路径太长导致浏览器无法打开，推荐在解压时选择“解压到当前文件夹”（放心，自带文件夹，文件不会散落一地）；（2）有时，一套Java组件会有多个jar，所以在下载前，请仔细阅读本篇描述，以确保这就是你需要的文件； # Maven依赖： ``` <dependency> <groupId>org.springframework.ai</groupId> <artifactId>spring-ai-spring-boot-autoconfigure</artifactId> <version>***</version> </dependency> ``` # Gradle依赖： ``` Gradle: implementation group: 'org.springframework.ai', name: 'spring-ai-spring-boot-autoconfigure', version: '***' Gradle (Short): implementation 'org.springframework.ai:spring-ai-spring-boot-autoconfigure:***' Gradle (Kotlin): implementation("org.springframework.ai:spring-ai-spring-boot-autoconfigure:***") ``` # 含有的 Java package（包）： ``` org.springframework.ai.autoconfigure.anthropic org.springframework.ai.autoconfigure.azure.openai org.springframework.ai.autoconfigure.bedrock org.springframework.ai.autoconfigure.bedrock.anthropic org.springframework.ai.autoconfigure.bedrock.anthropic3

50页-道路环卫保洁服务项目管理计划方案.pdf

在当今智慧城市的建设浪潮中，智慧环卫作为城市管理的重要组成部分，正以其独特的魅力引领着环卫行业的变革。本方案旨在通过一系列高科技手段，如物联网、大数据、云计算等，全面提升环卫作业效率与管理水平，为城市居民创造更加清洁、宜居的生活环境。一、智慧环卫系统概述与核心亮点智慧环卫系统是一个集机械化保洁、垃圾清运、设施管理、事件指挥调度等多功能于一体的综合性管理平台。其核心亮点在于通过高精度定位、实时监控与智能分析，实现环卫作业的精细化管理。例如，机械化保洁管理子系统能够实时监控机扫车、洒水车等作业车辆的运行状态，自动规划最优作业路线，并根据作业完成情况生成考核评价报表，极大地提高了作业效率与服务质量。同时，垃圾清运管理子系统则通过安装GPS定位设备和油量传感器，对清运车辆进行全方位监控，确保垃圾清运过程的规范与高效，有效解决了城市垃圾堆积与随意倾倒的问题。此外，系统还配备了垃圾箱满溢报警系统，通过智能感应技术，当垃圾箱内垃圾达到预设高度时自动报警，提醒作业人员及时清运，避免了因垃圾满溢而引发的居民投诉与环境污染。二、智慧环卫系统的趣味性与知识性融合智慧环卫系统不仅实用性强，还蕴含着丰富的趣味性与知识性。以餐厨垃圾收运管理子系统为例，该系统通过为餐厨垃圾收运车辆安装GPS定位、车载称重、视频监控等多种感知设备，实现了对餐厨垃圾收运过程的全程监控与智能管理。作业人员可以通过手机APP实时查看车辆位置、行驶轨迹及收运情况，仿佛在玩一场现实版的“垃圾追踪游戏”。同时，系统还能自动生成餐厨垃圾收运统计报表，帮助管理人员轻松掌握收运量、违规情况等关键数据，让数据管理变得既科学又有趣。此外，中转站视频监控子系统更是将趣味性与实用性完美结合，通过高清摄像头与双向语音对讲功能，实现了对中转站内外环境的实时监控与远程指挥，让管理人员足不出户就能掌控全局，仿佛拥有了一双“千里眼”和一对“顺风耳”。三、智慧环卫系统的未来展望与社会价值随着科技的不断进步与智慧城市建设的深入推进，智慧环卫系统将迎来更加广阔的发展前景。未来，智慧环卫系统将更加注重数据的深度挖掘与分析，通过大数据与人工智能技术，为城市环卫管理提供更加精准、高效的决策支持。同时，系统还将加强与其他城市管理系统的互联互通，实现资源共享与协同作战，共同推动城市管理的智能化、精细化水平。从社会价值来看，智慧环卫系统的推广与应用将有效提升城市环境卫生质量，改善居民生活环境，提升城市形象与竞争力。此外，系统还能通过优化作业流程、减少资源浪费等方式，为城市可持续发展贡献重要力量。可以说，智慧环卫系统不仅是城市管理的得力助手，更是推动社会进步与文明发展的重要力量。

微信小程序驾校管理平台约车小程序demo完整源码下载-完整源码.zip

微信小程序驾校管理平台约车小程序demo完整源码下载_完整源码

MATLAB实现含风电不确定性的电力系统低碳调度模型

内容概要：本文详细介绍了使用MATLAB和YALMIP工具包构建的电力系统低碳调度模型。该模型主要解决风电和负荷不确定性带来的挑战，采用模糊机会约束处理风电预测误差，将复杂的非线性约束转化为混合整数线性规划问题。文中展示了如何通过分段线性化、大M法等技巧提高求解效率，并实现了包括火电、水电、风电、储能等多种能源类型的综合调度。此外，还讨论了碳排放成本、启停时间约束、爬坡率约束以及储能系统的建模方法。最终，通过结果可视化展示各成本构成及其对调度策略的影响。适合人群：从事电力系统优化研究的专业人士，尤其是熟悉MATLAB编程并希望深入了解低碳调度模型的研究人员和技术人员。使用场景及目标：适用于需要处理风电不确定性、优化电力系统调度的研究项目。目标是降低电力生产成本的同时减少碳排放，确保电力系统的稳定性和经济性。其他说明：代码中包含了详细的注释和扩展提示，方便进一步修改与应用。对于大规模电力系统调度问题，提供了高效的求解策略和性能优化建议。

OFDM、OOK、PPM、QAM 的误码率模拟【绘制不同调制方案的误码率曲线】附Matlab代码.rar

1.版本：matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

0顶1踩