MongoDB MapReduce 性能提升20倍的优化宝典

13顶
8踩

2013-07-09 10:13 by 副主编 wangguo 评论(3) 有32477人浏览

mongodb mapreduce nosql 优化大数据

声明：ITeye资讯文章的版权属于ITeye网站所有，严禁任何网站转载本文，否则必将追究法律责任！

自从MongoDB被越来越多的大型关键项目采用后，数据分析也成为了越来越重要的话题。人们似乎已经厌倦了使用不同的软件来进行分析（这都利用到了Hadoop），因为这些方法往往需要大规模的数据传输，而这些成本相当昂贵。

MongoDB提供了2种方式来对数据进行分析：Map Reduce（以下简称MR）和聚合框架（Aggregation Framework）。MR非常灵活且易于使用，它可以很好地与分片（sharding）结合使用，并允许大规模输出。尽管在MongoDB v2.4版本中，由于JavaScript引擎从Spider切换到了V8，使得MR的性能有了大幅改进，但是与Agg Framework（使用C++）相比，MR的速度还是显得比较慢。本文就来看看，有哪些方法可以让MR的速度有所提升。

测试

首先我们来做个测试，插入1000万文档，这些文档中包含了介于0和100万之间的单一整数值，这意味着，平均每10个文档具有相同的值。

> for (var i = 0; i < 10000000; ++i){ db.uniques.insert({ dim0: Math.floor(Math.random()*1000000) });}
> db.uniques.findOne()
{ "_id" : ObjectId("51d3c386acd412e22c188dec"), "dim0" : 570859 }
> db.uniques.ensureIndex({dim0: 1})
> db.uniques.stats()
{
        "ns" : "test.uniques",
        "count" : 10000000,
        "size" : 360000052,
        "avgObjSize" : 36.0000052,
        "storageSize" : 582864896,
        "numExtents" : 18,
        "nindexes" : 2,
        "lastExtentSize" : 153874432,
        "paddingFactor" : 1,
        "systemFlags" : 1,
        "userFlags" : 0,
        "totalIndexSize" : 576040080,
        "indexSizes" : {
                "_id_" : 324456384,
                "dim0_1" : 251583696
        },
        "ok" : 1
}

这里我们想要得到文档中唯一值的计数，可以通过下面的MR任务来轻松完成：

> db.runCommand(
{ mapreduce: "uniques",
map: function () { emit(this.dim0, 1); },
reduce: function (key, values) { return Array.sum(values); },
out: "mrout" })
{
        "result" : "mrout",
        "timeMillis" : 1161960,
        "counts" : {
                "input" : 10000000,
                "emit" : 10000000,
                "reduce" : 1059138,
                "output" : 999961
        },
        "ok" : 1
}

正如你看到的，输出结果大约需要1200秒（在EC2 M3实例上测试），共输出了1千万maps、100万reduces、999961个文档。结果类似于：

> db.mrout.find()
{ "_id" : 1, "value" : 10 }
{ "_id" : 2, "value" : 5 }
{ "_id" : 3, "value" : 6 }
{ "_id" : 4, "value" : 10 }
{ "_id" : 5, "value" : 9 }
{ "_id" : 6, "value" : 12 }
{ "_id" : 7, "value" : 5 }
{ "_id" : 8, "value" : 16 }
{ "_id" : 9, "value" : 10 }
{ "_id" : 10, "value" : 13 }
...

下面就来看看如何进行优化。

使用排序

我在之前的这篇文章中简要说明了使用排序对于MR的好处，这是一个鲜为人知的特性。在这种情况下，如果处理未排序的输入，意味着MR引擎将得到随机排序的值，基本上没有机会在RAM中进行reduce，相反，它将不得不通过一个临时collection来将数据写回磁盘，然后按顺序读取并进行reduce。

下面来看看如果使用排序，会有什么帮助：

> db.runCommand(
{ mapreduce: "uniques",
map: function () { emit(this.dim0, 1); },
reduce: function (key, values) { return Array.sum(values); },
out: "mrout",
sort: {dim0: 1} })
{
        "result" : "mrout",
        "timeMillis" : 192589,
        "counts" : {
                "input" : 10000000,
                "emit" : 10000000,
                "reduce" : 1000372,
                "output" : 999961
        },
        "ok" : 1
}

现在时间降到了192秒，速度提升了6倍。其实reduces的数量是差不多的，但是它们在被写入磁盘之前已经在RAM中完成了。

使用多线程

在MongoDB中，一个单一的MR任务并不能使用多线程——只有在多个任务中才能使用多线程。但是目前的多核CPU非常有利于在单一服务器上进行并行化工作，就像Hadoop。我们需要做的是，将输入数据分割成若干块，并为每个块分配一个MR任务。splitVector命令可以帮助你非常迅速地找到分割点，如果你有更简单的分割方法更好。

> db.runCommand({splitVector: "test.uniques", keyPattern: {dim0: 1}, maxChunkSizeBytes: 32000000})
{
    "timeMillis" : 6006,
    "splitKeys" : [
        {
            "dim0" : 18171
        },
        {
            "dim0" : 36378
        },
        {
            "dim0" : 54528
        },
        {
            "dim0" : 72717
        },
…
        {
            "dim0" : 963598
        },
        {
            "dim0" : 981805
        }
    ],
    "ok" : 1
}

从1千万文档中找出分割点，使用splitVector命令只需要大约5秒，这已经相当快了。所以，下面我们需要做的是找到一种方式来创建多个MR任务。从应用服务器方面来说，使用多线程和$gt / $lt查询命令会非常方便。从shell方面来说，可以使用ScopedThread对象，它的工作原理如下：

> var t = new ScopedThread(mapred, 963598, 981805)
> t.start()
> t.join()

现在我们可以放入一些JS代码，这些代码可以产生4个线程，下面来等待结果显示：

> var res = db.runCommand({splitVector: "test.uniques", keyPattern: {dim0: 1}, maxChunkSizeBytes: 32 *1024 * 1024 })
> var keys = res.splitKeys
> keys.length
39
> var mapred = function(min, max) {
return db.runCommand({ mapreduce: "uniques",
map: function () { emit(this.dim0, 1); },
reduce: function (key, values) { return Array.sum(values); },
out: "mrout" + min,
sort: {dim0: 1},
query: { dim0: { $gte: min, $lt: max } } }) }
> var numThreads = 4
> var inc = Math.floor(keys.length / numThreads) + 1
> threads = []; for (var i = 0; i < numThreads; ++i) { var min = (i == 0) ? 0 : keys[i * inc].dim0; var max = (i * inc + inc >= keys.length) ? MaxKey : keys[i * inc + inc].dim0 ; print("min:" + min + " max:" + max); var t = new ScopedThread(mapred, min, max); threads.push(t); t.start() }
min:0 max:274736
min:274736 max:524997
min:524997 max:775025
min:775025 max:{ "$maxKey" : 1 }
connecting to: test
connecting to: test
connecting to: test
connecting to: test
> for (var i in threads) { var t = threads[i]; t.join(); printjson(t.returnData()); }
{
        "result" : "mrout0",
        "timeMillis" : 205790,
        "counts" : {
                "input" : 2750002,
                "emit" : 2750002,
                "reduce" : 274828,
                "output" : 274723
        },
        "ok" : 1
}
{
        "result" : "mrout274736",
        "timeMillis" : 189868,
        "counts" : {
                "input" : 2500013,
                "emit" : 2500013,
                "reduce" : 250364,
                "output" : 250255
        },
        "ok" : 1
}
{
        "result" : "mrout524997",
        "timeMillis" : 191449,
        "counts" : {
                "input" : 2500014,
                "emit" : 2500014,
                "reduce" : 250120,
                "output" : 250019
        },
        "ok" : 1
}
{
        "result" : "mrout775025",
        "timeMillis" : 184945,
        "counts" : {
                "input" : 2249971,
                "emit" : 2249971,
                "reduce" : 225057,
                "output" : 224964
        },
        "ok" : 1
}

第1个线程所做的工作比其他的要多一点，但时间仍达到了190秒，这意味着多线程并没有比单线程快！

使用多个数据库

这里的问题是，线程之间存在太多锁争用。当锁时，MR不是非常无私（每1000次读取会进行yield）。由于MR任务做了大量写操作，线程之间结束时会等待彼此。由于MongoDB的每个数据库都有独立的锁，那么让我们来尝试为每个线程使用不同的输出数据库：

> var mapred = function(min, max) {
return db.runCommand({ mapreduce: "uniques",
map: function () { emit(this.dim0, 1); },
reduce: function (key, values) { return Array.sum(values); },
out: { replace: "mrout" + min, db: "mrdb" + min },
sort: {dim0: 1},
query: { dim0: { $gte: min, $lt: max } } }) }
> threads = []; for (var i = 0; i < numThreads; ++i) { var min = (i == 0) ? 0 : keys[i * inc].dim0; var max = (i * inc + inc >= keys.length) ? MaxKey : keys[i * inc + inc].dim0 ; print("min:" + min + " max:" + max); var t = new ScopedThread(mapred, min, max); threads.push(t); t.start() }
min:0 max:274736
min:274736 max:524997
min:524997 max:775025
min:775025 max:{ "$maxKey" : 1 }
connecting to: test
connecting to: test
connecting to: test
connecting to: test
> for (var i in threads) { var t = threads[i]; t.join(); printjson(t.returnData()); }
...
{
        "result" : {
                "db" : "mrdb274736",
                "collection" : "mrout274736"
        },
        "timeMillis" : 105821,
        "counts" : {
                "input" : 2500013,
                "emit" : 2500013,
                "reduce" : 250364,
                "output" : 250255
        },
        "ok" : 1
}
...

所需时间减少到了100秒，这意味着与一个单独的线程相比，速度约提高2倍。尽管不如预期，但已经很不错了。在这里，我使用了4个核心，只提升了2倍，如果使用8核CPU，大约会提升4倍。

使用纯JavaScript模式

在线程之间分割输入数据时，有一些非常有趣的东西：每个线程只拥有约25万主键来输出，而不是100万。这意味着我们可以使用“纯JS模式”——通过jsMode:true来启用。开启后，MongoDB不会在JS和BSON之间反复转换，相反，它会从内部的一个50万主键的JS字典来reduces所有对象。下面来看看该操作是否对速度提升有帮助。

> var mapred = function(min, max) {
return db.runCommand({ mapreduce: "uniques",
map: function () { emit(this.dim0, 1); },
reduce: function (key, values) { return Array.sum(values); },
out: { replace: "mrout" + min, db: "mrdb" + min },
sort: {dim0: 1},
query: { dim0: { $gte: min, $lt: max } },
jsMode: true }) }
> threads = []; for (var i = 0; i < numThreads; ++i) { var min = (i == 0) ? 0 : keys[i * inc].dim0; var max = (i * inc + inc >= keys.length) ? MaxKey : keys[i * inc + inc].dim0 ; print("min:" + min + " max:" + max); var t = new ScopedThread(mapred, min, max); threads.push(t); t.start() }
min:0 max:274736
min:274736 max:524997
min:524997 max:775025
min:775025 max:{ "$maxKey" : 1 }
connecting to: test
connecting to: test
connecting to: test
connecting to: test
> for (var i in threads) { var t = threads[i]; t.join(); printjson(t.returnData()); }
...
{
        "result" : {
                "db" : "mrdb274736",
                "collection" : "mrout274736"
        },
        "timeMillis" : 70507,
        "counts" : {
                "input" : 2500013,
                "emit" : 2500013,
                "reduce" : 250156,
                "output" : 250255
        },
        "ok" : 1
}
...

现在时间降低到70秒。看来jsMode确实有帮助，尤其是当对象有很多字段时。该示例中是一个单一的数字字段，不过仍然提升了30%。

MongoDB v2.6版本中的改进

在MongoDB v2.6版本的开发中，移除了一段关于在JS函数调用时的一个可选“args”参数的代码。该参数是不标准的，也不建议使用，它由于历史原因遗留了下来（见SERVER-4654）。让我们从Git库中pull最新的MongoDB并编译，然后再次运行测试用例：

...
{
        "result" : {
                "db" : "mrdb274736",
                "collection" : "mrout274736"
        },
        "timeMillis" : 62785,
        "counts" : {
                "input" : 2500013,
                "emit" : 2500013,
                "reduce" : 250156,
                "output" : 250255
        },
        "ok" : 1
}
...

从结果来看，时间降低到了60秒，速度大约提升了10-15％。同时，这种更改也改善了JS引擎的整体堆消耗量。

结论

回头来看，对于同样的MR任务，与最开始时的1200秒相比，速度已经提升了20倍。这种优化应该适用于大多数情况，即使一些技巧效果不那么理想（比如使用多个输出dbs /集合）。但是这些技巧可以帮助人们来提升MR任务的速度，未来这些特性也许会更加易用——比如，这个ticket 将会使splitVector命令更加可用，这个ticket将会改进同一数据库中的多个MR任务。

英文原文：How to speed up MongoDB Map Reduce by 20x

分享到：

13
顶

8
踩

评论共 3 条请登录后发表评论

3 楼 lord_is_layuping 2013-08-14 14:25

2 楼 kenshinyelin 2013-07-09 16:33

果断收藏

1 楼 youjianbo_han_87 2013-07-09 13:16

牛叉。

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

MongoDB MapReduce速度提升20倍的优化宝典

自从MongoDB被越来越多的大型关键项目采用后，数据分析也成为了越来越重要的话题。人们似乎已经厌倦了使用不同的软件来进行分析（这都利用到了Hadoop），因为这些方法往往需要大规模的数据传输，而这些成本相当昂贵...

MongoDB Map Reduce速度提升20倍的优化宝典

面试宝典之MongoDB

什么是MongoDB MongoDB是一款由C++编写的跨平台、面向文档的非关系型数据库。是非关系型数据库当中功能最丰富、最向关系型数据库的产品。他支持的数据结构非常松散，是类似JSON的BSON格式，可以存储比较复杂的的...

PHP 十年程序员面试宝典

Nginx 是一个开源的” 高性能代理服务器 (可以处理数千个并发且迅速响应)”，采用异步非阻塞的事件驱动模型实现了高可用（高性能、低消耗、可靠稳定）。常用于 Web 服务器、负载均衡、反向代理以及静态资源缓存等。...

MongoDB管理与开发精要

MongoDB管理与开发精要 ...　最初，本书的部分初稿在几大IT技术社区“疯传”，被社区网友视为学习MongoDB的“宝典”。由于受到社区网友的热捧，在初稿的基础上，作者对本书内容进行了系统化的补充，使原...

西门子S7-200SMART与V20变频器基于Modbus通讯的稳定控制及应用

内容概要：本文详细介绍了西门子S7-200SMART PLC与V20变频器通过Modbus RTU协议进行通信的具体方法和技术要点。首先阐述了硬件连接方式，强调了正确的接线和参数设置对于稳定通信的重要性。接着深入讲解了PLC程序的设计，包括Modbus主站初始化、启停控制、频率设定以及断电自恢复等功能模块的实现。此外还分享了一些实用的经验技巧，如避免通讯冲突、处理浮点数转换等问题。最后提到该方案已在实际生产环境中成功应用，表现出良好的稳定性和可靠性。适合人群：从事自动化控制系统集成的技术人员，特别是熟悉西门子PLC和变频器产品的工程师。使用场景及目标：适用于需要将旧型号PLC与变频器进行高效集成的企业，在不影响原有设备的基础上提升系统的智能化水平，减少人工干预，提高生产效率。其他说明：文中提供了大量具体的编程实例和参数配置指南，有助于读者快速掌握相关技能并应用于实际工作中。同时提醒读者注意一些常见的错误及其解决方案，帮助规避潜在的风险。

西门子PLC电机控制程序：封装好的功能块助力高效工业自动化

内容概要：本文详细介绍了西门子PLC中用于电机控制的封装功能块，涵盖正转、反转、变频控制等多种功能。通过简化底层代码，提高编程效率和系统可靠性。文章展示了如何使用功能块实现正转、反转、变频控制、模拟量处理、故障处理等功能，并结合用户自定义数据类型（UDT）和多重背景技术，实现对大量电机的高效管理。此外，还提供了具体的代码示例，帮助读者更好地理解和应用这些功能块。适合人群：从事工业自动化领域的工程师和技术人员，尤其是那些需要频繁处理电机控制任务的人群。使用场景及目标：适用于需要简化电机控制编程、提高系统可靠性和可维护性的工业环境。主要目标是减少重复编码的工作量，提升开发效率，确保系统稳定运行。其他说明：文中提供的代码示例和方法不仅有助于初学者快速入门，也为有经验的工程师提供了优化现有系统的思路。通过使用这些功能块，可以在短时间内完成复杂电机控制系统的搭建和调试。

腐败感知指数（CPI）数据和各种治理指标数据集

全球腐败感知数据（2000-2023）——3000行 33个指标关于数据集该数据集包含3000行和33列，涵盖了2000年至2023年的腐败感知指数（CPI）数据和各种治理指标。它包括国家排名、分数和其他指标，如公共部门腐败、司法腐败、贿赂指数、商业道德、民主指数、法治、政府效率、经济指标和人类发展指数。这些数据可用于：腐败趋势分析腐败对GDP、人类发展指数和治理的影响跨国比较数据可视化和机器学习模型该数据集对研究人员、数据分析师、政策制定者和对研究全球腐败趋势非常有用。

朔州市-平鲁区-街道行政区划_140603_Shp数据-wgs84坐标系.rar

街道级行政区划shp矢量数据，wgs84坐标系，下载直接使用

脑机接口基于贝叶斯优化的FBCCA参数自动调优系统设计与实现：EEG数据处理及优化流程详解

内容概要：本文档详细介绍了将贝叶斯优化应用于FBCCA（滤波器组公共空间模式）参数调整的完整解决方案，包括代码实现和优化流程。首先，通过MNE库加载并预处理EEG数据，进行7-30Hz的预滤波处理，提取相关事件片段。接着，定义了FBCABayesianOptimizer类，该类包含创建动态滤波器组、获取模型参数以及定义优化目标函数的方法。其中，参数空间由离散和连续参数组成，涵盖了滤波器数量、CSP组件数、起始频率、带宽、交叠率等，并通过Optuna库进行多维搜索。优化过程中采用5折交叉验证机制，同时引入智能早停策略以提高效率。最后，提供了优化结果的可视化工具，如优化轨迹图、参数重要性图和滤波器组配置图，帮助用户更好地理解和分析优化过程。适合人群：具有一定编程基础，尤其是对机器学习、脑电数据分析及贝叶斯优化感兴趣的科研人员和技术开发者。使用场景及目标：①通过动态滤波器组生成算法，捕捉频段间的过渡特征；②利用混合参数空间设计，探索不同参数组合的效果；③借助高效交叉验证机制和智能早停策略，提高优化效率；④通过可视化工具，直观展示优化过程和结果。阅读建议：此资源不仅展示了完整的代码实现，还深入探讨了FBCCA参数调整的理论基础和实际应用。建议读者在学习过程中结合理论知识与代码实践，逐步理解每个步骤的原理，并尝试调整参数以观察不同设置对优化效果的影响。同时，可根据自身硬件条件，考虑扩展建议中的GPU加速、分布式优化和在线学习等高级特性。

临汾市-古县-街道行政区划_141025_Shp数据-wgs84坐标系.rar

街道级行政区划shp矢量数据，wgs84坐标系，下载直接使用

邯郸市-成安县--街道行政区划_130424_Shp-wgs84坐标系.rar

街道级行政区划shp数据，wgs84坐标系，直接使用。

临汾市-大宁县-街道行政区划_141030_Shp数据-wgs84坐标系.rar

街道级行政区划shp矢量数据，wgs84坐标系，下载直接使用

石家庄市-石家庄市-石家庄市-灵寿县-街道行政区划_130126_Shp数据wgs84坐标系.rar

街道级行政区划shp数据，wgs84坐标系，直接下载使用。

【预编码】基于matlab大规模多用户MIMO系统低复杂度混合预编码（Rayleigh信道）【含Matlab源码 13197期】.zip

Matlab领域上传的视频是由对应的完整代码运行得来的，完整代码皆可运行，亲测可用，适合小白； 1、从视频里可见完整代码的内容主函数：main.m；调用函数：其他m文件；无需运行运行结果效果图； 2、代码运行版本 Matlab 2019b；若运行有误，根据提示修改；若不会，私信博主； 3、运行操作步骤步骤一：将所有文件放到Matlab的当前文件夹中；步骤二：双击打开main.m文件；步骤三：点击运行，等程序运行完得到结果； 4、仿真咨询如需其他服务，可私信博主； 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作

临汾市-安泽县-街道行政区划_141026_Shp数据-wgs84坐标系.rar

街道级行政区划shp矢量数据，wgs84坐标系，下载直接使用

电子信息工程专业毕业论文模板_基于FPGA的CRC编码器设计.pdf

鄂尔多斯市-达拉特旗-街道行政区划_150621_Shp数据-wgs84坐标系.rar

13顶8踩