`

Mongodb如何重复利用空间和usePowerOf2Size标识

 
阅读更多

前一段时间使用repair命令修复线上的数据库,发现数据库中碎片巨大,占用200多G的数据在repair之后只有50多G,然后就研究了一下Mongodb是如何利用已经删除了的空间的。
    分析下源码(源码版本2.2.2,新版本可能随时更新):
    Mongodb在执行删除(文档)操作时,并不会进行物理删除,而是将他们放入每个命名空间维护的删除列表里。

  1. //pdfile.cpp delete()
  2.        /* add to the free list */
  3.         {
  4.                 ....
  5.                 d->addDeletedRec((DeletedRecord*)todelete, dl);
  6.             }
  7.         }
  8. //namespace_detail.cpp addDeletedRec(..)
  9.        ....
  10.        else {
  11.             int b = bucket(d->lengthWithHeaders());
  12.             DiskLoc& list = deletedList[b];
  13.             DiskLoc oldHead = list;
  14.             getDur().writingDiskLoc(list) = dloc;
  15.             d->nextDeleted() = oldHead;
  16.         }


上面的deletedList就是维护的删除数据列表。

点击(此处)折叠或打开

  1. //namespace_detail.h
  2.  /* deleted lists -- linked lists of deleted records -- are placed in 'buckets' of various sizes so you can look for a deleterecord about the rightsize.
  3.  */
  4.     const int Buckets = 19;
  5.     const int MaxBucket = 18;
  6.     DiskLoc deletedList[Buckets];
  7.     int bucketSizes[] = { 32, 64, 128, 256, 0x200, 0x400, 0x800, 0x1000, 0x2000, 0x4000, 0x8000, 0x10000, 0x20000, 0x40000, 0x80000, 0x100000, 0x200000,0x400000, 0x800000};

       可以看到,deleteList数组实际保存的是DiskLoc,长度19,跟bucketSizes[]的长度一致。DiskLoc就是文档在磁盘上的位置,并且有后指针,可以指向下一个DiskLoc,从而组成一个列表。deleteList中实际就保存了19个列表,每个列表就是已经被删除文档地址,且这些文档都在bucketSizes所规定的的范围内。描述不太清楚,上图吧:




    插入文档时,Mongodb会先计算需要开辟多大的空间,然后去找deleteList中的位置,如果deleteList中不满足,那么才会去开辟新的空间。


点击(此处)折叠或打开

  1. //pdfile.cpp
  2. int lenWHdr = d->getRecordAllocationSize( len + Record::HeaderSize );
  3. DiskLoc loc;
  4.         if( addID || tableToIndex || d->isCapped() ) {
  5.             // if need id, we don'do the early indexing. this is not the common case so that is sort of ok
  6.             earlyIndex = false;
  7.             loc = allocateSpaceForANewRecord(ns, d, lenWHdr, god);
  8.         }
  9.         else {
  10.             loc = d->allocWillBeAt(ns, lenWHdr);
  11.             if( loc.isNull() ) {
  12.                 // need to get a new extent so we have to do the true alloc now (not common case)
  13.                 earlyIndex = false;
  14.                 loc = allocateSpaceForANewRecord(ns, d, lenWHdr, god);
  15.             }
  16.         }


我们暂时不讨论cappedCollection(固定大小的集合),只看常规集合


点击(此处)折叠或打开

  1. /* predetermine location of the next alloc without actually doing it. 
  2.         if cannot predetermine returns null (so still call alloc() then)
  3.     */
  4.     DiskLoc NamespaceDetails::allocWillBeAt(const char *ns, int lenToAlloc) {
  5.         if ( ! isCapped() ) {
  6.             lenToAlloc = (lenToAlloc + 3) & 0xfffffffc;
  7.             return __stdAlloc(lenToAlloc, true);
  8.         }
  9.         return DiskLoc();
  10.     }
  11.  /* for non-capped collections.
  12.        @param peekOnly just look up where and don't reserve
  13.        returned item is out of the deleted list upon return
  14.     */
  15.     DiskLoc NamespaceDetails::__stdAlloc(int len, bool peekOnly) {
  16.         DiskLoc *prev;
  17.         DiskLoc *bestprev = 0;
  18.         DiskLoc bestmatch;
  19.         int bestmatchlen = 0x7fffffff;
  20.         int b = bucket(len);
  21.         DiskLoc cur = deletedList[b];
  22.         prev = &deletedList[b];
  23.         int extra = 5; // look for a better fit, a little.
  24.         int chain = 0;
  25.         while ( 1 ) {
  26.             {
  27.                 int a = cur.a();
  28.                 if ( a < -|| a >= 100000 ) {
  29.                     problem() << "~~ Assertion - cur out of range in _alloc() " << 
  30. cur.toString() <<
  31.                               " a:" << a << " b:" << b << " chain:" << chain << '\n';
  32.                     logContext();
  33.                     if ( cur == *prev )
  34.                         prev->Null();
  35.                     cur.Null();
  36.                 }
  37.             }
  38.             if ( cur.isNull() ) {
  39.                 // move to next bucket. if we were doing "extra", just break
  40.                 if ( bestmatchlen < 0x7fffffff )
  41.                     break;
  42.                 b++;
  43.                 if ( b > MaxBucket ) {
  44.                     // out of space. alloc a new extent.
  45.                     return DiskLoc();
  46.                 }
  47.                 cur = deletedList[b];
  48.                 prev = &deletedList[b];
  49.                 continue;
  50.             }
  51.             DeletedRecord *= cur.drec();
  52.             if ( r->lengthWithHeaders() >= len &&
  53.                  r->lengthWithHeaders() < bestmatchlen ) {
  54.                 bestmatchlen = r->lengthWithHeaders();
  55.                 bestmatch = cur;
  56.                 bestprev = prev;
  57.             }
  58.             if ( bestmatchlen < 0x7fffffff && --extra <= 0 )
  59.                 break;
  60.             if ( ++chain > 30 && b < MaxBucket ) {
  61.                 // too slow, force move to next bucket to grab a big chunk
  62.                 //b++;
  63.                 chain = 0;
  64.                 cur.Null();
  65.             }
  66.             else {
  67.                 /*this defensive check only made sense for the mmap storage engine:
  68.                   if ( r->nextDeleted.getOfs() == 0 ) {
  69.                     problem() << "~~ Assertion - bad nextDeleted " << r->nextDeleted.toString() 
  70. <<
  71.                     " b:" << b << " chain:" << chain << ", fixing.\n";
  72.                     r->nextDeleted.Null();
  73.                 }*/
  74.                 cur = r->nextDeleted();
  75.                 prev = &r->nextDeleted();
  76.             }
  77.         }
  78.         /* unlink ourself from the deleted list */
  79.         if( !peekOnly ) {
  80.             DeletedRecord *bmr = bestmatch.drec();
  81.             *getDur().writing(bestprev) = bmr->nextDeleted();
  82.             bmr->nextDeleted().writing().setInvalid(); // defensive.
  83.             verify(bmr->extentOfs() < bestmatch.getOfs());
  84.         }
  85.         return bestmatch;
  86.     }


上面这段就是Mongodb在deleteList中寻找合适插入位置的算法.


  1. int b = bucket(len);
  2. DiskLoc cur = deletedList[b];


      这是最初始的寻找位置的算法,解释一下,bucket函数就是寻找跟len(插入文档的大小)最接近的bucketSize,比如说len=68,那么应该在64-128这个范围内,在deleteList中应该是第3个列表,那么b=2,cur就是返回的第三个列表的起始位置。如果找到了,那么就是用列表中的值,如果找不到,就继续往下一个列表中寻找。找到之后,将找到的位置从deleteList中删除,返回。

     如果所有的列表都遍历完成还是找不到,那么mongodb就会去硬盘上真的开辟一段空间。我们上面说过Mongodb会先计算需要开辟的空间大小,有两种方式
     1、doc's length + padding(点击查看
     2、usePowerOf2Size(点击查看

  1. //namespace_detail.cpp
  2. int NamespaceDetails::getRecordAllocationSize( int minRecordSize ) {
  3.         if ( _paddingFactor == 0 ) {
  4.             warning() << "implicit updgrade of paddingFactor of very old collection" << endl;
  5.             setPaddingFactor(1.0);
  6.         }
  7.         verify( _paddingFactor >= 1 );
  8.         if ( isUserFlagSet( Flag_UsePowerOf2Sizes ) ) {
  9.             int allocationSize = bucketSizes[ bucket( minRecordSize ) ];
  10.             if ( allocationSize < minRecordSize ) {
  11.                 // if we get here, it means we're allocating more than 8mb
  12.                 // the highest bucket is 8mb, so the above code will never return more than 8mb for allocationSize
  13.                 // if this happens, we are going to round up to the nearest megabyte
  14.                 fassert( 16439, bucket( minRecordSize ) == MaxBucket );
  15.                 allocationSize = 1 + ( minRecordSize | ( ( 1 << 20 ) - 1 ) );
  16.             }
  17.             return allocationSize;
  18.         }
  19.         return static_cast<int>(minRecordSize * _paddingFactor);
  20.     }


          第一种padding方式,Mongodb会计算一个_paddingFactor,开辟doclen*(1+paddingFactor)大小,以防止update引起的长度变大,需要移动数据。第二种方式usePowerOf2Size,Mongodb为文档开辟的空间总是2的倍数,如之前我们说过的,文档大小68字节,那么就会开辟128字节,bucket函数就是从bucketSize数组中寻找最接近文档长度的那个2的次方值。

点击(此处)折叠或打开

  1. //namespace_detail.cpp
  2.  int bucketSizes[] = {
  3.         32, 64, 128, 256, 0x200, 0x400, 0x800, 0x1000, 0x2000, 0x4000,
  4.         0x8000, 0x10000, 0x20000, 0x40000, 0x80000, 0x100000, 0x200000,
  5.         0x400000, 0x800000
  6.     };


     这两种方式各有优劣,padding方式会为文档开辟更合适的大小,而且paddingFactor比较小,一般为0.01-0.09,不会浪费空间,文档更新小的话也不会移动文档位置。但是当大量更新和删除的时候,这种方式重复利用空间的能力就比较小,因为在deleteList中,不太容易找到合适的已删除文档,而且一旦更新就会又移动位置,磁盘重复利用率低,增长快,碎片多。相比之下,usePowerOf2Size方式,Mongodb每次都会开辟比文档大的多的空间,使用空间变多,但是更新和删除的容错率就会比较高,因为在deleteList列表中更容易找到合适的删除文档(每个列表中的文档大小都是相同的固定的),更新的时候也不会大量移动位置,磁盘重复利用率高,增长慢。


所以,在读操作较多的应用中,可以使用padding方式,也是mongodb默认的方式,在写操作较多的应用中,可以使用usePowerOf2Size方式。
usePowerOf2Size是在创建集合的时候指定的
db.runCommand( {collMod: "products", usePowerOf2Sizes : true }) //enable
db.runCommand( {collMod: "products", usePowerOf2Sizes : false })//disable
usePowerOf2Size只影响新插入和更新引起的分配空间大小,对之前的文档不起作用。

分享到:
评论

相关推荐

    YOLO算法-城市电杆数据集-496张图像带标签-电杆.zip

    YOLO系列算法目标检测数据集,包含标签,可以直接训练模型和验证测试,数据集已经划分好,包含数据集配置文件data.yaml,适用yolov5,yolov8,yolov9,yolov7,yolov10,yolo11算法; 包含两种标签格:yolo格式(txt文件)和voc格式(xml文件),分别保存在两个文件夹中,文件名末尾是部分类别名称; yolo格式:<class> <x_center> <y_center> <width> <height>, 其中: <class> 是目标的类别索引(从0开始)。 <x_center> 和 <y_center> 是目标框中心点的x和y坐标,这些坐标是相对于图像宽度和高度的比例值,范围在0到1之间。 <width> 和 <height> 是目标框的宽度和高度,也是相对于图像宽度和高度的比例值; 【注】可以下拉页面,在资源详情处查看标签具体内容;

    (177406840)JAVA图书管理系统毕业设计(源代码+论文).rar

    JAVA图书管理系统毕业设计(源代码+论文) JAVA图书管理系统毕业设计(源代码+论文) JAVA图书管理系统毕业设计(源代码+论文) JAVA图书管理系统毕业设计(源代码+论文) JAVA图书管理系统毕业设计(源代码+论文) JAVA图书管理系统毕业设计(源代码+论文) JAVA图书管理系统毕业设计(源代码+论文) JAVA图书管理系统毕业设计(源代码+论文) JAVA图书管理系统毕业设计(源代码+论文) JAVA图书管理系统毕业设计(源代码+论文) JAVA图书管理系统毕业设计(源代码+论文) JAVA图书管理系统毕业设计(源代码+论文) JAVA图书管理系统毕业设计(源代码+论文) JAVA图书管理系统毕业设计(源代码+论文) JAVA图书管理系统毕业设计(源代码+论文) JAVA图书管理系统毕业设计(源代码+论文) JAVA图书管理系统毕业设计(源代码+论文) JAVA图书管理系统毕业设计(源代码+论文) JAVA图书管理系统毕业设计(源代码+论文) JAVA图书管理系统毕业设计(源代码+论文) JAVA图书管理系统毕业设计(源代码+论文) JAVA图书管理系统毕业设计(源代

    (35734838)信号与系统实验一实验报告

    内容来源于网络分享,如有侵权请联系我删除。另外如果没有积分的同学需要下载,请私信我。

    YOLO算法-椅子检测故障数据集-300张图像带标签.zip

    YOLO系列算法目标检测数据集,包含标签,可以直接训练模型和验证测试,数据集已经划分好,包含数据集配置文件data.yaml,适用yolov5,yolov8,yolov9,yolov7,yolov10,yolo11算法; 包含两种标签格:yolo格式(txt文件)和voc格式(xml文件),分别保存在两个文件夹中,文件名末尾是部分类别名称; yolo格式:<class> <x_center> <y_center> <width> <height>, 其中: <class> 是目标的类别索引(从0开始)。 <x_center> 和 <y_center> 是目标框中心点的x和y坐标,这些坐标是相对于图像宽度和高度的比例值,范围在0到1之间。 <width> 和 <height> 是目标框的宽度和高度,也是相对于图像宽度和高度的比例值; 【注】可以下拉页面,在资源详情处查看标签具体内容;

    基于小程序的新冠抗原自测平台小程序源代码(java+小程序+mysql+LW).zip

    系统可以提供信息显示和相应服务,其管理新冠抗原自测平台小程序信息,查看新冠抗原自测平台小程序信息,管理新冠抗原自测平台小程序。 项目包含完整前后端源码和数据库文件 环境说明: 开发语言:Java JDK版本:JDK1.8 数据库:mysql 5.7 数据库工具:Navicat11 开发软件:eclipse/idea Maven包:Maven3.3 部署容器:tomcat7 小程序开发工具:hbuildx/微信开发者工具

    YOLO算法-俯视视角草原绵羊检测数据集-4133张图像带标签-羊.zip

    YOLO系列算法目标检测数据集,包含标签,可以直接训练模型和验证测试,数据集已经划分好,包含数据集配置文件data.yaml,适用yolov5,yolov8,yolov9,yolov7,yolov10,yolo11算法; 包含两种标签格:yolo格式(txt文件)和voc格式(xml文件),分别保存在两个文件夹中,文件名末尾是部分类别名称; yolo格式:<class> <x_center> <y_center> <width> <height>, 其中: <class> 是目标的类别索引(从0开始)。 <x_center> 和 <y_center> 是目标框中心点的x和y坐标,这些坐标是相对于图像宽度和高度的比例值,范围在0到1之间。 <width> 和 <height> 是目标框的宽度和高度,也是相对于图像宽度和高度的比例值; 【注】可以下拉页面,在资源详情处查看标签具体内容;

    (171674830)PYQT5+openCV项目实战:微循环仪图片、视频记录和人工对比软件源码

    内容来源于网络分享,如有侵权请联系我删除。另外如果没有积分的同学需要下载,请私信我。

    新建 文本文档.docx

    新建 文本文档.docx

    hw06.zip

    hw06

    3. Kafka入门-安装与基本命令

    3. Kafka入门-安装与基本命令

    燃气管道施工资质和特种设备安装改造维修委托函.docx

    燃气管道施工资质和特种设备安装改造维修委托函.docx

    The state of AI 2024.pdf

    AI大模型研究相关报告

    lab02.zip

    lab02

    Unity视频插件AVPro的Win端2.2.3

    仅供学习使用,其他用途请购买正版资源AVPro Video Core Windows Edition 2.2.3 亲测可用的视频播放插件,能丝滑播放透明视频等.

    建设工程消防验收现场指导意见表.docx

    建设工程消防验收现场指导意见表.docx

    MVIMG_20241222_194113.jpg

    MVIMG_20241222_194113.jpg

    五相电机双闭环矢量控制模型-采用邻近四矢量SVPWM-MATLAB-Simulink仿真模型包括: (1)原理说明文档(重要):包括扇区判断、矢量作用时间计算、矢量作用顺序及切时间计算、PWM波的生成

    五相电机双闭环矢量控制模型_采用邻近四矢量SVPWM_MATLAB_Simulink仿真模型包括: (1)原理说明文档(重要):包括扇区判断、矢量作用时间计算、矢量作用顺序及切时间计算、PWM波的生成; (2)输出部分仿真波形及仿真说明文档; (3)完整版仿真模型:包括邻近四矢量SVPWM模型和完整双闭环矢量控制Simulink模型; 资料介绍过程十分详细,零基础手把手教学,资料已经写的很清楚

    YOLO算法-锡罐-牙罐-盖子打开数据集-179张图像带标签-锡罐-牙罐-盖子打开.zip

    YOLO系列算法目标检测数据集,包含标签,可以直接训练模型和验证测试,数据集已经划分好,包含数据集配置文件data.yaml,适用yolov5,yolov8,yolov9,yolov7,yolov10,yolo11算法; 包含两种标签格:yolo格式(txt文件)和voc格式(xml文件),分别保存在两个文件夹中,文件名末尾是部分类别名称; yolo格式:<class> <x_center> <y_center> <width> <height>, 其中: <class> 是目标的类别索引(从0开始)。 <x_center> 和 <y_center> 是目标框中心点的x和y坐标,这些坐标是相对于图像宽度和高度的比例值,范围在0到1之间。 <width> 和 <height> 是目标框的宽度和高度,也是相对于图像宽度和高度的比例值; 【注】可以下拉页面,在资源详情处查看标签具体内容;

    java毕设项目之ssm基于JSP的乡镇自来水收费系统+jsp(完整前后端+说明文档+mysql+lw).zip

    项目包含完整前后端源码和数据库文件 环境说明: 开发语言:Java 框架:ssm,mybatis JDK版本:JDK1.8 数据库:mysql 5.7 数据库工具:Navicat11 开发软件:eclipse/idea Maven包:Maven3.3 服务器:tomcat7

Global site tag (gtag.js) - Google Analytics