`

MongoDB实战优化

阅读更多

Mongodb是一个高性能,可扩展数据库,并具有低延迟,高吞吐率的性能。但是使用过程中难免会有所坑,下面将介绍一些优化方案。

以下建议翻译自 亚马逊的 《Performance Best Practices for MongoDB 2015
补充是自己在Mongodb实践中的总结
 
1、Mongodb引擎
Mongodb 3.0 支持了2种引擎:
A、默认的 MMAPv1 引擎,老版本一种使用
B、WiredTiger 引擎,新支持的db引擎
这两种引擎可以在一个副本集中共存,他们之前的迁移是很容易,也就是说,从 MMAPv1 老的引擎升级到新的 WiredTiger 引擎是不会破坏原有数据的。
这两种引擎是为不同的业务场景做的优化,下面的优化方案会提及支持的相关引擎。
 
2、硬件优化

2.1、确保足够的内存:

保证内存大于数据存储大小,优化内存是最显而易见的方案
补充:实践证明,尽量保证数据块大小不要超出系统内存的一半,性能最优
 
2.2、在高写入应用中,使用SSD硬盘
Mongodb的落盘操作是随机的,一般60s落盘,100ms写journal,所以使用SSD硬盘一般会有很显著的写入20-50倍的提升。
补充:当内存在合理范围内,更换SSD硬盘并不会显著提升写性能,关闭journal会提升一些性能,但是可能会带来数据丢失的风险
 
2.3、压缩存储和I/O密集型负载
新的存储引擎 WiredTiger 允许压缩存储,设置合理的压缩配置,可以防止压缩过大导致的I/O密集型的CPU负载过高的情况。
 
2.4、使用更快的CPU
这点毋容置疑,新的存储引擎WiredTiger可以比MMAPv1更好的利用多核。
 
2.5、尽量将Mongodb实例独享物理设备
这儿也不用多说,独享设备肯定是最好
 
2.6、使用多个mongos
当集群增加后,也要相应的增加mongos
 
3、应用层优化
3.1、只更新需要更新的字段:
不是更新所有的字段,而只是更新需要更新的改变过的字段,这样可以避免检索文档所有的字段,减少网络传输和数据库负载。
 
3.2、避免单一 非 条件的查询:
如果单一的非条件查询,会进行全表扫描,尽量避免它
 
3.3、在你的应用中,使用 explain() 测试你的每一条语句
执行计划explain()可以让你有很多意想不到的收获
 
3.4、覆盖索引的查询
这个无需多说了,查询的条件尽可能多的覆盖索引
 
3.5、避免不带片键查询
在集群中,如果不带片键查询,会去每片查询,避免这样的操作
 
3.6、读写分离
因为主库和从库的同步延迟,如果应用能容忍延迟,最好是从库读,主库写
 
3.7、使用最新的客户端连接库
mongodb一直在不断的更新,尽量使用官方提供的最新连接库
 
3.8、分片均匀
如果 mongodb 采用分片,片键的选择非常重要,又要能分片均匀,又要保证读写性能高,还要保证可扩展
 
3.9、选择合适的片键
同上
 
补充:
4.0、大量更新批量操作
实际经验,如果一个集合有大量的upate或insert操作,那么与其一个个操作的去连接,不如汇聚到1000-5000条左右,一次性批量写入,可以有效减少锁的竞争情况,性能有显著提高。
 
4、结构设计和索引
4.1、尽量把数据存成一个文档
在合适的时候把数据存储为一个文档,可以非常高效的利于查询,这样搜索的条数就很少,打开展平对于搜索是不利的,但是过重的一个文档可能也会带来写的问题。
 
4.2、避免过大文档
Mongodb一个文档最大为16MB,在实际情况中,很多文档都是小于几KB的,比如在文档里维护一个很大的列表,应该将列表打开,一行一条记录。
 
4.3、避免文档无限的增长
Mongodb为了节约存储空间,会以 usePowerOf2Sizes 来增长一个文档的存储空间,举个例子:
比 如:第一次插入这个文档,文档大小为1KB,这时Mongodb会以2KB来存储,在文档增长到2KB以内时,是不会移动文档和索引存储块的。当这个文档 增长到 2KB 后,Mongodb又会设置 4KB 来存储它,每次都是以2倍的量存储,保证了空间的利用和存储块移动之间的平衡。如果一个文档不停的无限增长,可能会因为频繁的移动存储块而影响性能。
补充:实际情况中设置usePowerOf2Sizes这个参数,并没有显著的性能提升
 
4.4、避免大的索引数组
多字段索引可能会利于查询,但是会让写操作变慢,所以要权衡一下。
 
4.5、避免过长的字段名
Mongodb的字段名和sql不同,会占用文档的空间,增加网络传输压力,尽量用短小精简的字段名,可以在程序那边做映射。
补充:实际情况,设置短小精简的字段名,可以显著提升查询性能
 
4.6、避免 select * 的查询
这点和sql一样,用不到的字段不要返回了
补充:实际情况也是如此,不查询不需要的字段,显著提升性能
 
4.7、优化索引
避免索引命中不散列,比如对一个枚举,布尔值做索引,都是无效的
 
4.8、组合索引可以包含单个索引
比如有一个组合索引 {"lastname":1, "firstname":1},是没必要建立 {"lastname":1} 这个索引的,因为已经被包括在了组合索引里了
 
4.9、避免正则表达式没有命中索引
这个类似sql的like,如果要命中索引,必须从头开始匹配
 
4.10、使用 wiredtiger 引擎,索引放其他地方存储
使用 wiredtiger 引擎,索引可以放在其他地方存储,比如更快的硬盘,资源争抢I/O更少的磁盘
 
5、磁盘I/O
5.1、readhead需要设置为32
为了mongodb的性能,readhead这个值不能设置少于32,如果设置过多会浪费内存。
 
5.2、使用EXT4或者XFS文件系统,避免EXT3
EXT3文件系统太过陈旧,没有对数据库进行优化,不够高效
 
5.3、关闭 access time 设置
关闭对文件最后一次访问的时间记录,因为database一直在访问文件,所以关闭它能够提升性能
 
5.4、不要使用大量的虚拟内存
将虚拟内存设置为合理大小,不要设置过大
 
5.5、使用Raid10
使用Raid10来做存储,性能和数据安全都有保证
 
6、性能配置
6.1、做好性能测试
在应用上线之前,需要做性能测试来评估
 
6.2、片键
如果没有范围的片键搜索,建议使用hash来使用片键,如果有范围的搜索,建议将他们提前处理,然后并行搜索获取。
 
6.3、关闭块自动平衡
关闭自动移动块平衡,提升性能
补充:实际情况中,这个设置没有显著提升性能,建议还是打开
 
6.4、预热系统几分钟
这个看上去没啥用
 
6.5、对系统瓶颈进行监控
这个也是必须的
 
 
分享到:
评论

相关推荐

    小程序毕业设计-基于微信小程序的影院选座系统+ssm(包括源码,数据库,教程).zip

    Java 毕业设计,小程序毕业设计,小程序课程设计,含有代码注释,新手也可看懂。毕业设计、期末大作业、课程设计、高分必看,下载下来,简单部署,就可以使用。 包含:项目源码、数据库脚本、软件工具等,该项目可以作为毕设、课程设计使用,前后端代码都在里面。 该系统功能完善、界面美观、操作简单、功能齐全、管理便捷,具有很高的实际应用价值。 项目都经过严格调试,确保可以运行!可以放心下载 1. 技术组成 前端: 小程序 后台框架:SSM/SpringBoot(如果有的话) 开发环境:idea,微信开发者工具 数据库:MySql(建议用 5.7 版本,8.0 有时候会有坑) 数据库可视化工具:使用 Navicat 部署环境:Tomcat(建议用 7.x 或者 8.x 版本),maven

    大二下算法作业,迷宫生成算法以及基于递归的求解,可以在blender中生成3D模型.zip

    大二下算法作业,迷宫生成算法以及基于递归的求解,可以在blender中生成3D模型.zip

    小程序毕业设计-基于微信小程序的在线视频教育系统+ssm(包括源码,数据库,教程).zip

    Java 毕业设计,小程序毕业设计,小程序课程设计,含有代码注释,新手也可看懂。毕业设计、期末大作业、课程设计、高分必看,下载下来,简单部署,就可以使用。 包含:项目源码、数据库脚本、软件工具等,该项目可以作为毕设、课程设计使用,前后端代码都在里面。 该系统功能完善、界面美观、操作简单、功能齐全、管理便捷,具有很高的实际应用价值。 项目都经过严格调试,确保可以运行!可以放心下载 1. 技术组成 前端: 小程序 后台框架:SSM/SpringBoot(如果有的话) 开发环境:idea,微信开发者工具 数据库:MySql(建议用 5.7 版本,8.0 有时候会有坑) 数据库可视化工具:使用 Navicat 部署环境:Tomcat(建议用 7.x 或者 8.x 版本),maven

    基于SpringBoot+Vue.JS前后端分离的游乐园管理系统 源码+数据库+录屏(毕业设计)

    游乐园管理系统是一个综合性的软件解决方案,旨在为游乐园提供高效的日常运营支持。该系统采用现代的前后端分离架构,前端使用Vue.js框架,后端则基于SpringBoot框架进行开发。Vue.js是一个渐进式JavaScript框架,它易于上手且灵活,非常适合构建用户界面。SpringBoot则提供了快速开发的能力,简化了配置和部署过程,使得后端服务的开发更加高效。 用户管理:允许管理员管理游客信息,包括注册、登录、权限分配等。 设施管理:对游乐园内的游乐设施进行管理,包括设施信息的录入、更新和维护。 票务系统:处理门票销售、折扣策略、在线预订等功能。 安全监控:实时监控游乐园内的安全状况,确保游客的安全。 数据分析:收集和分析游客行为数据,为游乐园的运营决策提供支持。 客户服务:提供客户服务功能,如失物招领、投诉处理等。 启动教程:https://www.bilibili.com/video/BV1SzbFe7EGZ

    《深度学习入门 基于Python的理论与实现》学习笔记.zip

    深度学习是机器学习的一个子领域,它基于人工神经网络的研究,特别是利用多层次的神经网络来进行学习和模式识别。深度学习模型能够学习数据的高层次特征,这些特征对于图像和语音识别、自然语言处理、医学图像分析等应用至关重要。以下是深度学习的一些关键概念和组成部分: 1. **神经网络(Neural Networks)**:深度学习的基础是人工神经网络,它是由多个层组成的网络结构,包括输入层、隐藏层和输出层。每个层由多个神经元组成,神经元之间通过权重连接。 2. **前馈神经网络(Feedforward Neural Networks)**:这是最常见的神经网络类型,信息从输入层流向隐藏层,最终到达输出层。 3. **卷积神经网络(Convolutional Neural Networks, CNNs)**:这种网络特别适合处理具有网格结构的数据,如图像。它们使用卷积层来提取图像的特征。 4. **循环神经网络(Recurrent Neural Networks, RNNs)**:这种网络能够处理序列数据,如时间序列或自然语言,因为它们具有记忆功能,能够捕捉数据中的时间依赖性。 5. **长短期记忆网络(Long Short-Term Memory, LSTM)**:LSTM 是一种特殊的 RNN,它能够学习长期依赖关系,非常适合复杂的序列预测任务。 6. **生成对抗网络(Generative Adversarial Networks, GANs)**:由两个网络组成,一个生成器和一个判别器,它们相互竞争,生成器生成数据,判别器评估数据的真实性。 7. **深度学习框架**:如 TensorFlow、Keras、PyTorch 等,这些框架提供了构建、训练和部署深度学习模型的工具和库。 8. **激活函数(Activation Functions)**:如 ReLU、Sigmoid、Tanh 等,它们在神经网络中用于添加非线性,使得网络能够学习复杂的函数。 9. **损失函数(Loss Functions)**:用于评估模型的预测与真实值之间的差异,常见的损失函数包括均方误差(MSE)、交叉熵(Cross-Entropy)等。 10. **优化算法(Optimization Algorithms)**:如梯度下降(Gradient Descent)、随机梯度下降(SGD)、Adam 等,用于更新网络权重,以最小化损失函数。 11. **正则化(Regularization)**:技术如 Dropout、L1/L2 正则化等,用于防止模型过拟合。 12. **迁移学习(Transfer Learning)**:利用在一个任务上训练好的模型来提高另一个相关任务的性能。 深度学习在许多领域都取得了显著的成就,但它也面临着一些挑战,如对大量数据的依赖、模型的解释性差、计算资源消耗大等。研究人员正在不断探索新的方法来解决这些问题。

    java-ssh-jsp-mysql小区物业管理系统实现源码(项目源码-说明文档)

    本系统采用了BS架构的模式开发,利用浏览器就可以随处打开,也就是说小区的住户在家里就能进行上网,打开网站,进行物业费的缴费。系统采用了SSH框架技术开发,数据库采用了mysql数据库进行管理 物业管理系统,分为前后台的管理,系统的主要功能包括:业主信息管理,小区新闻,小区风景的展示,在线水电费的缴费,在线对小区设备的报修等 项目关键技术 开发工具:IDEA 、Eclipse 编程语言: Java 数据库: MySQL5.7+ 后端技术:ssh 前端技术:jsp 关键技术:jsp、spring、ssm、ssh、MYSQL、MAVEN 数据库工具:Navicat、SQLyog

    高仿网易云课堂小程序源码学习

    高仿网易云课堂小程序源码学习

    SAP S4新建用户,分配用户,激活用户

    SAP S4的BAISIS 已经取消,但 新建用户,分配用户,以及权限分配 激活用户的均是需要掌握的

    智能翻译官cpc-bd07-20752777288491826.exe

    ‌智能翻译官获得了广泛的好评‌,这主要得益于其高效、准确以及用户友好的特性。以下是一些具体的评价细节: ‌用户界面和操作体验‌:智能翻译官提供了一个直观且易于使用的界面,使得用户能够轻松地进行翻译操作。无论是文字输入、拍照翻译还是语音输入,智能翻译官都能提供流畅的使用体验,大大提高了用户的工作和沟通效率‌12。 ‌翻译准确性和速度‌:智能翻译官在翻译准确性和速度方面表现出色。它支持多种语言的翻译,包括但不限于英语、日语、韩语等,并且能够在短时间内完成翻译,确保了沟通的实时性和有效性‌23。 ‌功能多样性‌:除了基本的翻译功能外,智能翻译官还提供了同声传译、录音文件保存、实景AR翻译等多种功能。这些功能使得智能翻译官成为开会、旅行等多种场景下的理想选择‌2。 ‌用户反馈‌:从用户反馈来看,智能翻译官不仅受到了普通用户的欢迎,也得到了专业人士的认可。无论是学生、商务人士还是旅游者,都对其表示满意,认为它极大地便利了他们的学习和生活‌12。 综上所述,智能翻译官以其高效、准确、用户友好的特点,赢得了广泛的好评和推荐。无论是对于需要频繁进行语言沟通的用户,还是对于需要学习不同语言的学

    喜鹤付费V3(1).zip

    喜鹤付费V3(1).zip

    c#代码介绍23种设计模式-03工厂模式(附代码)

    1. 工厂方法模式之所以可以解决简单工厂的模式: 是因为它的实现把具体产品的创建推迟到子类中,此时工厂类不再负责所有产品的创建,而只是给出具体工厂必须实现的接口, 这样工厂方法模式就可以允许系统不修改工厂类逻辑的情况下来添加新产品,这样也就克服了简单工厂模式中缺点 2. 使用工厂方法实现的系统,如果系统需要添加新产品时: 我们可以利用多态性来完成系统的扩展,对于抽象工厂类和具体工厂中的代码都不需要做任何改动。 例如,我们我们还想点一个“肉末茄子”,此时我们只需要定义一个肉末茄子具体工厂类和肉末茄子类就可以。而不用像简单工厂模式中那样去修改工厂类中的实现 3. 从UML图可以看出,在工厂方法模式中,工厂类与具体产品类具有平行的等级结构,它们之间是一一对应的。针对UML图的解释如下: Creator类:充当抽象工厂角色,任何具体工厂都必须继承该抽象类 TomatoScrambledEggsFactory和ShreddedPorkWithPotatoesFactory类:充当具体工厂角色,用来创建具体产品 Food类:充当抽象产品角色,具体产品的抽象类。任何具体产品都应该继承该类 Tom

    基于深度学习的手语识别项目.zip

    深度学习是机器学习的一个子领域,它基于人工神经网络的研究,特别是利用多层次的神经网络来进行学习和模式识别。深度学习模型能够学习数据的高层次特征,这些特征对于图像和语音识别、自然语言处理、医学图像分析等应用至关重要。以下是深度学习的一些关键概念和组成部分: 1. **神经网络(Neural Networks)**:深度学习的基础是人工神经网络,它是由多个层组成的网络结构,包括输入层、隐藏层和输出层。每个层由多个神经元组成,神经元之间通过权重连接。 2. **前馈神经网络(Feedforward Neural Networks)**:这是最常见的神经网络类型,信息从输入层流向隐藏层,最终到达输出层。 3. **卷积神经网络(Convolutional Neural Networks, CNNs)**:这种网络特别适合处理具有网格结构的数据,如图像。它们使用卷积层来提取图像的特征。 4. **循环神经网络(Recurrent Neural Networks, RNNs)**:这种网络能够处理序列数据,如时间序列或自然语言,因为它们具有记忆功能,能够捕捉数据中的时间依赖性。 5. **长短期记忆网络(Long Short-Term Memory, LSTM)**:LSTM 是一种特殊的 RNN,它能够学习长期依赖关系,非常适合复杂的序列预测任务。 6. **生成对抗网络(Generative Adversarial Networks, GANs)**:由两个网络组成,一个生成器和一个判别器,它们相互竞争,生成器生成数据,判别器评估数据的真实性。 7. **深度学习框架**:如 TensorFlow、Keras、PyTorch 等,这些框架提供了构建、训练和部署深度学习模型的工具和库。 8. **激活函数(Activation Functions)**:如 ReLU、Sigmoid、Tanh 等,它们在神经网络中用于添加非线性,使得网络能够学习复杂的函数。 9. **损失函数(Loss Functions)**:用于评估模型的预测与真实值之间的差异,常见的损失函数包括均方误差(MSE)、交叉熵(Cross-Entropy)等。 10. **优化算法(Optimization Algorithms)**:如梯度下降(Gradient Descent)、随机梯度下降(SGD)、Adam 等,用于更新网络权重,以最小化损失函数。 11. **正则化(Regularization)**:技术如 Dropout、L1/L2 正则化等,用于防止模型过拟合。 12. **迁移学习(Transfer Learning)**:利用在一个任务上训练好的模型来提高另一个相关任务的性能。 深度学习在许多领域都取得了显著的成就,但它也面临着一些挑战,如对大量数据的依赖、模型的解释性差、计算资源消耗大等。研究人员正在不断探索新的方法来解决这些问题。

    【5层】2800平米框架商务写字楼毕业设计(含计算书,建筑、结构图).zip

    【5层】2800平米框架商务写字楼毕业设计(含计算书,建筑、结构图) 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 、6可私信博主看论文后选择购买源代码。

    大气污染控制工程课程设计某厂燃煤锅炉烟气除尘处理工程方案设计.doc

    大气污染控制工程课程设计某厂燃煤锅炉烟气除尘处理工程方案设计.doc

    EXCLE批量写入模版

    你是否遇到过老板各种苛刻的要求?例如,你手上有份excel表格汇总着上千信息条,老板却要求你把每条信息保存为独立一份excel工作薄,上千条信息条就是要生成上千份工作薄,怎么做?手动录入?有加班工资吗?没有的话,以下的excel模版能帮到你!只需按一下按钮,加班?NO!直接摸鱼~~(WPS、EXCEL均可正常使用)

    win64 CC2024.zip

    SmartTools InDesign插件

    火焰火圈喷火特效:Stylized Fire Effects Pack v3.0

    该包包含 10 个预制体: - 火焰喷射器 - 火球 - 火之魔球 - 火把 - 篝火 - 小型篝火 - 烟雾 - 火墙 - 火环 - 火区域。 这个在 3D 和 2D 视图中都能使用。

    2023中国大陆薪资指南.pdf

    2023中国大陆薪资指南.pdf

    基于深度学习来实现序列到序列.zip

    深度学习是机器学习的一个子领域,它基于人工神经网络的研究,特别是利用多层次的神经网络来进行学习和模式识别。深度学习模型能够学习数据的高层次特征,这些特征对于图像和语音识别、自然语言处理、医学图像分析等应用至关重要。以下是深度学习的一些关键概念和组成部分: 1. **神经网络(Neural Networks)**:深度学习的基础是人工神经网络,它是由多个层组成的网络结构,包括输入层、隐藏层和输出层。每个层由多个神经元组成,神经元之间通过权重连接。 2. **前馈神经网络(Feedforward Neural Networks)**:这是最常见的神经网络类型,信息从输入层流向隐藏层,最终到达输出层。 3. **卷积神经网络(Convolutional Neural Networks, CNNs)**:这种网络特别适合处理具有网格结构的数据,如图像。它们使用卷积层来提取图像的特征。 4. **循环神经网络(Recurrent Neural Networks, RNNs)**:这种网络能够处理序列数据,如时间序列或自然语言,因为它们具有记忆功能,能够捕捉数据中的时间依赖性。 5. **长短期记忆网络(Long Short-Term Memory, LSTM)**:LSTM 是一种特殊的 RNN,它能够学习长期依赖关系,非常适合复杂的序列预测任务。 6. **生成对抗网络(Generative Adversarial Networks, GANs)**:由两个网络组成,一个生成器和一个判别器,它们相互竞争,生成器生成数据,判别器评估数据的真实性。 7. **深度学习框架**:如 TensorFlow、Keras、PyTorch 等,这些框架提供了构建、训练和部署深度学习模型的工具和库。 8. **激活函数(Activation Functions)**:如 ReLU、Sigmoid、Tanh 等,它们在神经网络中用于添加非线性,使得网络能够学习复杂的函数。 9. **损失函数(Loss Functions)**:用于评估模型的预测与真实值之间的差异,常见的损失函数包括均方误差(MSE)、交叉熵(Cross-Entropy)等。 10. **优化算法(Optimization Algorithms)**:如梯度下降(Gradient Descent)、随机梯度下降(SGD)、Adam 等,用于更新网络权重,以最小化损失函数。 11. **正则化(Regularization)**:技术如 Dropout、L1/L2 正则化等,用于防止模型过拟合。 12. **迁移学习(Transfer Learning)**:利用在一个任务上训练好的模型来提高另一个相关任务的性能。 深度学习在许多领域都取得了显著的成就,但它也面临着一些挑战,如对大量数据的依赖、模型的解释性差、计算资源消耗大等。研究人员正在不断探索新的方法来解决这些问题。

    react-hooks实现-前端《无缝轮播图》

    使用react hooks + antd + sass实现一个简易的无缝轮播图,整体核心代码不到30行,当然如果想自定义一些配置,可以继续扩展,目前只配置了支持展示多少个轮播片。 如果想了解无缝轮播图的原理,可以直接无脑入这个,真的对于新手或者对于动画弱项的前端小伙伴们学习!

Global site tag (gtag.js) - Google Analytics