`

MongoDB核心性能简介

 
阅读更多

近期MongoDB在Hack News上是频繁中枪。许多人更是声称恨上了MongoDB,David mytton就在他的博客中揭露了MongoDB许多现存问题。然而恨的人有之偏爱的也同样很多,作为回击:Russell Smith带来了多年工作经验的总结。Russell Smith曾担任Ops和大型网站缩放顾问并且帮助过Guardian、Experian等多家公司,MongoDB London User Group的联合创始人。作为MongoDB Master(MongoDB官方认可的MongoDB核心贡献者组织,并通过社区分享自己的专业技术),其参与工作的基础设施单服务器每秒查询超过3万次,每天活跃数据更在1TB以上。

下面来看Russell对MongoDB一些常见及生僻的问题做出分析:

32位 vs 64位

现在大多数的服务器都对32位操作系统实现支持,更有许多新型硬件支持着允许更多RAM的64位操作系统。

MongoDB也同时发布了32位及64位两个版本的数据库。归结于MongoDB使用的内存映射文件,32位版本只支持2G数据的存储。对于标准的Replica Set,MongoDB只拥有单一的处理策略 —— mongod。如果你想在未来储存2G以上的数据,请使用64位版本的MongoDB。如果拥有分片安装,那么32位版本同样可以使用。

总结:使用64位版本或者理解32位版本的限制。

文件大小限制

不同于RDBMS把数据储存在行与列中,MongoDB的数据是储存在文件中的。这些文件使用二进制存储形式,其格式为类似JSON格式的BSON格式。

和其它的数据库一样,单个文件的储存大小是有限制的。在旧版本的MongoDB中,单个文件都限制在4M以内。而新版本的MongoDB单文件已经支持到16M大小。这样的限制也许是令人厌烦的,但是10gen的意见是:如果这项设置不停的困扰到你,那么是否你的设计模式存在着问题;或者你可以使用文件无大小限制的GridFS

这种情况通常的建议是避免存储过大的文件,不定期的更新数据库中存储的各种对象。而像Amazon S3或者Rackspace Cloudfiles这样的服务通常可能会是更好的选择,而非必要情况下最好别让基础设施陷入过载。

总结:把每个文件保持在16M以下,那么一切都好。

写入失败

MongoDB在默认的情况下允许高速的写入和更新,而付出的代价就是没有明确的错误通知。默认情况下多数的驱动都在做异步、“不安全”写入 —— 这就意味着驱动程序不能立即反馈错误信息,类似于MySQL的INSERT DELAYED。如果你想知道某个事情是否成功,你必须使用getLastError手动的检查错误信息。

某些情况下如果你需要在错误发生后立刻得到错误信息,即:大多数的驱动中都很容易实现同步“安全”查询。这将谋杀掉MongoDB不同于传统数据库的优点。

如果对比“完全安全”的同步写入你需要多一点性能,同时还想要一定程度的安全,那么你可以使用getLastError with‘j’让MongoDB只到一份日志提交后再发出错误报告通知。那么日志将以100毫秒一次的速度输出到磁盘,而不是60秒。

总结:如果必须要写入确认,你可以使用安全写入或getLastError。

数据结构模型的弱化不等于没有数据结构模型

RDBMS一般都拥有一个预定义的数据结构模型:表格的行和列,每个字段都拥有名称和数据类型。如果你想给其中一行加一列,那么你必须给整个表格都添加一列。

MongoDB则是移除了这个设置,对于Collection和文件没有强制的模型限定。这有益于快速开发及简易修改。

当然这不意味着你就可以无视结构模型的设计,一个合适的结构模型可以让你获得MongoDB的最佳性能。赶快阅读MongoDB文档,或者观看这些结构模型设计的相关视频吧!

总结:设计结构模型并充分利用MongoDB的特色。

默认情况下修改语句修改的只是单个文件

在传统的RDBMS中除非使用LIMIT子句,修改语句作用的将是所有匹配的地方。然而MongoDB每个查询上都默认使用等价“LIMIT 1”的设置。虽然无法做到“LIMIT 5”,但是你可以通过下面的语句整个的移除限制:

db.people.update({age: {$gt: 30}}, {$set: {past_it: true}}, false, true)

同样在官方的驱动中还有类似的选项 —— ‘multi’。

总结:可以通过指定多个文件的multi为true来完成多文件修改

查询区分大小写

字符串的查询可能不按预期的那样发展 —— 这归结于MongoDB默认区分大小写。

例如:db.people.find({name: ‘Russell’})与db.people.find({name: ‘ russell‘})是不同的。在这里最理想的解决方案就是对需要查询数据进行确认。你也可以通过正则表达式进行查询,比如:db.people.find({name:/Russell/i}),但是这样会影响到性能。

总结:查询是区分大小写的,在牺牲速度的情况下可以利用正则表达式。

对输入的数据无容错性

当你尝试向传统数据库插入错误类型的数据,传统的数据库一般会把数据转换成预定义的类型。然而这在MongoDB中是行不通的,因为MongoDB的文件是没有预定义数据模型的。这样的话MongoDB会插入你输入的任何数据。

总结:使用准确的数据类型

关于锁

当资源被代码的多个部分所共享时,需要确信锁必须要确保这处资源只能在一个地方被操作。

旧版本的MongoDB (pre 2.0)拥有一个全局的写入锁。这就意味贯穿整个服务器中只有一个地方做写操作。这就可能导致数据库因为某个地方锁定超负载而停滞。这个问题在2.0版本中的得到了显著的改善,并且在当前2.2版本中得到了进一步的加强。MongoDB 2.2使用数据库级别的锁在这个问题上迈进了一大步。同样值得期待的Collection级别的锁也计划在下一个版本中推出

尽管如此,Russell还是认为:大多数受此限制的应用程序于其说是受MongoDB影响,还不如说是程序本身的问题来的更直接。

总结:使用最新的稳定版本才能获得最高的性能。

关于包

在类Ubuntu和Debian系统上安装时,许多人都出现过“过时版本”这样的问题。解决方案很简单:使用10gen官方库,那么在Ubuntu和Debian上安装也会像在Fedora和Centos上安装一样流畅。

总结:使用拥有大多数最新版本的官方包

使用偶数个Replica Set成员

Replica Set是增加冗余及提升MongoDB数据集群性能的有效途径。数据在所有的节点中被复制,并选出一个作为主节点。假如主节点出故障,那么会在其他的节点中票选一个作为新的主节点。

在同一个Replica Set中使用两台机器是很有诱惑的,它比3台机器来的便宜并且也是RDBMS的标准行事风格。

但是到了MongoDB这里,同一个Replica Set中的成员数量只能是奇数个。假如你使用了偶数个成员,那么当主节点发生故障时那么其它的节点都会变成只读。发生这种情况是因为剩下待选节点的数目不满足票选主节点的规定。

如果你想节约成本,同时还希望支持故障转移和冗余的增强,那么你可以使用Arbiter。Arbiter是一种特殊的Replica Set成员,它不储存任何用户数据(这就意味着他们可以使用非常小的服务器)。

总结:只可以使用偶数个Replica Set成员,但是可以使用Arbitter来削减成本。

没有join语句

MongoDB不支持join:如果你想在多个Collection中检索数据,那么你必须做多次的查询。

如果你觉得你手动做的查询太多了,你可以重设计你的数据模型来减少整体查询的数量。MongoDB中的文件可以是任何类型,那么可以轻易的对数据进行De-Normalize。这样就可以让它始终和你的应用程序保持一致。

总结:没有join不妨看一下如何设计数据结构模型

Journaling

MongoDB使用内存映射文件并且每60秒向磁盘输出一次通知,这就意味着最大程度上你可能丢失60秒加上向硬盘输出通知这段时间内所有的数据。

为了避免数据丢失,MongoDB从2.0版本起就添加了Journaling(默认情况下开启)。Journaling把时间从60秒更改为100ms。如果数据库意外的停机,在启动之前它将会被重启用以确保数据库处于一致状态。这也是MongoDB与传统数据库最接近的地方。

当然Journaling会轻微的影响到性能,大约5%。但是对于多数人来说额外带来的安全性肯定是物有所值的。

总结:最好别关闭Journaling

默认情况下没有身份认证

MongoDB在默认设置下并没有身份验证。MongoDB会认为自身处在一个拥有防火墙的信任网络。但是这不代表它不支持身份验证,如果需要可以轻松的开启

总结:MongoDB的安全性可以通过使用防火墙和绑定正确的接口来保证,当然也可以开启身份验证。

Replica Set中损失的数据

使用Replica Set是提高系统可靠性及易维护的有效途径。这样的话,弄清节点间故障的发生及转移机制就变得至关重要。

Replica Set中的成员一般通过oplog(记录了数据中发生增、删、改等操作的列表)来传递信息,当其中一个成员发生变化修改oplog后,其他的成员也将按照oplog来执行。如果你负责处理新数据的节点在出错后恢复运行,它将会被回滚至最后一个oplog公共点。然而在这个过程中:丢失的“新数据”已经被MongoDB从数据库中转移并存放到你的数据目录‘rollback’里面等待被手动恢复。如果你不知道这个特性,你可能就会认为数据被弄丢了。所以每当有成员从出错中恢复过来都必须要检查这个目录。而通过MongoDB发布的标准工具来恢复这些数据是件很容易的事情。查看官方文档以了解更多相关信息

总结:故障恢复中丢失的数据将会出现在rollback目录里面。

分片太迟

分片是把数据拆分到多台机器上,通常被用于Replica Set运行过慢时进行性能提升。MongoDB支持自动分片。然而如果你让分片进行太迟的话,问题就产生了。因为对数据的拆分和块的迁移需要时间和资源,所以如果当服务器资源基本上耗尽时很可能会导致在你最需要分片时却分不了片。

解决的方法很简单,使用一个工具对MongoDB进行监视。对你的服务器做最准确的评估,并且在占整体性能的80%前进行分片。类似的监视工具有:MMSMunin(+Mongo Plugin)和CloudWatch

如果你确定从一开始就要分片处理,那么更好的建议会是选用AWS或者类似的云服务进行分片。而在小型服务器上,关机或者是调整机器明显比转移成千上万条数据块来的更直接一点。

总结:尽早的分片才能有效的避免问题。

不可以更改文件中的shard key

对于分片设置,shard key是MongoDB用来识别分块对应文件的凭证。当你插入一个文件后,你就不可以对文件的shard key进行更改。而这里的解决方案是把文档删除然后重新建立,这样就允许把它指定到对应的分块了。

总结:shard key不可以修改,必要的时候可以删除文件重新建立。

不可以对256G以上的Collection进行分片

重新回到分片太迟的问题上来 —— MongoDB不允许对增长到256G以上的Collection进行分片,之前版本的设置还没有256G。这个限定在以后肯定会被移除,而这里也没有更好的解决方案。只能进行重编译或者把大小控制在256G以下。

总结:在Collection达到256G以前进行分片。

唯一性索引与共享

索引的唯一性约束只能通过shard key来保证。

更多详情

选择了错误的shard key

MongDB需要你选择一个shard key来将数据分片。如果选择了错误的shard key,更改起来将是件很麻烦的事情。

点击查看如何更改

总结:选择shard key之前先阅读这个文档

与MongoDB通信的未经加密

与MongoDB的连接默认情况下都是非加密的,这就意味你的数据可能被第三方记录和使用。如果你的MongoDB是在自己的非广域网下使用,那么这种情况是不可能发生的。

然而如果你是通过公网访问MongoDB的话,那么你肯定会希望你的通信是经过加密的。公版的MongoDB是不支持SSL的。庆幸的是可以非常简单的定制自己的版本。10gen的用户则拥有特别定制的加密版本。幸运的是大部分的官方驱动都支持SSL,但是小麻烦同样是不可避免的。点击查看文档

总结:当用公网连接时,要注意和MongoDB的通信是未加密的。

事务

不像MySQL这些支持多行数据原子操作的传统数据库,MongoDB只支持单文件[库锁]的原子性修改。解决这个问题的方法之一是在应用程序中使用异步提交的方式;另一个是:建立一个以上的数据存储。虽然第一种方法并不适用于所有情况,但是很显然比第二个来的要好。

总结:不支持对多文件事务。

日志预分配慢

MongDB可能会告诉你已经准备就绪,但事实上它还在对日志进行分配。如果你选择了让机器自行分配,而恰巧你的文件系统和磁盘速度又很慢,那么烦恼的事情发生了。通常情况下这不会成为问题,但是一旦出现了可以使用undocumented flag –nopreallocj来关闭预分配

总结:如果机器文件系统和磁盘过慢的话,那么日志的预分配也可能很慢。

NUMA + Linux +MongoDB

Linux、NUMA与MongoDB遇到一起的时候运行总是不会很好。如果你在NUMA硬件上运行MongoDB的话,这里建议是直接关掉。因为各种奇怪的问题随之而来,比如:速度会阶段性或者在CPU占用率很高的时候大幅下降。

总结:禁NUMA

Linux里面的进程限制

如果你在MongoDB未满载的时候出过SEGMENTATION FAULT错误,你可能会发现这是因为使用了过低或者默认的打开文件或用户进程限制。10gen建议把限制设置在4K+,然而设置的大小该取决具体情况。阅读ulimit了解更多。

总结:长久的为MongoDB在Linux加上软或硬的打开文件或用户进程限制。

分享到:
评论

相关推荐

    MongoDB简介与实践.pdf

    MongoDB是一种面向文档(Document)的NoSQL数据库,支持多平台如Windows、Linux、Mac OS X、FreeBSD等,并且其核心是用C++实现的Solaris。MongoDB提供多语言驱动支持,包括Ruby/Ruby-on-Rails、Java、C#、JavaScript、...

    MongoDB TPCC事务性能基准测试.pdf

    总的来说,MongoDB的TPCC事务性能基准测试涉及到数据库的多个核心组件,包括数据模型、事务处理、并发控制、索引、存储引擎和分片策略。理解并优化这些方面是确保MongoDB在复杂事务处理场景下提供高效、稳定服务的...

    MongoDB在性能监控领域的应用 熊掀

    MongoDB在这种架构中担当了核心角色,其灵活的数据存储结构、强大的性能监控和扩展能力使得天旦网络能够提供专业的业务/APM和网络/NPM性能管理产品和解决方案,应对各种高性能、高并发的业务场景。

    万亿级文档数据库MongoDB集群性能优化实践.pptx

    通过优化集群、解决集群抖动问题、内部分享性能优化方法、给重点业务分享 MongoDB 原理、成立 MongoDB 用户群等措施,入职一个月内集群数减少 15%,入职 2 月后,MongoDB 公司内部状态也发生了很大的变化,准备迁走...

    mongodb查询性能.rar

    其次,索引是提升查询性能的核心工具。MongoDB支持单键、复合键、唯一性和地理空间索引。正确创建和使用索引可以极大地加速查询速度,尤其是在处理大量数据时。但同时,索引也会占用存储空间并影响写操作性能,因此...

    MongoDB之conf配置文件详解

    MongoDB的配置文件是服务器的核心组件之一,它控制着MongoDB服务器的各种设置和行为。在本文中,我们将详细介绍MongoDB的配置文件的各个部分,并解释每个设置的作用和意义。 一、数据库文件位置(dbpath) MongoDB...

    MongoDB入门到云上开发视频.zip

    课时3:MongoDB数据库核心知识.mp4 课时4:MongoDB数据库管理备份.mp4 课时5:MongoDB开发实战:开发博客应用.mp4 课时6:MongoDB数据库性能分析与调优.mp4 课时7:MongoDB数据库排错日志分析.mp4 课时8:MongoDB...

    Mongodb核心知识

    MongoDB核心知识详解 MongoDB是一款高性能、分布式文档型数据库,是NoSQL数据库中的重要代表。它以JSON格式存储数据,具有灵活性、可扩展性和高可用性等特性,广泛应用于互联网应用、大数据分析、实时数据处理等...

    MongoDB简介及精进PDF

    在这个"MongoDB简介及精进PDF"的压缩包中,包含了对MongoDB的深度探讨,包括其基本概念、核心特性、最佳实践以及高级技术应用。 NOSQL主流产品的研究报告.docx可能涵盖了当前市场上流行的NoSQL数据库的比较,包括...

    MongoDB 32位可用

    MongoDB的核心特性包括: 1. 文档型数据模型:MongoDB使用BSON(Binary JSON)格式存储数据,这是一种轻量级的二进制数据格式,包含JSON-like文档,允许嵌套结构和数组,非常适合处理复杂的数据结构。 2. 模式自由...

    mongodb入门

    它适合那些希望在短时间内掌握MongoDB核心概念和操作的读者。作者Karl Seguin是一位拥有丰富技术背景的开发者,其经历跨越多个领域和技术。在MongoDB方面,他曾参与C# MongoDB库NoRM的核心贡献、编写了交互式教程...

    深入云计算 MongoDB管理与开发实战详解pdf.part1

    《深入云计算(MongoDB管理与开发实战详解)》系统全面的介绍了MongoDB开发、管理、维护和性能优化等方方面面。详细而深入,对MongoDB的开发和管理方法进行了详细的讲解,也对MongoDB的工作机制进行了深入的探讨。注重...

    MongoDB数据库设计规范.docx

    该规范旨在提供一个全面的 MongoDB 数据库设计指南,涵盖了 MongoDB 的核心优势、BSON 的优化、架构设计、适用场景、设计规范重点、安全设计规范等方面。 一、 MongoDB 目前核心优势 MongoDB 的核心优势在于灵活...

    mongodb数据库jar包

    MongoDB是一个流行的开源、分布式文档型数据库,设计用于处理大量数据并提供高可用性和高性能。在Java应用程序中,为了与MongoDB进行交互,我们需要使用Java MongoDB驱动程序。这个压缩包包含的就是Java连接MongoDB...

    mongodb c#驱动最新驱动mongodb.driver.dll 版本2.12.0-beta1

    MongoDB.Driver.dll 是 C# 驱动的核心组件,它包含了连接、查询、更新和操作 MongoDB 数据库所需的所有功能。这个版本的更新可能引入了新的特性和性能改进,也有可能修复了一些已知的问题。开发者在升级到此版本时,...

    mongodb.dll 下载.zip

    `mongodb.dll`包含了MongoDB客户端连接、查询、插入、更新和删除操作等核心功能。当开发或运行与MongoDB交互的Windows应用程序时,这个文件是必不可少的。 本压缩包`mongodb.dll.zip`提供的内容是MongoDB驱动程序的...

    MongoDB简介与实践

    ### MongoDB简介与实践 #### MongoDB概述 MongoDB是一款先进的、基于分布式文件存储的数据库系统,其核心编程语言为C++。这款数据库系统的设计初衷是为了满足Web应用对高性能、可扩展数据存储方案的需求。MongoDB...

    MongoDB4.2.21 Linux版本安装包

    MongoDB由以下几个核心组件构成: 1. **Mongod**:这是MongoDB的主要服务进程,负责处理所有数据库操作,如读写请求、数据存储和复制。 2. **Mongos**:在分片环境中,Mongos作为路由进程,负责将客户端请求路由到...

    五、MongoDB 学习PPT

    MongoDB的核心概念包括库(database)、集合(collection)和文档(document)。库是MongoDB中数据的最高级别组织单位,类似于SQL中的数据库。集合是库中的逻辑单元,类似表,但不需要预定义模式,这意味着集合内的...

    mongodb的配置文件标准化与三种通常的启动方式介绍

    配置文件是 MongoDB 的核心组件之一,它定义了 MongoDB 的行为和性能。 MongoDB 的配置文件通常位于 /etc/mongodb.cnf 中,文件中包含了 Various 参数,例如数据文件的存放路径、错误日志文件、绑定 IP、端口号等。 ...

Global site tag (gtag.js) - Google Analytics