`
like.eagle
  • 浏览: 253085 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

MongoDB调查总结

阅读更多

与关系型数据库相比,MongoDB的优点:
①弱一致性(最终一致),更能保证用户的访问速度:
举例来说,在传统的关系型数据库中,一个COUNT类型的操作会锁定数据集,这样可以保证得到“当前”情况下的精确值。这在某些情况下,例如通过ATM查看账户信息的时候很重要,但对于Wordnik来说,数据是不断更新和增长的,这种“精确”的保证几乎没有任何意义,反而会产生很大的延迟。他们需要的是一个“大约”的数字以及更快的处理速度。

但某些情况下MongoDB会锁住数据库。如果此时正有数百个请求,则它们会堆积起来,造成许多问题。我们使用了下面的优化方式来避免锁定:
每次更新前,我们会先查询记录。查询操作会将对象放入内存,于是更新则会尽可能的迅速。在主/从部署方案中,从节点可以使用“-pretouch”参数运行,这也可以得到相同的效果。
使用多个mongod进程。我们根据访问模式将数据库拆分成多个进程。
②文档结构的存储方式,能够更便捷的获取数据。
对于一个层级式的数据结构来说,如果要将这样的数据使用扁平式的,表状的结构来保存数据,这无论是在查询还是获取数据时都十分困难。
举例1:
就拿一个“字典项”来说,虽然并不十分复杂,但还是会关系到“定义”、“词性”、“发音”或是“引用”等内容。大部分工程师会将这种模型使用关系型数据库中的主键和外键表现出来,但把它看作一个“文档”而不是“一系列有关系的表”岂不更好?使用“dictionary.definition.partOfSpeech='noun'”来查询也比表之间一系列复杂(往往代价也很高)的连接查询方便且快速。

举例2:在一个关系型数据库中,一篇博客(包含文章内容、评论、评论的投票)会被打散在多张数据表中。在MongoDB中,能用一个文档来表示一篇博客,评论与投票作为文档数组,放在正文主文档中。这样数据更易于管理,消除了传统关系型数据库中影响性能和水平扩展性的“JOIN”操作。

CODE↓
> db.blogposts.save({ title : "My First Post", author: {name : "Jane", id :1},
  comments : [{ by: "Abe", text: "First" },
              { by : "Ada", text : "Good post" }]
})

> db.blogposts.find( { "author.name" : "Jane" } )

> db.blogposts.findOne({ title : "My First Post", "author.name": "Jane",
  comments : [{ by: "Abe", text: "First" },
              { by : "Ada", text : "Good post" } ]
})
> db.blogposts.find( { "comments.by" : "Ada" } )

> db.blogposts.ensureIndex( { "comments.by" : 1 } );
举例③:
MongoDB是一个面向文档的数据库,目前由10gen开发并维护,它的功能丰富,齐全,完全可以替代MySQL。在使用MongoDB做产品原型的过程中,我们总结了MonogDB的一些亮点:
  使用JSON风格语法,易于掌握和理解:MongoDB使用JSON的变种BSON作为内部存储的格式和语法。针对MongoDB的操作都使用JSON风格语法,客户端提交或接收的数据都使用JSON形式来展现。相对于SQL来说,更加直观,容易理解和掌握。
  Schema-less,支持嵌入子文档:MongoDB是一个Schema-free的文档数据库。一个数据库可以有多个Collection,每个Collection是Documents的集合。Collection和Document和传统数据库的Table和Row并不对等。无需事先定义Collection,随时可以创建。
  Collection中可以包含具有不同schema的文档记录。 这意味着,你上一条记录中的文档有3个属性,而下一条记录的文档可以有10个属性,属性的类型既可以是基本的数据类型(如数字、字符串、日期等),也可以是数组或者散列,甚至还可以是一个子文档(embed document)。这样,可以实现逆规范化(denormalizing)的数据模型,提高查询的速度。

 

图1 MongoDB是一个Schema-free的文档数据库

图1 MongoDB是一个Schema-free的文档数据库

 


  图2是一个例子,作品和评论可以设计为一个collection,评论作为子文档内嵌在art的comments属性中,评论的回复则作为comment子文档的子文档内嵌于replies属性。按照这种设计模式,只需要按照作品id检索一次,即可获得所有相关的信息了。在MongoDB中,不强调一定对数据进行Normalize ,很多场合都建议De-normalize,开发人员可以扔掉传统关系数据库各种范式的限制,不需要把所有的实体都映射为一个Collection,只需定义最顶级的class。MongoDB的文档模型可以让我们很轻松就能将自己的Object映射到collection中实现存储。

图2 MongoDB支持嵌入子文档

图2 MongoDB支持嵌入子文档

 

 

③内置GridFS,支持大容量的存储。
  GridFS是一个出色的分布式文件系统,可以支持海量的数据存储。
  内置了GridFS了MongoDB,能够满足对大数据集的快速范围查询。
④内置Sharding。
提供基于Range的Auto Sharding机制:一个collection可按照记录的范围,分成若干个段,切分到不同的Shard上。
Shards可以和复制结合,配合Replica sets能够实现Sharding+fail-over,不同的Shard之间可以负载均衡。查询是对客户端是透明的。客户端执行查询,统计,MapReduce等操作,这些会被MongoDB自动路由到后端的数据节点。这让我们关注于自己的业务,适当的时候可以无痛的升级。MongoDB的Sharding设计能力最大可支持约20 petabytes,足以支撑一般应用。
这可以保证MongoDB运行在便宜的PC服务器集群上。PC集群扩充起来非常方便并且成本很低,避免了“sharding”操作的复杂性和成本。

⑤第三方支持丰富。(这是与其他的NoSQL相比,MongoDB也具有的优势)
现在网络上的很多NoSQL开源数据库完全属于社区型的,没有官方支持,给使用者带来了很大的风险。
而开源文档数据库MongoDB背后有商业公司10gen为其提供供商业培训和支持。
而且MongoDB社区非常活跃,很多开发框架都迅速提供了对MongDB的支持。不少知名大公司和网站也在生产环境中使用MongoDB,越来越多的创新型企业转而使用MongoDB作为和Django,RoR来搭配的技术方案。
⑥性能优越:
在使用场合下,千万级别的文档对象,近10G的数据,对有索引的ID的查询不会比mysql慢,而对非索引字段的查询,则是全面胜出。mysql实际无法胜任大数据量下任意字段的查询,而mongodb的查询性能实在让我惊讶。写入性能同样很令人满意,同样写入百万级别的数据,mongodb比我以前试用过的couchdb要快得多,基本10分钟以下可以解决。补上一句,观察过程中mongodb都远算不上是CPU杀手。


与关系型数据库相比,MongoDB的缺点:
①mongodb不支持事务操作。
  所以事务要求严格的系统(如果银行系统)肯定不能用它。(这点和优点①是对应的)
②mongodb占用空间过大。
  关于其原因,在官方的FAQ中,提到有如下几个方面:
1、空间的预分配:为避免形成过多的硬盘碎片,mongodb每次空间不足时都会申请生成一大块的硬盘空间,而且申请的量从64M、128M、256M那样的指数递增,直到2G为单个文件的最大体积。随着数据量的增加,你可以在其数据目录里看到这些整块生成容量不断递增的文件。

2、字段名所占用的空间:为了保持每个记录内的结构信息用于查询,mongodb需要把每个字段的key-value都以BSON的形式存储,如果value域相对于key域并不大,比如存放数值型的数据,则数据的overhead是最大的。一种减少空间占用的方法是把字段名尽量取短一些,这样占用空间就小了,但这就要求在易读性与空间占用上作为权衡了。我曾建议作者把字段名作个index,每个字段名用一个字节表示,这样就不用担心字段名取多长了。但作者的担忧也不无道理,这种索引方式需要每次查询得到结果后把索引值跟原值作一个替换,再发送到客户端,这个替换也是挺耗费时间的。现在的实现算是拿空间来换取时间吧。

3、删除记录不释放空间:这很容易理解,为避免记录删除后的数据的大规模挪动,原记录空间不删除,只标记“已删除”即可,以后还可以重复利用。

4、可以定期运行db.repairDatabase()来整理记录,但这个过程会比较缓慢

③MongoDB没有如MySQL那样成熟的维护工具,这对于开发和IT运营都是个值得注意的地方。

 

################################

Wordnik的MongoDB使用经验
http://news.cnblogs.com/n/80856/

视觉中国的NoSQL之路:从MySQL到MongoDB
http://news.cnblogs.com/n/77959/

################################

 

分享到:
评论

相关推荐

    MongoDB查询性能验证及优化

    在"mongoDB调研_remote.docx"和"mongoDB调研_结论.docx"这两个文档中,可能包含了更深入的调研结果和优化建议。通过阅读这些文档,你将能获取关于特定环境下的MongoDB性能优化实践和案例,包括可能遇到的问题、解决...

    MongoDB最佳实践

    Nathan Hurst 的文章“Visual Guide to NoSQL System” 很好的总结了这一点。 选择合适的NoSQL数据库并不是本文要讨论的内容,但是请你在使用NoSQL前做一些调查。没 有一个数据库可以适合所有情况。这篇文章假设你...

    计算机学科基础知识和主流编程语言相关内容的总结

    本总结旨在为读者提供一个全面的概览,帮助他们扎实掌握计算机科学的基本概念。 1. **计算理论**:计算理论是计算机科学的哲学基础,探讨了什么是可计算的问题及其计算复杂性。图灵机模型是计算理论的核心,定义了...

    Dataiku调研总结

    数据集可以来自于不同的数据源,如 SQL 表、MongoDB 集合、本地文件夹、Hadoop 集群上的文件夹等。每个数据集都有其 schema,定义了数据的结构和组织方式。 Recipes Recipes 是对数据的转换操作,每个 Recipes 都...

    graylog日志检索系统调研.docx

    总结来说,Graylog是一个功能丰富的日志管理平台,它的核心在于集成Elasticsearch和MongoDB来处理和存储日志数据。安装过程涉及多个步骤,包括安装和配置JDK、MongoDB和Elasticsearch,以及最终的Graylog本身。虽然...

    调查系统的设计与实现

    3. **数据库技术**:选择合适的数据库管理系统,如MySQL、MongoDB等,用于存储问卷、用户信息和统计数据。 4. **数据分析与可视化**:使用数据分析库如Pandas和数据可视化库如Matplotlib或ECharts进行数据分析和...

    开源云计算项目调研

    【开源云计算项目调研】 在当前数字化时代,云计算已经成为企业与组织不可或缺的技术基础设施。开源云计算项目以其灵活性、可扩展性和成本效益吸引了广泛关注。本报告旨在深入探讨六个服务类型丰富的开源云计算系统...

    调查网站需求分析

    - **数据库管理**:MySQL、MongoDB等数据库用于存储用户信息、调查数据等。 - **安全性设计**:通过HTTPS协议、加密算法等手段保障数据传输和存储的安全。 #### 六、总结 通过对调查网站需求的深入分析,我们可以...

    PyPI 官网下载 | opentelemetry-ext-pymongo-0.8b0.tar.gz

    总结,“opentelemetry-ext-pymongo”是OpenTelemetry生态中的一个重要组件,它使得Python开发者能更轻松地监控和调试使用PyMongo的应用程序,提高了开发和运维的效率。了解并合理利用这个库,可以帮助我们更好地...

    问卷调查功能测试报告.doc

    问卷调查功能测试报告 引言 本报告旨在详尽阐述对问卷调查功能的测试过程、方法...总结,本测试报告提供了对问卷调查功能的全面评估,为进一步优化系统提供了依据。未来将持续监控并改进,以满足用户日益增长的需求。

    调查问卷系统-毕业设计

    总结来说,"调查问卷系统-毕业设计"是一个涵盖多个技术层面的项目,包括前端界面设计、后端逻辑实现、数据库操作、数据统计分析和用户隐私保护等。开发者需要具备扎实的编程基础,熟悉Web开发流程,并对数据分析有...

    巴克莱-美股-软件行业-美国软件业:第四季度非周期收益指南-2019.2.8-36页.pdf

    总结来看,这份行业分析报告对美国软件行业的第四季度收益持乐观态度,并重点推荐了Salesforce、MongoDB和Splunk这三家公司在市场中的投资价值。投资者应关注这些公司的账单收入、业务增长和业绩指引,同时理解研究...

    医疗设备市场调研系统设计与实施.rar

    总结来说,医疗设备市场调研系统设计与实施融合了需求分析、数据库设计、数据处理、数据分析、前端开发、后端开发、安全性和测试等多个IT领域的知识,每个环节都需要专业技能和经验来确保系统的高效、安全和易用性。

    246高校毕业生就业满意度调查统计系统.zip.zip

    7. 报告生成:系统可能具有自动生成报告的功能,总结调查结果,为高校和教育政策制定者提供决策依据。报告可能包含关键发现、趋势分析以及改进建议。 8. 动态追踪:如果系统具备实时更新功能,那么它可以持续跟踪...

    考试类精品--本系统为在线答题系统(在线考试,问卷调查,在线练题),支持在线考试、在线练习等功能... 支持题型:单.zip

    2. 数据库:存储试题、用户信息、考试记录等数据,如MySQL、MongoDB等数据库管理系统。 3. 前端界面:用户与系统交互的界面,应具备良好的用户体验,可采用HTML、CSS和JavaScript等技术构建。 4. 安全机制:确保试题...

    软件业职位工作总结PPT.pptx

    ### 软件业职位工作总结知识点详述 #### 一、引言 - **公司背景**: - **规模**:公司规模不仅涉及到员工数量,还包括业务覆盖范围、市场占有率等因素。 - **行业地位**:公司在软件行业的排名、影响力等。 - *...

    用Python写网络爬虫PDF-理查德 劳森(Richard Lawson)

    1.3 背景调研 3 1.3.1 检查robots.txt 3 1.3.2 检查网站地图 4 1.3.3 估算网站大小 5 1.3.4 识别网站所用技术 7 1.3.5 寻找网站所有者 7 1.4 编写第 一个网络爬虫 8 1.4.1 下载网页 9 1.4.2 网站地图爬虫 12...

    RestCloud安装、使用调研

    **数据质量检查**:支持从MongoDB、MQ、文件等多种源实时传输到SQL数据库,并支持一对多传输、多流合并传输等功能。传输过程中,还支持数据质量检查,能够将不符合要求的数据自动分发到指定表中,并触发告警通知。 ...

    2022年烟台地区数据库工程师职位薪酬调查报告.pdf

    总结来说,《2022年烟台地区数据库工程师职位薪酬调查报告》为求职者和企业提供了一个清晰的薪酬参考框架,有助于双方在招聘和求职过程中做出更为明智的决策。同时,报告也反映出数据库工程师这一职业在当前信息化...

    互联网海量数据存储及处理调研综述

    这促使了新型数据存储系统的发展,如分布式文件系统(Hadoop HDFS)、NoSQL数据库(如MongoDB、Cassandra)和列式存储系统(如HBase)等。 这些新兴系统强调可扩展性和高并发处理能力,通常采用分布式架构,通过...

Global site tag (gtag.js) - Google Analytics