- 浏览: 2651718 次
- 来自: 杭州
文章分类
- 全部博客 (1188)
- webwork (4)
- 网摘 (18)
- java (103)
- hibernate (1)
- Linux (85)
- 职业发展 (1)
- activeMQ (2)
- netty (14)
- svn (1)
- webx3 (12)
- mysql (81)
- css (1)
- HTML (6)
- apache (3)
- 测试 (2)
- javascript (1)
- 储存 (1)
- jvm (5)
- code (13)
- 多线程 (12)
- Spring (18)
- webxs (2)
- python (119)
- duitang (0)
- mongo (3)
- nosql (4)
- tomcat (4)
- memcached (20)
- 算法 (28)
- django (28)
- shell (1)
- 工作总结 (5)
- solr (42)
- beansdb (6)
- nginx (3)
- 性能 (30)
- 数据推荐 (1)
- maven (8)
- tonado (1)
- uwsgi (5)
- hessian (4)
- ibatis (3)
- Security (2)
- HTPP (1)
- gevent (6)
- 读书笔记 (1)
- Maxent (2)
- mogo (0)
- thread (3)
- 架构 (5)
- NIO (5)
- 正则 (1)
- lucene (5)
- feed (4)
- redis (17)
- TCP (6)
- test (0)
- python,code (1)
- PIL (3)
- guava (2)
- jython (4)
- httpclient (2)
- cache (3)
- signal (1)
- dubbo (7)
- HTTP (4)
- json (3)
- java socket (1)
- io (2)
- socket (22)
- hash (2)
- Cassandra (1)
- 分布式文件系统 (5)
- Dynamo (2)
- gc (8)
- scp (1)
- rsync (1)
- mecached (0)
- mongoDB (29)
- Thrift (1)
- scribe (2)
- 服务化 (3)
- 问题 (83)
- mat (1)
- classloader (2)
- javaBean (1)
- 文档集合 (27)
- 消息队列 (3)
- nginx,文档集合 (1)
- dboss (12)
- libevent (1)
- 读书 (0)
- 数学 (3)
- 流程 (0)
- HBase (34)
- 自动化测试 (1)
- ubuntu (2)
- 并发 (1)
- sping (1)
- 图形 (1)
- freemarker (1)
- jdbc (3)
- dbcp (0)
- sharding (1)
- 性能测试 (1)
- 设计模式 (2)
- unicode (1)
- OceanBase (3)
- jmagick (1)
- gunicorn (1)
- url (1)
- form (1)
- 安全 (2)
- nlp (8)
- libmemcached (1)
- 规则引擎 (1)
- awk (2)
- 服务器 (1)
- snmpd (1)
- btrace (1)
- 代码 (1)
- cygwin (1)
- mahout (3)
- 电子书 (1)
- 机器学习 (5)
- 数据挖掘 (1)
- nltk (6)
- pool (1)
- log4j (2)
- 总结 (11)
- c++ (1)
- java源代码 (1)
- ocr (1)
- 基础算法 (3)
- SA (1)
- 笔记 (1)
- ml (4)
- zokeeper (0)
- jms (1)
- zookeeper (5)
- zkclient (1)
- hadoop (13)
- mq (2)
- git (9)
- 问题,io (1)
- storm (11)
- zk (1)
- 性能优化 (2)
- example (1)
- tmux (1)
- 环境 (2)
- kyro (1)
- 日志系统 (3)
- hdfs (2)
- python_socket (2)
- date (2)
- elasticsearch (1)
- jetty (1)
- 树 (1)
- 汽车 (1)
- mdrill (1)
- 车 (1)
- 日志 (1)
- web (1)
- 编译原理 (1)
- 信息检索 (1)
- 性能,linux (1)
- spam (1)
- 序列化 (1)
- fabric (2)
- guice (1)
- disruptor (1)
- executor (1)
- logback (2)
- 开源 (1)
- 设计 (1)
- 监控 (3)
- english (1)
- 问题记录 (1)
- Bitmap (1)
- 云计算 (1)
- 问题排查 (1)
- highchat (1)
- mac (3)
- docker (1)
- jdk (1)
- 表达式 (1)
- 网络 (1)
- 时间管理 (1)
- 时间序列 (1)
- OLAP (1)
- Big Table (0)
- sql (1)
- kafka (1)
- md5 (1)
- springboot (1)
- spring security (1)
- Spring Boot (3)
- mybatis (1)
- java8 (1)
- 分布式事务 (1)
- 限流 (1)
- Shadowsocks (0)
- 2018 (1)
- 服务治理 (1)
- 设计原则 (1)
- log (0)
- perftools (1)
最新评论
-
siphlina:
课程——基于Python数据分析与机器学习案例实战教程分享网盘 ...
Python机器学习库 -
san_yun:
leibnitz 写道hi,我想知道,无论在92还是94版本, ...
hbase的行锁与多版本并发控制(MVCC) -
leibnitz:
hi,我想知道,无论在92还是94版本,更新时(如Puts)都 ...
hbase的行锁与多版本并发控制(MVCC) -
107x:
不错,谢谢!
Latent Semantic Analysis(LSA/ LSI)算法简介 -
107x:
不错,谢谢!
Python机器学习库
在MongoDB的数据文件夹中(默认路径是/data/db)由构成数据库的所有文件。每一个数据库都包含一个.ns文件和一些数据文件,其中数 据文件会随着数据量的增加而变多。所以如果有一个数据库名字叫做foo,那么构成foo这个数据库的文件就会由 foo.ns,foo.0,foo.1,foo.2等等组成。
数据文件每新增一次,大小都会是上一个数据文件的2倍,每个数据文件最大2G。这样的设计有利于防止数据量较小的数据库浪费过多的空间,同时又能保证数据量较大的数据库有相应的空间使用。
MongoDB 会使用预分配方式来保证写入性能的稳定(这种方式可以使用--noprealloc关闭)。预分配在后台进行,并且每个预分配的文件都用0进行填充。这会 让MongoDB始终保持额外的空间和空余的数据文件,从而避免了数据增长过快而带来的分配磁盘空间引起的阻塞。
名字空间和盘区
每一个数据库都由多个名字空间组成,每一个名字空间存储了相应类型的数据。数据库中的每一个Collection都有各自对应的名字空间,索引文件同样也有名字空间。所有名字空间的元数据都存储在.ns文件中。
名字空间中的数据在磁盘中分为多个区间,这个叫做盘区。在下图中,foo这个数据库包含3个数据文件,第三个数据文件属于空的预分配文件。头两个数据文件被分为了相应的盘区对应不同的名字空间。
上 图显示了名字空间和盘区的相关特点。每一个名字空间可以包含多个不同的盘区,这些盘区并不是连续的。与数据文件的增长相同,每一个名字空间对应的盘区大小 的也是随着分配的次数不断增长的。这样做的目的是为了平衡名字空间浪费的空间与保持某一个名字空间中数据的连续性。上图中还有一个需要注意的名字空 间:$freelist,这个名字空间用于记录不再使用的盘区(被删除的Collection或索引)。每当名字空间需要分配新的盘区的时候,都会先查 看$freelist是否有大小合适的盘区可以使用。
内存映射存储引擎
MongoDB目前支持的存储引擎为内存映射引擎。当MongoDB启动的时候,会将所有的数据文件映射到内存中,然后操作系统会托管所有的磁盘操作。这种存储引擎有以下几种特点:
* MongoDB中关于内存管理的代码非常精简,毕竟相关的工作已经有操作系统进行托管。
* MongoDB服务器使用的虚拟内存将非常巨大,并将超过整个数据文件的大小。不用担心,操作系统会去处理这一切。
* MongoDB无法控制数据写入磁盘的顺序,这样将导致MongoDB无法实现writeahead日志的特性。所以,如果MongoDB希望提供一种durability的特性(这一特性可以参考我写的关于Cassandra文章:http://www.cnblogs.com/gpcuster/tag/Cassandra/ ),需要实现另外一种存储引擎。
* 32位系统的MongoDB服务器每一个Mongod实例只能使用2G的数据文件。这是由于地址指针只能支持32位。
其他
在《MongoDB The Definitive Guide》中介绍的MongoDB内部构造只有这么多,如果真要把它说清楚,可能需要另外一本书来专门讲述了。比如内部的JS解析,查询的优化,索引的建立等等。有兴趣的朋友可以直接参考源代码:)
- mongodb.pptx.zip (1.8 MB)
- 下载次数: 5
发表评论
-
基于tmpfs使用mongoDB
2013-08-28 13:51 1639基本思想 将MongoDB ... -
mongoDB如何query is Null
2013-07-24 15:09 1216试了半天,原来通过 db.taobaoItem.find( ... -
mongoDB性能问题
2013-03-23 21:43 1004mongoDB在高并发情况下的性能存在问题。 ... -
mongoDB 性能测试
2013-03-05 13:33 2172最近对mongoDB 性能测试,200万条数据,文件大小 ... -
mongoDB为什么用virtual memory mapping
2013-01-28 23:57 1246原文: http://blog.mongodb.org/po ... -
mongoDB亿级数据量性能测试
2013-01-28 23:54 1224原文:http://www.cnblogs.co ... -
mongoDB 虚内存
2013-01-28 23:29 0http://blog.mongodb.org/post/10 ... -
MongoDB 关于索引的建议
2013-01-23 14:32 1125我们收到了很多关于索引的问题。这一部分解答了其中的一小部分。 ... -
mongoDB 索引
2013-01-23 14:12 921索引常常用来大幅度 ... -
mongos结构记录
2013-01-16 00:11 981mong client< ---> mongo ... -
mongoDB java简单记录
2013-01-11 19:02 11181. 数据格式传递 上个自己画的图 Mongodb-Jav ... -
MongoDB数据文件内部结构
2012-12-29 11:40 927有人在Quora上提问:Mongo ... -
MongoDB范围查询的索引优化
2012-12-22 15:08 1751源文: http://blog.nosqlfan. ... -
mongoDB意外关闭重启
2012-12-03 16:36 2365线上一台mongoDB意外关闭,重启的时候报错: o ... -
MongoDB vs Redis vs Tokyo Tyrant 测试对比
2012-12-01 17:19 0* MongoDB vs Redis vs Tokyo T ... -
mongoDB NUMA问题
2012-12-01 14:05 1195NUMA的含义,简单点说,在有多个物理CPU的架构下,NUMA ... -
mongo 监控常用命令
2012-12-01 14:05 963db.stats() db.serverStatus(). ... -
MongoDB与内存
2012-11-29 16:07 823原文:http://huoding.com/2011/08/ ... -
理解mongodb的ObjectId
2012-11-14 00:29 2741Posted in nosql on 三月 8th ... -
mongoDB 数据备份文档
2012-11-12 14:40 873参考:http://docs.mongodb.org/manu ...
相关推荐
在处理大文件时,GridFS的优势在于其分块存储机制,确保了即使在大文件情况下也能保持良好的性能。同时,由于MongoDB的分布式特性,GridFS还支持高可用性和水平扩展,能够处理大量并发的读写操作。 在实际应用中,...
本文主要介绍了关于MongoDB存储数据的相关内容,分享出来供大家参考学习,下面来一起看看详细的介绍: 想要深入了解MongoDB如何存储数据之前,有一个概念必须清楚,那就是Memeory-Mapped Files。 Memeory-Mapped ...
MongoDB 是一种基于分布式文件存储的开源 NoSQL 数据库系统,其设计支持高性能、高可用性和易扩展的特性。它通过灵活的数据模型来适应不断变化的应用需求,并被广泛应用于大数据和实时Web应用领域。接下来,我将详细...
MongoDB作为NoSQL数据库,其非结构化和灵活的数据存储方式,以及高效的存储和读取特性,非常适合用于存储和管理大量的地质灾害数据。通过自动分片和分布式部署,为海量地质灾害数据的存储和管理提供了解决思路。 ##...
GridFS是一种将大型文件分割成小块存储在MongoDB集合中的机制,这样可以方便地进行上传、下载和查询操作。每个文件被拆分为多个“chunks”,每个chunk都有自己的文档,确保了文件的完整性和可靠性。 在本项目中,...
MongoDB的原子性和事务机制可以确保数据的一致性。 MongoDB的应用场景包括: 1.大数据处理:MongoDB可以处理大量的数据,可以用于大数据处理和分析。 2.实时数据处理:MongoDB可以实时地处理数据,可以用于实时...
5. **GridFS**:针对存储大文件或大量文件,MongoDB提供了GridFS机制。GML数据往往包含大量的地理空间数据和图像,可以利用GridFS来存储这类大对象。 6. **核心模式和应用模式存储**:在云存储架构中,通常会有核心...
MongoDB.Bson.dll 文件是 Bson(Binary JSON)的实现,Bson 是一种二进制形式的 JSON,它提供了更高效的数据序列化和反序列化机制,是 MongoDB 内部数据交换的主要格式。 mongodb.driver.core.dll 是驱动的核心组件...
MongoDB存储服务方案设计主要关注...这个方案全面考虑了客车和货运平台的实际业务需求,通过MongoDB的强大功能,提供了高效的数据存储和处理机制,同时注重系统的扩展性和稳定性,为平台的长期发展奠定了坚实的基础。
1. **新功能增强**:MongoDB 4.4引入了多项新功能,如聚合框架的性能提升、新的数据类型支持、改进的备份与恢复机制等。 2. **存储引擎优化**:此版本可能进一步优化了默认的WiredTiger存储引擎,提供更好的读写性能...
本书涵盖了从理论到实践的各个方面,为读者提供了深入理解MongoDB扩展机制的基础。 **什么是Sharding(分片)?** Sharding是一种数据库扩展技术,用于将数据分散存储在多个物理服务器上。通过这种方式,可以提高...
MongoDB是一款开源、分布式、高性能的文档型数据库,它基于分布式文件存储,广泛应用于Web应用程序、内容管理系统、社交网络分析、大数据存储等多个领域。MongoDB 3.4.10是该数据库系统的一个稳定版本,提供了诸多...
与传统的表格型数据存储方式不同,MongoDB 中的数据是以 BSON(Binary JSON)格式存储的文档,这些文档类似于 JSON 对象,便于存储复杂的数据类型。文档存储的特点使得 MongoDB 在处理半结构化或非结构化数据时表现...
4. **文件存储**:MongoDB的GridFS机制支持存储大型文件,提供了简便的文件存储和访问协议。 MongoDB为了保持高速度,采用MongoDB传输协议与服务器交互,该协议基于TCP/IP并在其上进行了简单的封装,减少了不必要的...
这种分片(sharding)机制使得MongoDB能够处理大数据量。 4. **复制集**:MongoDB的复制集功能可以创建数据的副本,提高数据可用性和容错性。主节点负责写操作,其他从节点同步主节点的数据,确保在主节点故障时能...
6. **数据存储与索引**:深入探讨了MongoDB的数据存储机制及索引优化策略,提高查询效率。 7. **锁定机制**:讲解了MongoDB的锁定原理,帮助理解并避免数据并发访问时的冲突。 8. **概念与术语**:对MongoDB的核心...
10. **安全性**:MongoDB提供了认证、授权和加密机制,确保数据库的安全。用户可以设置角色权限,并通过SSL连接加密数据传输。 在“爬虫MongoDB”的主题下,你可能会进一步了解到如何利用MongoDB存储和管理网络爬虫...
8. 故障恢复和灾难恢复:在多数据中心部署中,MongoDB提供了健全的故障恢复和灾难恢复机制。当一个数据中心发生故障时,可以迅速将流量切换到其他健康的数据中心,以确保业务不中断。 综上所述,MongoDB在多数据...