- 浏览: 2662185 次
- 来自: 杭州
文章分类
- 全部博客 (1188)
- webwork (4)
- 网摘 (18)
- java (103)
- hibernate (1)
- Linux (85)
- 职业发展 (1)
- activeMQ (2)
- netty (14)
- svn (1)
- webx3 (12)
- mysql (81)
- css (1)
- HTML (6)
- apache (3)
- 测试 (2)
- javascript (1)
- 储存 (1)
- jvm (5)
- code (13)
- 多线程 (12)
- Spring (18)
- webxs (2)
- python (119)
- duitang (0)
- mongo (3)
- nosql (4)
- tomcat (4)
- memcached (20)
- 算法 (28)
- django (28)
- shell (1)
- 工作总结 (5)
- solr (42)
- beansdb (6)
- nginx (3)
- 性能 (30)
- 数据推荐 (1)
- maven (8)
- tonado (1)
- uwsgi (5)
- hessian (4)
- ibatis (3)
- Security (2)
- HTPP (1)
- gevent (6)
- 读书笔记 (1)
- Maxent (2)
- mogo (0)
- thread (3)
- 架构 (5)
- NIO (5)
- 正则 (1)
- lucene (5)
- feed (4)
- redis (17)
- TCP (6)
- test (0)
- python,code (1)
- PIL (3)
- guava (2)
- jython (4)
- httpclient (2)
- cache (3)
- signal (1)
- dubbo (7)
- HTTP (4)
- json (3)
- java socket (1)
- io (2)
- socket (22)
- hash (2)
- Cassandra (1)
- 分布式文件系统 (5)
- Dynamo (2)
- gc (8)
- scp (1)
- rsync (1)
- mecached (0)
- mongoDB (29)
- Thrift (1)
- scribe (2)
- 服务化 (3)
- 问题 (83)
- mat (1)
- classloader (2)
- javaBean (1)
- 文档集合 (27)
- 消息队列 (3)
- nginx,文档集合 (1)
- dboss (12)
- libevent (1)
- 读书 (0)
- 数学 (3)
- 流程 (0)
- HBase (34)
- 自动化测试 (1)
- ubuntu (2)
- 并发 (1)
- sping (1)
- 图形 (1)
- freemarker (1)
- jdbc (3)
- dbcp (0)
- sharding (1)
- 性能测试 (1)
- 设计模式 (2)
- unicode (1)
- OceanBase (3)
- jmagick (1)
- gunicorn (1)
- url (1)
- form (1)
- 安全 (2)
- nlp (8)
- libmemcached (1)
- 规则引擎 (1)
- awk (2)
- 服务器 (1)
- snmpd (1)
- btrace (1)
- 代码 (1)
- cygwin (1)
- mahout (3)
- 电子书 (1)
- 机器学习 (5)
- 数据挖掘 (1)
- nltk (6)
- pool (1)
- log4j (2)
- 总结 (11)
- c++ (1)
- java源代码 (1)
- ocr (1)
- 基础算法 (3)
- SA (1)
- 笔记 (1)
- ml (4)
- zokeeper (0)
- jms (1)
- zookeeper (5)
- zkclient (1)
- hadoop (13)
- mq (2)
- git (9)
- 问题,io (1)
- storm (11)
- zk (1)
- 性能优化 (2)
- example (1)
- tmux (1)
- 环境 (2)
- kyro (1)
- 日志系统 (3)
- hdfs (2)
- python_socket (2)
- date (2)
- elasticsearch (1)
- jetty (1)
- 树 (1)
- 汽车 (1)
- mdrill (1)
- 车 (1)
- 日志 (1)
- web (1)
- 编译原理 (1)
- 信息检索 (1)
- 性能,linux (1)
- spam (1)
- 序列化 (1)
- fabric (2)
- guice (1)
- disruptor (1)
- executor (1)
- logback (2)
- 开源 (1)
- 设计 (1)
- 监控 (3)
- english (1)
- 问题记录 (1)
- Bitmap (1)
- 云计算 (1)
- 问题排查 (1)
- highchat (1)
- mac (3)
- docker (1)
- jdk (1)
- 表达式 (1)
- 网络 (1)
- 时间管理 (1)
- 时间序列 (1)
- OLAP (1)
- Big Table (0)
- sql (1)
- kafka (1)
- md5 (1)
- springboot (1)
- spring security (1)
- Spring Boot (3)
- mybatis (1)
- java8 (1)
- 分布式事务 (1)
- 限流 (1)
- Shadowsocks (0)
- 2018 (1)
- 服务治理 (1)
- 设计原则 (1)
- log (0)
- perftools (1)
最新评论
-
siphlina:
课程——基于Python数据分析与机器学习案例实战教程分享网盘 ...
Python机器学习库 -
san_yun:
leibnitz 写道hi,我想知道,无论在92还是94版本, ...
hbase的行锁与多版本并发控制(MVCC) -
leibnitz:
hi,我想知道,无论在92还是94版本,更新时(如Puts)都 ...
hbase的行锁与多版本并发控制(MVCC) -
107x:
不错,谢谢!
Latent Semantic Analysis(LSA/ LSI)算法简介 -
107x:
不错,谢谢!
Python机器学习库
有人在Quora上提问:MongoDB 数据文件 内部的组织结构 是什么样的。随后10gen的工程师Jared Rosoff 出来做了简短的回答。
每一个数据库都有自己独立的文件。如果你开启了directoryperdb选项,那你每个库的文件会单独放在一个文件夹里。
数据库文件在内部会被切分成单个的块,每个块只保存一个名字空间的数据。在MongoDB中,名字空间用于区分不同的存储类别。比如每个collection有一个独立的名字空间,每个索引也有自己的名字空间。
在一个块中,会保存多条记录,每条记录是BSON格式的,记录与记录之间通过双向链表进行连接。
索引数据也存在数据文件中,不过索引是被组织成B Tree结构,而不是双向链表。
对每个数据库,有一个命名空间文件,用于保存每个名字空间对应的元数据。我们通过查询这些元数据来找到对应的名字空间的存储块位置。
如果你开启了jorunaling日志,那么还会有一些文件存储着你所有的操作记录。
下面图片摘自10gen工程师Mathias Stearn在MongoSV2011大会上的发言稿,手绘的数据文件结构。
1.每个数据库有相应的数据文件和命名空间文件
2.数据文件从16MB开始,新的数据文件比上一个文件大一倍,最大为2GB
3.文件使用MMAP进行内存映射,会将所有数据文件映射到内存中,但是只是虚拟内存,只有访问到这块数据时才会交换到物理内存。
4.MongoDB的数据文件映射到内存表中的位置
5.使用32位机器的话,内存地址最大可以标识4GB内存
6.但是在32位机器上,4GB内存会有1GB被内核战用,大约0.5GB会用于mongod进程的stack空间,只剩下大约2.5GB可用于映射数据文件。
7.在64位机器上则最多可以表示128TB的空间
8.每个数据文件会被分成一个一个的数据块,块与块之间用双向链表连接
9.在名字空间文件中,保存的是一个hash table,保存了每个名字空间的存储信息元数据,包括其大小,块数,第一块位置,最后一块位置,被删除的块的链表以及索引信息
10.这些位置通过DiskLoc数据结构进行存储,存储了数据文件编号和块在文件中的位置
11.对每一个块来说,其头部包含了一些块的元数据,比如自己的位置,上一个和下一个块的位置以及块中第一条和最后一条记录的位置指针。剩下的部分用于存储具体的数据,具体数据之间也是通过双向链接来进行连接。
12.下面是B Tree的存储结构和工作原理
发表评论
-
基于tmpfs使用mongoDB
2013-08-28 13:51 1646基本思想 将MongoDB ... -
mongoDB如何query is Null
2013-07-24 15:09 1224试了半天,原来通过 db.taobaoItem.find( ... -
mongoDB性能问题
2013-03-23 21:43 1035mongoDB在高并发情况下的性能存在问题。 ... -
mongoDB 性能测试
2013-03-05 13:33 2183最近对mongoDB 性能测试,200万条数据,文件大小 ... -
mongoDB为什么用virtual memory mapping
2013-01-28 23:57 1259原文: http://blog.mongodb.org/po ... -
mongoDB亿级数据量性能测试
2013-01-28 23:54 1234原文:http://www.cnblogs.co ... -
mongoDB 虚内存
2013-01-28 23:29 0http://blog.mongodb.org/post/10 ... -
MongoDB 关于索引的建议
2013-01-23 14:32 1137我们收到了很多关于索引的问题。这一部分解答了其中的一小部分。 ... -
mongoDB 索引
2013-01-23 14:12 925索引常常用来大幅度 ... -
mongos结构记录
2013-01-16 00:11 986mong client< ---> mongo ... -
mongoDB java简单记录
2013-01-11 19:02 11291. 数据格式传递 上个自己画的图 Mongodb-Jav ... -
MongoDB范围查询的索引优化
2012-12-22 15:08 1759源文: http://blog.nosqlfan. ... -
mongoDB意外关闭重启
2012-12-03 16:36 2376线上一台mongoDB意外关闭,重启的时候报错: o ... -
MongoDB vs Redis vs Tokyo Tyrant 测试对比
2012-12-01 17:19 0* MongoDB vs Redis vs Tokyo T ... -
mongoDB NUMA问题
2012-12-01 14:05 1215NUMA的含义,简单点说,在有多个物理CPU的架构下,NUMA ... -
mongo 监控常用命令
2012-12-01 14:05 970db.stats() db.serverStatus(). ... -
mongoDB的储存机制
2012-11-30 16:27 1720在MongoDB的数据文件夹中(默认路径是/data/db)由 ... -
MongoDB与内存
2012-11-29 16:07 829原文:http://huoding.com/2011/08/ ... -
理解mongodb的ObjectId
2012-11-14 00:29 2753Posted in nosql on 三月 8th ... -
mongoDB 数据备份文档
2012-11-12 14:40 874参考:http://docs.mongodb.org/manu ...
相关推荐
MongoDB 的数据文件内部被划分为盘区(chunks),每个盘区包含一定数量的数据记录。随着数据的增长,盘区会按照一定的规则进行分裂和合并。盘区的设计有助于平衡数据分布,防止小数据库浪费空间,同时确保大数据库有...
本文将详细介绍 MongoDB 的内部结构,包括 BSON、写入协议、数据文件、名字空间和盘区、内存映射存储引擎等方面。 1. BSON BSON 是 MongoDB 使用的一种轻量级的二进制数据格式。它是基于 JSON 的一种扩展,具有...
MongoDB 的内部结构设计是高度模块化的,其中内部文件格式将磁盘上的文件分成多个 extent,每个 extent 包含若干文档。集合可以有一个或多个 extent,并且 extent 的大小会按照指数级别增长,最大可以到 2GB。命名...
MongoDB的数据文件存储在/data/db目录下,默认情况下,每个数据库都有一个.ns文件和一系列按顺序编号的数据文件。数据文件会随着数据量的增长而扩大,每次新生成的数据文件大小是上一个的两倍,最大为2GB。这种预...
如果发现MongoDB的数据文件大小超出预期,这部分内容将提供原因分析和优化建议,帮助用户合理管理存储空间。 ### **42. 文件存储(Storing Files)** MongoDB不仅能够存储结构化数据,还支持大文件存储,这部分内容...
5. **丰富的查询表达式**:MongoDB 支持复杂的查询操作,包括文档内部的字段查询。 6. **数据更新**:支持完整的文档替换或部分字段的更新。 7. **MapReduce 功能**:用于数据的批量处理和聚合操作,可通过 ...
2. **数据模型**:详细讲解文档型数据模型,包括嵌套文档、数组和复杂数据结构,以及如何通过BSON(Binary JSON)格式存储这些数据。 3. **查询语言**:解析MongoDB的查询语法,如CRUD操作(创建、读取、更新、删除...
- **PyMongo and mod_wsgi**:讲解Python库PyMongo与Apache服务器的mod_wsgi模块的集成方法,以便在Python环境中高效地处理MongoDB数据。 - **Python Tutorial**:为Python开发者提供入门指南,涵盖基本操作、高级...
- **日志格式**:理解 MongoDB 日志的格式和结构。 - **日志解析**:使用工具解析和分析日志数据。 - **错误排查**:根据日志信息解决常见问题。 **5. 使用 MongoDB 与 SSL 连接** - **服务器配置**:在 mongod 和...
MongoDB的核心优势在于其灵活的数据模型,允许存储结构化和非结构化的数据,这使得它在大数据处理、实时分析和高可用性系统构建中具有广泛的应用。 #### 数据存储与索引管理 MongoDB采用B树(B-tree)结构来创建...
在内部结构上,MongoDB的数据以BSON格式存储,这种格式具有更快的遍历速度和易于扩展的特性。数据分布在多个数据域(extent)中,集合的元数据存储在集合命名空间中,包括集合名称和数据域的位置。MongoDB的索引使用...
"Variety"就是这样一个专为MongoDB设计的数据结构分析工具,它可以帮助我们洞察MongoDB数据库中的文档结构,从而进行更有效的数据管理和性能调优。 Variety是Linux环境中的一款开源工具,它的主要功能是分析MongoDB...
4. **数据转换**: 数据从Oracle的表格形式转换为MongoDB的BSON格式,这一过程涉及到数据类型的映射和转换,例如将Oracle的表格字段转换为MongoDB的文档结构。 5. **主节点查找**: MongoDB采用分布式架构,有主从...
- 在MongoDB内部,每个数据库都有一系列与之相关的物理文件,包括数据文件和日志文件。 - 数据文件随着数据的增长而增多,每个文件都有特定的大小限制(最大2GB),并且采用了预分配机制来避免磁盘压力过大。 - ...
这种设计使MongoDB能够处理结构各异的数据,无需预先定义严格的模式,提供了极大的灵活性。 1.2 特性 MongoDB的核心特性包括: - 分布式文件存储:使用C++开发,设计为支持高性能和高可用性。 - 模式自由:无需预定...
- **MongoDB内部结构:** - MongoDB采用文档模型,由数据库(Database)、集合(Collection)和文档(Document)组成。 - 每个数据库对应一个或多个文件,文件大小根据数据增长动态调整。 - 示例: - 创建两个数据库...
MongoDB 是一种流行的开源文档数据库,它属于NoSQL数据库家族,尤其适合处理非结构化或半结构化的数据。与传统的关系型数据库不同,MongoDB不采用预定义的表结构,而是以文档(Document)的形式存储数据,这些文档是...
这些都是运行MongoDB所必需的组件和设置,例如配置文件可以用来设置数据库的运行参数,比如数据存储位置、内存限制等。 在系统引用和退出代码部分,手册列出了MongoDB的一些系统限制、阈值以及通用的退出代码和状态...