转载自http://hi.baidu.com/i1see1you/item/783a701f39a87549e75e06ea
1.Mongodb bson文档型数据库,整个数据都存在磁盘中,hbase是列式数据库,集群部署时每个familycolumn保存在单独的hdfs文件中。
2.Mongodb 主键是“_id”,主键上面可以不建索引,记录插入的顺序和存放的顺序一样,hbase的主键就是row key,可以是任意字符串(最大长度是 64KB,实际应用中长度一般为 10-100bytes),在hbase内部,row key保存为字节数组。存储时,数据按照Row key的字典序(byte order)排序存储。设计key时,要充分排序存储这个特性,将经常一起读取的行存储放到一起。
字典序对int排序的结果是1,10,100,11,12,13,14,15,16,17,18,19,2,20,21,…,9,91,92,93,94,95,96,97,98,99。要保持整形的自然序,行键必须用0作左填充。
3.Mongodb支持二级索引,而hbase本身不支持二级索引
4.Mongodb支持集合查找,正则查找,范围查找,支持skip和limit等等,是最像mysql的nosql数据库,而hbase只支持三种查找:通过单个row key访问,通过row key的range,全表扫描
5.mongodb的update是update-in-place,也就是原地更新,除非原地容纳不下更新后的数据记录。而hbase的修改和添加都是同一个命令:put,如果put传入的row key已经存在就更新原记录,实际上hbase内部也不是更新,它只是将这一份数据已不同的版本保存下来而已,hbase默认的保存版本的历史数量是3。
6.mongodb的delete会将该行的数据标示为已删除,因为mongodb在删除记录时并不是真把记录从内存或文件中remove,而是将该删除记录数据置空(写0或特殊数字加以标识)同时将该记录所在地址放到一个list列表“释放列表”中,这样做的好就是就是如果有用户要执行插入记录操作时,mongodb会首先从该“释放列表”中获取size合适的“已删除记录”地址返回,这种方法会提升性能(避免了malloc内存操作),同时mongodb也使用了bucket size数组来定义多个大小size不同的列表,用于将要删除的记录根据其size大小放到合适的“释放列表”中。Hbase的delete是先新建一个tombstonemarkers,然后读的时候会和tombstonemarkers做merge,在 发生major compaction时delete的数据记录才会真真删除。
7.mongodb和hbase都支持mapreduce,不过mongodb的mapreduce支持不够强大,如果没有使用mongodb分片,mapreduce实际上不是并行执行的
8.mongodb支持shard分片,hbase根据row key自动负载均衡,这里shard key和row key的选取尽量用非递增的字段,尽量用分布均衡的字段,因为分片都是根据范围来选择对应的存取server的,如果用递增字段很容易热点server的产生,由于是根据key的范围来自动分片的,如果key分布不均衡就会导致有些key根本就没法切分,从而产生负载不均衡。
9.mongodb的读效率比写高,hbase默认适合写多读少的情况,可以通过hfile.block.cache.size配置,该配置storefile的读缓存占用Heap的大小百分比,0.2表示20%。该值直接影响数据读的性能。如果写比读少很多,开到0.4-0.5也没问题。如果读写较均衡,0.3左右。如果写比读多,果断默认0.2吧。设置这个值的时候,你同时要参考hbase.regionserver.global.memstore.upperLimit,该值是memstore占heap的最大百分比,两个参数一个影响读,一个影响写。如果两值加起来超过80-90%,会有OOM的风险,谨慎设置。
10.hbase采用的LSM思想(Log-Structured Merge-Tree),就是将对数据的更改hold在内存中,达到指定的threadhold后将该批更改merge后批量写入到磁盘,这样将单个写变成了批量写,大大提高了写入速度,不过这样的话读的时候就费劲了,需要merge disk上的数据和memory中的修改数据,这显然降低了读的性能。mongodb采用的是mapfile+Journal思想,如果记录不在内存,先加载到内存,然后在内存中更改后记录日志,然后隔一段时间批量的写入data文件,这样对内存的要求较高,至少需要容纳下热点数据和索引。
分享到:
相关推荐
mongodb 数据库基本操作 1、mongoDB的介绍 mongoDB是一个基于分布式文件存储的数据库,由 C++ 语言编写,旨在为 WEB 应用提供可扩展的高性能数据存储解决方案。它介于关系数据库和非关系数据库之间,被认为是非...
MongoDB VS2015 windows10下的C++开发环境搭建
非关系数据库(经常被称为NoSQL)的特点是弹性和可伸缩性。另外,它们可以存储大数据并与云计算系统协同工作。这些因素导致非关系数据库非常流行。在2013年,NoSQL数据库的种类达到了150多个,并且一直在增长,多种...
- 不懂运行,下载完可以私聊问,可远程教学 该资源内项目源码是个人的毕设,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! <项目介绍> 1、该资源内项目代码都经过测试运行成功,...
标题提到的是关于连接HBase和MongoDB的驱动程序,这涉及到两个不同的NoSQL数据库系统:HBase(由Apache开发的分布式列式存储系统)和MongoDB(一个流行的文档型数据库)。本压缩包文件包含了实现这一功能的相关工具...
nosql课程设计、教学设计、Redis,MongoDB课程设计,HBase教学设计nosql课程设计、教学设计、Redis,MongoDB课程设计,HBase教学设计nosql课程设计、教学设计、Redis,MongoDB课程设计,HBase教学设计nosql课程设计、...
在VS2019中配置MongoDB,可以让你直接在IDE内进行MongoDB相关的开发工作,而无需手动编译c-driver和c++-driver,这极大地提高了开发效率。 首先,你需要确保已安装了VS2019和MongoDB的相关开发库。VS2019可以通过...
nosql精通教学PPT资源包 Mongodb资料 Redis资料 HBase资料nosql精通教学PPT资源包 Mongodb资料 Redis资料 HBase资料nosql精通教学PPT资源包 Mongodb资料 Redis资料 HBase资料nosql精通教学PPT资源包 Mongodb资料 ...
6.数据库(mysql、postgresql、mongodb、hbase、hdfs、memcached); 7.加解密(md5、sha、base64、aes、rsa); 8.文件; 9.http服务; 10.正则表达式; 11.个人信息:身份证号、手机号、姓名清洗和扩展; 后期会...
《HBase+MongoDB权威指南》是一份涵盖了两个大数据领域重要数据库系统——HBase和MongoDB的详尽学习资源。这两个数据库系统在处理大规模数据存储和检索方面具有显著的优势,尤其适用于非结构化和半结构化的数据管理...
本期末考试题涵盖了 Nosql 数据库的基础知识、 MongoDB、HBase、Neo4j 等分布式数据库的特点和应用场景。涵盖了数据库基础知识、Nosql 数据库的特点、CAP 理论、分布式数据库设计等多方面的知识。 知识点1: 数据库...
本文将对 MongoDB、HDFS、HBase、MySQL、FastDFS、Redis、Hive 等数据库管理系统进行比较和分析。 MongoDB MongoDB 是一个高性能、开源、无模式的文档型数据库,开发语言是 C++。它在许多场景下可用于替代传统的...
HBase、Redis、MongoDB、Couchbase、LevelDB对比
它集成了大量常用的第三方库配置,如JDBC、MongoDB、JPA、RabbitMQ、Quartz等,只需少量配置就能创建一个独立的、生产级别的基于Spring的应用程序。 三、SpringBoot与HBase集成 在SpringBoot中集成HBase,主要涉及...
MongoDB作为另一种流行的NoSQL数据库,虽然在数据模型和使用场景上与HBase有所不同,但两者都在非关系型数据存储领域提供了高效且灵活的选择。 总结HBase的关键知识点: 1. HBase是面向列的分布式数据库,源自...
/usr/local/mongodb/mongodb-linux-2.0.7/bin/mongod --dbpath=/usr/local/mongodb/data/db --logpath=/usr/local/mongodb/mongodb-linux-2.0.7/logs/mongodb.log --logappend --port=27017 --fork 知识点 6:配置...
MongoDB 是一个流行的开源、基于分布式文件存储的数据库系统,主要设计用于处理大量数据的分布式环境。C# 驱动是 MongoDB 提供的一种客户端库,允许 .NET 开发者与 MongoDB 数据库进行交互。标题提到的是 MongoDB 的...