总体来说两者的设计思路差不多,主要就是通过划区间去分布数据,后台进程进行数据分裂
两者的区别主要在于:
1、HBase依赖于HDFS;MongoDB直接存储在本地磁盘中
2、HBase按照列族将数据存储在不同的文件中;MongoDB不分列,整个文档都存储在一个(或者说一组)文件中,通过一个有一个通用的.ns文件保存名称空间(Column-based和Document-Based之间的区别应该是指这个地方吧)
3、HBase一个region只有一个HRegionServer对外提供服务(没有负载均衡的概念);MongoDB的shards(类似于region)支持负载均衡(主从结构,通过日志进行同步,这个HBase也在开发计划当中)
4、HBase根据文件的大小来控制region的分裂;MongoDB根据负载来决定shards的分裂(没有深入研究,不知道如何根据负载的)
1.Mongodb bson文档型数据库,整个数据都存在磁盘中,hbase是列式数据库,集群部署时每个familycolumn保存在单独的hdfs文件中。
2.Mongodb 主键是“_id”,主键上面可以不建索引,记录插入的顺序和存放的顺序一样,hbase的主键就是row key,可以是任意字符串(最大长度是 64KB,实际应用中长度一般为 10-100bytes),在hbase内部,row key保存为字节数组。存储时,数据按照Row key的字典序(byte order)排序存储。设计key时,要充分排序存储这个特性,将经常一起读取的行存储放到一起。
字典序对int排序的结果是1,10,100,11,12,13,14,15,16,17,18,19,2,20,21,…,9,91,92,93,94,95,96,97,98,99。要保持整形的自然序,行键必须用0作左填充。
3.Mongodb支持二级索引,而hbase本身不支持二级索引
4.Mongodb支持集合查找,正则查找,范围查找,支持skip和limit等等,是最像mysql的nosql数据库,而hbase只支持三种查找:通过单个row key访问,通过row key的range,全表扫描
5.mongodb的update是update-in-place,也就是原地更新,除非原地容纳不下更新后的数据记录。而hbase的修改和添加都是同一个命令:put,如果put传入的row key已经存在就更新原记录,实际上hbase内部也不是更新,它只是将这一份数据已不同的版本保存下来而已,hbase默认的保存版本的历史数量是3。
6.mongodb的delete会将该行的数据标示为已删除,因为mongodb在删除记录时并不是真把记录从内存或文件中remove,而是将该删除记录数据置空(写0或特殊数字加以标识)同时将该记录所在地址放到一个list列表“释放列表”中,这样做的好就是就是如果有用户要执行插入记录操作时,mongodb会首先从该“释放列表”中获取size合适的“已删除记录”地址返回,这种方法会提升性能(避免了malloc内存操作),同时mongodb也使用了bucket size数组来定义多个大小size不同的列表,用于将要删除的记录根据其size大小放到合适的“释放列表”中。Hbase的delete是先新建一个tombstonemarkers,然后读的时候会和tombstonemarkers做merge,在 发生major compaction时delete的数据记录才会真真删除。
7.mongodb和hbase都支持mapreduce,不过mongodb的mapreduce支持不够强大,如果没有使用mongodb分片,mapreduce实际上不是并行执行的
8.mongodb支持shard分片,hbase根据row key自动负载均衡,这里shard key和row key的选取尽量用非递增的字段,尽量用分布均衡的字段,因为分片都是根据范围来选择对应的存取server的,如果用递增字段很容易热点server的产生,由于是根据key的范围来自动分片的,如果key分布不均衡就会导致有些key根本就没法切分,从而产生负载不均衡。
9.mongodb的读效率比写高,hbase默认适合写多读少的情况,可以通过hfile.block.cache.size配置,该配置storefile的读缓存占用Heap的大小百分比,0.2表示20%。该值直接影响数据读的性能。如果写比读少很多,开到0.4-0.5也没问题。如果读写较均衡,0.3左右。如果写比读多,果断默认0.2吧。设置这个值的时候,你同时要参考hbase.regionserver.global.memstore.upperLimit,该值是memstore占heap的最大百分比,两个参数一个影响读,一个影响写。如果两值加起来超过80-90%,会有OOM的风险,谨慎设置。
10.hbase采用的LSM思想(Log-Structured Merge-Tree),就是将对数据的更改hold在内存中,达到指定的threadhold后将该批更改merge后批量写入到磁盘,这样将单个写变成了批量写,大大提高了写入速度,不过这样的话读的时候就费劲了,需要merge disk上的数据和memory中的修改数据,这显然降低了读的性能。mongodb采用的是mapfile+Journal思想,如果记录不在内存,先加载到内存,然后在内存中更改后记录日志,然后隔一段时间批量的写入data文件,这样对内存的要求较高,至少需要容纳下热点数据和索引。
http://blog.csdn.net/xuebo_911/article/details/8448653
相关推荐
1. **安装驱动**:确保你已经在运行环境上安装了HBase和MongoDB的Java驱动程序。 2. **配置连接**:在代码中配置数据库连接参数,如主机名、端口、数据库名和认证信息(如果需要)。 3. **编写数据迁移脚本**:使用...
《HBase+MongoDB权威指南》是一份涵盖了两个大数据领域重要数据库系统——HBase和MongoDB的详尽学习资源。这两个数据库系统在处理大规模数据存储和检索方面具有显著的优势,尤其适用于非结构化和半结构化的数据管理...
nosql课程设计、教学设计、Redis,MongoDB课程设计,HBase教学设计nosql课程设计、教学设计、Redis,MongoDB课程设计,HBase教学设计nosql课程设计、教学设计、Redis,MongoDB课程设计,HBase教学设计nosql课程设计、...
一个封装了 hbase、cassandra 和 mongodb 的 java 地图实现。 允许人们通过本机地图界面在这些 NoSQL 数据库中缓存对象。 它使 NoSQL 数据库的迁移变得容易。 这个想法也是为了让 Hazelcast 赚钱。 先决条件 您需要...
HBase、Redis、MongoDB、Couchbase、LevelDB对比
在大数据领域,HBase作为一款分布式列式数据库,因其高并发、低延迟和大规模存储的特点,被广泛应用在实时数据处理和分析中。然而,对于非技术人员来说,直接操作HBase命令行进行数据管理可能会显得较为复杂。因此,...
hbase的JAVA客户端所需jar包 jedis的JAVA客户端所需jar包 mongo的JAVA客户端所需...大数据——四种数据库(MySQL,HBase,MongoDB,Redis)操作实例总结:https://blog.csdn.net/weixin_43042683/article/details/106230370
通过这个作业,学生可以深入理解UDP和TCP的区别,掌握Java中使用`DatagramSocket`进行UDP通信的方法,以及如何处理进程间通信的同步问题。同时,这也是对分布式系统中进程通信和网络编程基础知识的巩固和实践。
MongoDB作为另一种流行的NoSQL数据库,虽然在数据模型和使用场景上与HBase有所不同,但两者都在非关系型数据存储领域提供了高效且灵活的选择。 总结HBase的关键知识点: 1. HBase是面向列的分布式数据库,源自...
欧阳康在2014年北京MongoDB大会上分享了快的打车如何利用MongoDB解决关键业务场景中的挑战,包括地理位置服务(LBS)和海量数据存储等方面的成功经验。尽管MongoDB在这些场景中表现出色,但也存在一些局限性需要改进。...
1)、底层为 HDFS 存储,数据存储在 HBase分 布式数据库中,完成数据库和表的设计与创建。 2)实现对数据的添加、查询等基本的数据库操作。 3)使用 MapReduce 编程模型实现问题的计算和结果展示。
对于NoSQL数据库HBase、Redis和MongoDB,虽然没有提供具体的操作步骤,但通常它们的使用包括安装相应的客户端工具,学习其特定的命令行语法或者Java API,例如HBase的HBase Shell、Redis的`redis-cli`和MongoDB的...
与MySQL这类关系型数据库相比,MongoDB在数据表示、查询、关系、事务、schema设计和定义、标准化以及性能等方面有本质的区别。特别是MongoDB使用BSON(一种类似JSON的二进制格式)来存储数据,支持动态的schema设计...
### HBase架构简介 HBase是一种分布式的、面向列的开源数据库,是Apache顶级项目之一。它基于Google的Bigtable...此外,HBase通过合理的架构设计确保了系统的高可用性和扩展性,使其成为处理大规模数据的理想选择。
它假定硬件故障是常态而非例外,因此在设计之初就充分考虑到了如何在低成本硬件上实现高可用性和数据完整性。 - **应用场景:** 非常适合那些需要大量存储空间但预算有限的场景,例如大型数据分析平台、社交媒体的...
它构建在Hadoop之上,提供BigTable类似的分布式存储能力,适用于非结构化和半结构化数据的存储。HBase支持实时查询,并且在大数据分析中表现出色,但并不支持SQL,而是通过Java API进行访问。 MongoDB是一款文档...
作者Nishant Garg凭借其在软件架构和开发领域的丰富经验,特别是在Java、Java Enterprise Edition、SOA、Spring、Hibernate、Hadoop、Hive、Flume、Sqoop、Oozie、Spark、Shark、YARN、Impala、Kafka、Storm、Solr/...