`

转发 Mongodb 和 Hbase的区别

 
阅读更多
原始网址:http://hi.baidu.com/i1see1you/item/783a701f39a87549e75e06ea

1.Mongodb bson文档型数据库,整个数据都存在磁盘中,hbase是列式数据库,集群部署时每个familycolumn保存在单独的hdfs文件中。
2.Mongodb 主键是“_id”,主键上面可以不建索引,记录插入的顺序和存放的顺序一样,hbase的主键就是row key,可以是任意字符串(最大长度是 64KB,实际应用中长度一般为 10-100bytes),在hbase内部,row key保存为字节数组。存储时,数据按照Row key的字典序(byte order)排序存储。设计key时,要充分排序存储这个特性,将经常一起读取的行存储放到一起。
字典序对int排序的结果是1,10,100,11,12,13,14,15,16,17,18,19,2,20,21,…,9,91,92,93,94,95,96,97,98,99。要保持整形的自然序,行键必须用0作左填充。
3.Mongodb支持二级索引,而hbase本身不支持二级索引
4.Mongodb支持集合查找,正则查找,范围查找,支持skip和limit等等,是最像mysql的nosql数据库,而hbase只支持三种查找:通过单个row key访问,通过row key的range,全表扫描
5.mongodb的update是update-in-place,也就是原地更新,除非原地容纳不下更新后的数据记录。而hbase的修改和添加都是同一个命令:put,如果put传入的row key已经存在就更新原记录,实际上hbase内部也不是更新,它只是将这一份数据已不同的版本保存下来而已,hbase默认的保存版本的历史数量是3。
6.mongodb的delete会将该行的数据标示为已删除,因为mongodb在删除记录时并不是真把记录从内存或文件中remove,而是将该删除记录数据置空(写0或特殊数字加以标识)同时将该记录所在地址放到一个list列表“释放列表”中,这样做的好就是就是如果有用户要执行插入记录操作时,mongodb会首先从该“释放列表”中获取size合适的“已删除记录”地址返回,这种方法会提升性能(避免了malloc内存操作),同时mongodb也使用了bucket size数组来定义多个大小size不同的列表,用于将要删除的记录根据其size大小放到合适的“释放列表”中。Hbase的delete是先新建一个tombstonemarkers,然后读的时候会和tombstonemarkers做merge,在 发生major compaction时delete的数据记录才会真真删除。
7.mongodb和hbase都支持mapreduce,不过mongodb的mapreduce支持不够强大,如果没有使用mongodb分片,mapreduce实际上不是并行执行的
8.mongodb支持shard分片,hbase根据row key自动负载均衡,这里shard key和row key的选取尽量用非递增的字段,尽量用分布均衡的字段,因为分片都是根据范围来选择对应的存取server的,如果用递增字段很容易热点server的产生,由于是根据key的范围来自动分片的,如果key分布不均衡就会导致有些key根本就没法切分,从而产生负载不均衡。
9.mongodb的读效率比写高,hbase默认适合写多读少的情况,可以通过hfile.block.cache.size配置,该配置storefile的读缓存占用Heap的大小百分比,0.2表示20%。该值直接影响数据读的性能。如果写比读少很多,开到0.4-0.5也没问题。如果读写较均衡,0.3左右。如果写比读多,果断默认0.2吧。设置这个值的时候,你同时要参考hbase.regionserver.global.memstore.upperLimit,该值是memstore占heap的最大百分比,两个参数一个影响读,一个影响写。如果两值加起来超过80-90%,会有OOM的风险,谨慎设置。
10.hbase采用的LSM思想(Log-Structured Merge-Tree),就是将对数据的更改hold在内存中,达到指定的threadhold后将该批更改merge后批量写入到磁盘,这样将单个写变成了批量写,大大提高了写入速度,不过这样的话读的时候就费劲了,需要merge disk上的数据和memory中的修改数据,这显然降低了读的性能。mongodb采用的是mapfile+Journal思想,如果记录不在内存,先加载到内存,然后在内存中更改后记录日志,然后隔一段时间批量的写入data文件,这样对内存的要求较高,至少需要容纳下热点数据和索引。
分享到:
评论

相关推荐

    linux下环保数据采集存储转发软件

    软件可能采用关系型数据库(如MySQL、PostgreSQL)或非关系型数据库(如MongoDB、HBase)来存储大量时间序列数据。同时,数据的备份和恢复策略也是必不可少的。 5. **数据转发**:数据转发功能将收集到的环保数据...

    nosql分布式数据库期末考试题.docx

    - **JavaScript**: MongoDB 是用 C++ 开发的,但其 Shell 环境使用 JavaScript,使得数据查询和管理更加便捷。 **5. NoSQL 数据库特点** - **分布式**: 能够在多台计算机上分布存储数据,适用于大数据量的处理。 -...

    word123456ads

    这里我们主要探讨几个重要的概念:面向bean编程、面向切面编程、面向对象编程,以及与Hadoop、HBase、Hive、Storm、MongoDB和Struts2相关的知识点。 1. **面向bean编程**(Bean Oriented Programming):虽然这个...

    JAVA分布式程序设计教程

    NoSQL数据库如MongoDB、Cassandra和HBase提供了非关系型的数据存储解决方案,而分布式键值存储如Redis和Memcached则常用于缓存。 8. **分布式计算**:Apache Hadoop和Spark是分布式计算框架的代表,它们用于处理大...

    一线互联网公司面试题目

    **MongoDB与HBase对比**、**并发问题解决**:MongoDB适合文档型数据,HBase适合列族数据,解决并发问题可使用锁、线程池等。 45. **volatile用途**:确保多线程下的可见性和有序性,但不保证原子性。 46. **Java...

    微博系统的项目

    Hadoop和Spark等分布式计算框架可以帮助处理海量数据,而HBase、Cassandra等分布式数据库可提供高扩展性和可用性。 七、安全性与隐私保护 微博系统必须保护用户隐私,如密码加密、HTTPS通信以防止数据窃取。同时,...

    大数据图标大全.docx

    12. **Logstash**: 数据收集、处理和转发工具,通常与Elasticsearch和Kibana一起构建ELK日志分析栈。 13. **Kibana**: 数据可视化工具,用于探索和展示Elasticsearch中的数据。 14. **Ranger**: 集中式安全管理...

    南开大学20秋学期《大数据开发技术(一)》在线作业-1.docx

    - 文档数据库(Document Database):如MongoDB,灵活性高,支持复杂的查询。 2. 大数据系统: - HBase:采用MemStore保证高速缓存,Hlog确保系统恢复,而Zookeeper记录了-ROOT-表的位置。 - Google Cloud SQL是...

    互联网公司技术架构新浪微博.zip

    通常会采用分布式数据库(如HBase或MongoDB)进行存储,确保数据的快速读写。搜索引擎技术(如Elasticsearch)用于实现高效的关键词搜索和推荐功能,使用户能够快速找到感兴趣的信息。 二、可扩展微博架构 1. ...

    51Spark Architect

    11. **反向代理服务器**:如Nginx,接收来自用户的请求,并根据策略转发到后端服务器,可以做负载均衡和安全防护。 12. **负载均衡调度服务器**:负责分配请求到不同的服务器,确保系统负载均匀分布,提高可用性。 ...

    数据库知识了解——web数据库

    - **非关系型数据库**(NoSQL):如MongoDB、CouchDB、Redis等,它们支持分布式、大规模数据存储,适用于高并发和大数据量的场景。 3. **Web数据库的架构**: - **客户端-服务器模型(C/S)**:用户通过Web浏览器...

    大数据技术分享 大数据技术深入浅出 共39页.pdf

    - **Logstash**:用于收集、解析和转发日志事件。 - **Sqoop**:用于在Hadoop和关系数据库之间高效传输数据。 #### 队列技术 - **Redis**:内存中的数据结构存储系统。 - **Kafka**:分布式发布订阅消息系统。 - *...

    第1周 Hadoop生态系统以及版本演化

    - **Logstash**:属于Elasticsearch家族的一员,是一个强大的开源工具,用于收集、解析和转发日志数据。Logstash支持大量的插件来实现不同的数据采集方式,非常适合用于构建复杂的数据管道。 2. **存储系统**:...

    分布式系统原理介绍

    在实际工程项目中,不同的数据分布策略会被应用于各种具体的分布式系统中,如Cassandra使用一致性哈希来分布数据,而HBase则使用行键范围分布。 ##### 2.2 基本副本协议 副本协议用于协调和管理副本之间的一致性。...

Global site tag (gtag.js) - Google Analytics