`
bupt04406
  • 浏览: 347445 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

facebook hbase版本目前做的一些重要特性,提升性能

 
阅读更多

(1)每个regionserver多个HLog,提升写。 社区还没有

 

https://issues.apache.org/jira/browse/HBASE-5699

https://issues.apache.org/jira/browse/HBASE-6981

http://svn.apache.org/viewvc?view=revision&revision=1412373

 

(2)多线程flush memstore,提升写,社区还没有

https://issues.apache.org/jira/browse/HBASE-6980

https://issues.apache.org/jira/browse/HBASE-6466

 

(3)HTableMultiplexer,提升写,社区还没有

https://issues.apache.org/jira/browse/HBASE-5776

 

(4)scan

https://issues.apache.org/jira/browse/HBASE-6922

 

(5) Distributed log splitting

https://issues.apache.org/jira/browse/HBASE-1364

http://blog.cloudera.com/blog/2012/07/hbase-log-splitting/

 

(6) HFileV2

https://issues.apache.org/jira/browse/HBASE-3857

 

(7)并行写,hdfs的写最早是pipeline的方式,那么延时跟pipeline的长度有关。facebook最早就实现了并行写,client同时向3个datanode写,而不是pipelien的方式,这种方式可以降低延时,但是会降低吞吐量

https://issues.apache.org/jira/browse/HDFS-1783

社区版本还没有集成这个patch进去

(8)datablock 后面紧跟 checksum,数据和校验和存在一起,存一个文件,可以减少磁盘iops,但是能够减少多少,提升多大不太知道,因为checksum一般都比较小,绝大时候都cache在os中。
社区hbase已经支持,但是hdfs不支持,facebook的hbase版本已经支持,hdfs也支持。
如果hdfs支持,那么hbase的就没什么用了。
hbase的hfile支持,那么可以关闭底层hdfs的checksum,但是现在hdfs不支持关闭checksum。hfile是支持,但是hbase写的其他文件如hlog和一些.regioninfo文件等还是不能关闭checksum的,这些文件的数据中没有带checksum。

 

(9)Lazy-seek optimization for StoreFile scanners

 

 

facebook使用的hadoop版本是在:

https://github.com/facebook/hadoop-20

 

 

很多重要的提升都是facebook的人完成的,facebook维护了一个自己的版本,能够快速的添加新的特性并进行验证,比如(1)(2)很早之前在社区就讨论过,但是一直没有做完,但是这些特性已经在facebook的版本里面有了。

http://svn.apache.org/viewvc/hbase/branches/0.89-fb/

 

他们的目前的版本跟社区0.94比较接近

 

http://hadoopstack.com/

分享到:
评论

相关推荐

    Facebook开发HDFS和HBase的新进展

    3. **性能优化**:Facebook通过改进HBase的数据结构和算法,进一步提升了数据读写性能,特别是在处理大量随机读操作时,通过采用Inline Checksum技术,显著提高了数据吞吐量,保障了系统的高效运行。 #### 总结 ...

    hbase-1.0.3-bin.tar

    HBase 1.0.3版本在性能、稳定性和易用性上都有所提升,包括增强的Compaction策略、更高效的Region分裂、更丰富的监控指标以及更好的Java API。这些改进使得开发者能更好地管理和利用大数据资源。 总结来说,HBase ...

    nosql&hbase;原理

    HBase的一些高级特性包括对数据的实时查询优化、动态列族扩展和多级索引等。这些特性使得HBase在需要对大数据进行快速分析和处理的场合尤其有用,比如社交媒体平台、电信行业以及金融行业的数据存储和处理。 尽管...

    hbase-2.1.7-bin.tar.gz

    三、HBase特性 1. **高度可扩展**:通过自动分区和负载均衡,HBase可以轻松处理PB级别的数据。 2. **实时读写**:支持毫秒级的读写操作,满足实时大数据应用场景。 3. **多版本并发控制**:每个记录可以有多个版本...

    大数据技术基础培训-HBase技术介绍.pptx

    随着时间的推移,HBase逐渐成熟,Facebook在2010年10月采用0.89版本作为生产环境,后续的0.92、0.94、0.96版本不断优化性能和功能,支持Hadoop 2.0和JDK7。Transwarp基于0.94.11开发了自己的版本。当前的主流版本...

    基于Facebook的Hive开发

    本文将详细介绍Facebook如何利用Hive进行高效的数据管理和查询,并分享一些最新的特性和未来发展方向。 #### 什么是Hive? Hive是一种用于管理并查询结构化数据的系统,它构建在Hadoop之上,旨在为大数据提供高效...

    小米统计的亿级大数据实时分析平台

    其中HBase是小米在大数据存储方面的关键技术之一,对于HBase的改进,小米提出了一些重要的特性如CheckAndPut、Increment原子性、RowKey TTL以及高I/O性能等。 6. 数据采集与ETL:利用Scribe、Flume等技术进行数据...

    大数据平台的软件有哪些(20220212194324).pdf

    以下是一些重要的大数据平台软件的介绍: 1. **Phoenix** Phoenix是一个建立在Apache HBase之上的SQL查询引擎,它通过Java中间层提供了JDBC驱动,使得开发者能够使用SQL语言对HBase进行操作。Phoenix将SQL查询转化...

    NoSQL数据库探讨之一-为什么要用非关系数据库?.pdf

    在基于web的架构中,数据库的扩展性是最难实现的,而NoSQL数据库通常支持水平扩展,允许通过增加服务器节点来提升性能和负载能力。比如,Cassandra和HBase利用分布式哈希表(DHT)实现数据的自动分片和复制,从而...

    apache-hive-2.3.4-bin.tar.gz

    1. **性能优化**:此版本对查询优化器进行了改进,提升了查询性能,特别是对于复杂查询和大型数据集。 2. **安全性增强**:增加了对Hadoop的Sentry和Kerberos的支持,提供更强大的权限管理和安全控制。 3. **稳定...

    hive学习笔记

    8. **ACID特性**:从Hive 0.13版本开始,Hive引入了部分ACID(原子性、一致性、隔离性和持久性)特性,尤其是对于事务处理的支持,如INSERT、UPDATE和DELETE操作。 9. **Hive的优化**:包括使用EXPLAIN命令分析查询...

    DB总结

    HBase是一个基于Hadoop的分布式、版本化、列族式的NoSQL数据库,适合存储非结构化和半结构化数据。优化HBase可能涉及到调整配置参数,如Region大小、BlockCache设置、Compaction策略等,以提高读写性能和存储效率。...

    hive技术分享文档

    随着Hive的发展,新的特性不断加入,如Hive on Tez和Hive on Spark,以及ACID(原子性、一致性、隔离性和持久性)事务支持,提升了Hive在实时和交互式查询场景下的性能。 总之,“Hive技术分享文档”应该会涵盖以上...

    开源分布式文件系统

    为了提升性能,快速资源定位技术也在开发中,如概率路由、Chord、Pastry和Tapetry等,它们的目标是减少文件块的寻址时间至微秒级别。 在分布式文件系统的设计上,元数据管理是核心问题之一。集中式元数据管理虽然...

    Phoenix技术与应用

    - **社区版本/分支**:Phoenix 支持不同版本的 HBase,例如针对 HBase 1.x 的 Phoenix 4.14.1 和针对 HBase 2.x 的 Phoenix 5.0。 - **访问方式**:除了 JDBC API 外,Phoenix 还支持 Python、Go、C# 等语言的轻...

    Hadoop Hive

    他可能会强调Hive的并行处理能力,以及如何通过优化查询来提升性能。 “HiveTutorial.pdf”可能是一个全面的Hive教程,涵盖了Hive的基本概念,如表的创建、数据加载、查询语法、分区和桶的概念,以及如何使用Hive...

    nosql数据库简介.pptx

    但随着互联网的快速发展,特别是Web 2.0时代的到来,用户生成内容的增多,如微博、Facebook和Twitter等社交平台的兴起,导致数据量激增,对数据库性能、扩展性和可用性的需求大幅提升。 NoSQL数据库并不保证关系...

    Hadoop权威指南---中文版

    - **Hadoop在Nutch搜索引擎**:探讨了Nutch搜索引擎如何借助Hadoop提升搜索性能。 - **Hadoop用于Rackspace的日志处理**:讲述了Rackspace如何使用Hadoop来处理大量的日志数据。 - **Cascading项目**:介绍了...

    Hadoop平台优化文献综述.docx

    还有,论文[8]分析了影响Hadoop效率的五个因素,包括网络延迟、磁盘I/O、CPU利用率、数据分布和任务粒度,并提出了针对性的优化策略,实现了2.5至3.5倍的性能提升。而论文[9]提出的Trojan Index和Trojan Join算法,...

Global site tag (gtag.js) - Google Analytics