这段时间刚做完一个hbase项目,存储千亿规模的数据,12台dell,5小时完成扫库。
这里主要是对hbase的数据本地化机制作了优化,本文不对细节作描述。
在后期使用的过程中,使用方发现hbase的随机读性能出现了较大的下降,经常出现单个 GET请求花费3-5秒的现象。这个事情困扰了我很久,因为从我的实验环境上是不可复现的。
实验环境和线上环境的主要区别是数据量和写压力:
实验环境百亿规模的数据,线上是千亿
实验环境基本上没有写压力,而线上随时有较大的写压力。
关于原因做了很多猜测,但是后来都被实验否定了,比如以为hdfs的性能不够,以为Meta Region的性能问题等等。
经过一段时间的跟踪,终于发现问题出现在Bloom Filter上,hbase的bloom filter是惰性加载的,在写压力比较大的情况下,会有不停的compact并产生storefile,那么新的storefile是不会马上将bloom filter加载到内存的,等到读请求来的时候才加载。
这样问题就来了,第一,我们的storefile设置的比较大,max size为2G,这会导致bloom filter也比较大;第二,系统的读写压力都比较大。两个因素加起来,就导致了前边所说的问题。
解决办法:
1)去掉 bloomfilter,我们的数据太大了,这个东西的好处看起来还不如不加好,瞬间就能搞定。
2)将bloomfilter改成激进的方式加载,这个要安排下,恩。
分享到:
相关推荐
### HBase海量数据全量导入方法详解 在大数据领域,HBase作为一款分布式、版本化的宽列存储NoSQL数据库,以其高效的数据读取能力而著称。然而,在面对大规模数据导入时,其compaction机制可能会成为性能瓶颈。本文...
从HBase的集群搭建、HBaseshell操作、java编程、架构、原理、涉及的数据结构,并且结合陌陌海量消息存储案例来讲解实战HBase 课程亮点 1,知识体系完备,从小白到大神各阶段读者均能学有所获。 2,生动形象,化繁为...
在大数据存储和管理领域,HBase是使用HDFS作为其底层存储系统的NoSQL数据库,广泛应用于需要快速随机访问、海量数据存储的场景中。然而,随着数据量和访问量的增加,如何对HBase的写性能进行优化成为一个重要的议题...
在大数据处理领域,基于Hadoop和HBase的大规模海量数据去重是一个常见的需求。Hadoop是Apache开源项目,提供了一个分布式文件系统(HDFS)和MapReduce计算框架,旨在处理和存储海量数据。HBase是建立在Hadoop之上的...
HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。...Google运行MapReduce来处理Bigtable中的海量数据,HBase同样利用Hadoop
文章通过在HBase集群环境下使用真实GIS数据验证了上述方法,实验结果显示,提出的系统在海量数据存储和检索方面性能卓越,能够实现地理信息数据的高效存储和实时高速检索。 文章中的关键词包括大数据、HBase、栅格...
总结,这份文档聚焦在如何利用HBase这一NoSQL数据库解决车联网海量数据存储和查询的问题。内容涵盖了车联网的概念、数据处理的重要性和挑战、HBase的架构特点、数据预处理、行键设计、查询模式设计以及实验验证等多...
在大数据领域,HBase是一个基于Hadoop的分布式数据库,它为海量结构化和半结构化数据提供了高可靠性、高性能的存储方案。HBase备份和数据恢复是系统运维中至关重要的一环,确保了业务连续性和数据安全性。同时,...
HBase – Hadoop Database,是一...Google运行MapReduce来处理Bigtable中的海量数据,HBase同样利用Hadoop MapReduce来处理HBase中的海量数据;Google Bigtable利用 Chubby作为协同服务,HBase利用Zookeeper作为对应。
本文提出并实现了一套基于HBase的海量数据分布式序列存储方案,旨在优化存储性能,并提高系统的扩展性。 要理解本文提出的优化策略,首先需要了解HBase的基本概念和数据模型。HBase的表可以看作一个多维映射表,...
HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩、 实时读写的分布式数据库 – 利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理 HBase中的海量数据,利用Zookeeper作为其分布式...
而HBase则是一种非关系型分布式数据库(NoSQL),特别适合处理海量半结构化或非结构化数据。本文将详细介绍如何将MySQL中的数据处理成JSON格式并导入到HBase中。 首先,我们需要了解MySQL的基本操作。MySQL是一个...
随着地理信息系统(GIS)、卫星遥感、网络地图服务和位置服务等领域的快速发展,空间矢量数据的规模以指数级增长,海量空间数据的存储和高效管理已经成为一个亟待解决的技术难题。传统的数据库系统已难以满足大规模...
而HBase作为分布式列式数据库,适合存储海量结构化半结构化数据。这三者之间的集成,使得实时数据流能够被快速处理并持久化存储。 **Kafka简介** Kafka是一个开源的流处理平台,由LinkedIn开发并贡献给Apache软件...
总结:HBase作为基于列式存储的NoSQL数据库,其数据结构设计以高并发读写和海量数据存储为特色。在设计HBase数据结构时,需要充分考虑如何利用列族、行键、时间戳等核心概念来优化数据模型和存储结构,进而提升查询...
它提供了高吞吐量的数据读写能力,特别适合实时查询和分析海量数据。HBase的强大之处在于其能够支持随机读写,且数据按行和列族组织,使得数据查询效率极高。 YCSB(Yahoo! Cloud Serving Benchmark)是Yahoo开发的...
在实际应用中,由于HBase的分布式特性,查询性能依赖于良好的Row Key设计。合理规划Row Key,可以提高数据访问速度和空间效率。此外,可以使用Scan操作进行范围查询,或通过Filter进行更复杂的过滤。 ### 6. 遇到的...
技术篇中详细介绍了HBase的读性能优化策略,包括AssignmentManagerV2、高可用读RegionReplica等,这些是HBase2.0版本中的新功能,旨在提升系统性能和稳定性。另外,HBaseCoprocessor的实现与应用也是重要的知识点,...