海量数据下HBase的读性能 - - ITeye博客

`

redisliu

浏览: 5565 次
性别:
来自: 北京

最近访客更多访客>>

leiyu_65012

donala_zq

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

2011-08 ( 2)
更多存档...

最新评论

ppcpu：请问 hbase中利用 SingleColumnValueF ...
海量数据下HBase的读性能

海量数据下HBase的读性能

博客分类：

hbase performance

hbase bloomfilter get performance 性能

阅读更多

这段时间刚做完一个hbase项目，存储千亿规模的数据，12台dell，5小时完成扫库。
这里主要是对hbase的数据本地化机制作了优化，本文不对细节作描述。
在后期使用的过程中，使用方发现hbase的随机读性能出现了较大的下降，经常出现单个 GET请求花费3-5秒的现象。这个事情困扰了我很久，因为从我的实验环境上是不可复现的。

实验环境和线上环境的主要区别是数据量和写压力：
实验环境百亿规模的数据，线上是千亿
实验环境基本上没有写压力，而线上随时有较大的写压力。

关于原因做了很多猜测，但是后来都被实验否定了，比如以为hdfs的性能不够，以为Meta Region的性能问题等等。
经过一段时间的跟踪，终于发现问题出现在Bloom Filter上，hbase的bloom filter是惰性加载的，在写压力比较大的情况下，会有不停的compact并产生storefile，那么新的storefile是不会马上将bloom filter加载到内存的，等到读请求来的时候才加载。
这样问题就来了，第一，我们的storefile设置的比较大，max size为2G，这会导致bloom filter也比较大；第二，系统的读写压力都比较大。两个因素加起来，就导致了前边所说的问题。

解决办法：
1)去掉 bloomfilter，我们的数据太大了，这个东西的好处看起来还不如不加好，瞬间就能搞定。
2)将bloomfilter改成激进的方式加载，这个要安排下，恩。

分享到：

HBase bug：重启机群后不能正常工作

2011-08-04 13:01
浏览 3980
评论(1)
分类:企业架构
查看更多

评论

1 楼 ppcpu 2011-11-22

请问 hbase中利用 SingleColumnValueFilter实现的where查询，怎么优化能更快点呢？

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

hbase海量数据的全量导入方法: ### HBase海量数据全量导入方法详解在大数据领域，HBase作为一款分布式、版本化的宽列存储NoSQL数据库，以其高效的数据读取能力而著称。然而，在面对大规模数据导入时，其compaction机制可能会成为性能瓶颈。本文...

HBase海量数据存储实战视频教程: 从HBase的集群搭建、HBaseshell操作、java编程、架构、原理、涉及的数据结构，并且结合陌陌海量消息存储案例来讲解实战HBase 课程亮点 1，知识体系完备，从小白到大神各阶段读者均能学有所获。 2，生动形象，化繁为...

HBase写性能优化策略: 在大数据存储和管理领域，HBase是使用HDFS作为其底层存储系统的NoSQL数据库，广泛应用于需要快速随机访问、海量数据存储的场景中。然而，随着数据量和访问量的增加，如何对HBase的写性能进行优化成为一个重要的议题...

基于Hadoop和HBase的大规模海量数据去重.zip: 在大数据处理领域，基于Hadoop和HBase的大规模海量数据去重是一个常见的需求。Hadoop是Apache开源项目，提供了一个分布式文件系统（HDFS）和MapReduce计算框架，旨在处理和存储海量数据。HBase是建立在Hadoop之上的...

HBase数据库性能调优: HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。...Google运行MapReduce来处理Bigtable中的海量数据，HBase同样利用Hadoop

基于HBase的海量GIS数据分布式处理实践.pdf: 文章通过在HBase集群环境下使用真实GIS数据验证了上述方法，实验结果显示，提出的系统在海量数据存储和检索方面性能卓越，能够实现地理信息数据的高效存储和实时高速检索。文章中的关键词包括大数据、HBase、栅格...

基于HBase的车联网海量数据查询.pdf: 总结，这份文档聚焦在如何利用HBase这一NoSQL数据库解决车联网海量数据存储和查询的问题。内容涵盖了车联网的概念、数据处理的重要性和挑战、HBase的架构特点、数据预处理、行键设计、查询模式设计以及实验验证等多...

hbase备份和数据恢复: 在大数据领域，HBase是一个基于Hadoop的分布式数据库，它为海量结构化和半结构化数据提供了高可靠性、高性能的存储方案。HBase备份和数据恢复是系统运维中至关重要的一环，确保了业务连续性和数据安全性。同时，...

Hbase 表设计与操作: HBase – Hadoop Database，是一...Google运行MapReduce来处理Bigtable中的海量数据，HBase同样利用Hadoop MapReduce来处理HBase中的海量数据；Google Bigtable利用 Chubby作为协同服务，HBase利用Zookeeper作为对应。

基于HBase的海量数据分布式序列存储策略优化.pdf: 本文提出并实现了一套基于HBase的海量数据分布式序列存储方案，旨在优化存储性能，并提高系统的扩展性。要理解本文提出的优化策略，首先需要了解HBase的基本概念和数据模型。HBase的表可以看作一个多维映射表，...

elasticsearch+hbase海量数据查询: HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库 – 利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理 HBase中的海量数据,利用Zookeeper作为其分布式...

mysql中数据经处理导入到hbase中: 而HBase则是一种非关系型分布式数据库（NoSQL），特别适合处理海量半结构化或非结构化数据。本文将详细介绍如何将MySQL中的数据处理成JSON格式并导入到HBase中。首先，我们需要了解MySQL的基本操作。MySQL是一个...

基于HBase的矢量空间数据分布式存储研究.pdf: 随着地理信息系统（GIS）、卫星遥感、网络地图服务和位置服务等领域的快速发展，空间矢量数据的规模以指数级增长，海量空间数据的存储和高效管理已经成为一个亟待解决的技术难题。传统的数据库系统已难以满足大规模...

Kafka集成Spark Streaming并写入数据到HBase: 而HBase作为分布式列式数据库，适合存储海量结构化半结构化数据。这三者之间的集成，使得实时数据流能够被快速处理并持久化存储。 **Kafka简介** Kafka是一个开源的流处理平台，由LinkedIn开发并贡献给Apache软件...

浅谈HBASE数据结构设计.pdf: 总结：HBase作为基于列式存储的NoSQL数据库，其数据结构设计以高并发读写和海量数据存储为特色。在设计HBase数据结构时，需要充分考虑如何利用列族、行键、时间戳等核心概念来优化数据模型和存储结构，进而提升查询...

hbase+ycsb工具: 它提供了高吞吐量的数据读写能力，特别适合实时查询和分析海量数据。HBase的强大之处在于其能够支持随机读写，且数据按行和列族组织，使得数据查询效率极高。 YCSB（Yahoo! Cloud Serving Benchmark）是Yahoo开发的...

Hbase实验报告.pdf: 在实际应用中，由于HBase的分布式特性，查询性能依赖于良好的Row Key设计。合理规划Row Key，可以提高数据访问速度和空间效率。此外，可以使用Scan操作进行范围查询，或通过Filter进行更复杂的过滤。 ### 6. 遇到的...

hbase社区2018精选资料: 技术篇中详细介绍了HBase的读性能优化策略，包括AssignmentManagerV2、高可用读RegionReplica等，这些是HBase2.0版本中的新功能，旨在提升系统性能和稳定性。另外，HBaseCoprocessor的实现与应用也是重要的知识点，...

Global site tag (gtag.js) - Google Analytics