`
long_yu2
  • 浏览: 334581 次
社区版块
存档分类
最新评论

【转载】HBase性能优化方法总结(2):表的设计

阅读更多

本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客

下面是本文总结的第一部分内容:表的设计相关的优化方法。

1. 表的设计

1.1 Pre-Creating Regions

默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入HBase时,会按照region分区情况,在集群内做数据的负载均衡。

有关预分区,详情参见:Table Creation: Pre-Creating Regions,下面是一个例子:

[java] view plaincopy
  1. public static boolean createTable(HBaseAdmin admin, HTableDescriptor table, byte[][] splits)  
  2. throws IOException {  
  3.   try {  
  4.     admin.createTable(table, splits);  
  5.     return true;  
  6.   } catch (TableExistsException e) {  
  7.     logger.info("table " + table.getNameAsString() + " already exists");  
  8.     // the table already exists...  
  9.     return false;    
  10.   }  
  11. }  
  12.   
  13. public static byte[][] getHexSplits(String startKey, String endKey, int numRegions) {  
  14.   byte[][] splits = new byte[numRegions-1][];  
  15.   BigInteger lowestKey = new BigInteger(startKey, 16);  
  16.   BigInteger highestKey = new BigInteger(endKey, 16);  
  17.   BigInteger range = highestKey.subtract(lowestKey);  
  18.   BigInteger regionIncrement = range.divide(BigInteger.valueOf(numRegions));  
  19.   lowestKey = lowestKey.add(regionIncrement);  
  20.   for(int i=0; i < numRegions-1;i++) {  
  21.     BigInteger key = lowestKey.add(regionIncrement.multiply(BigInteger.valueOf(i)));  
  22.     byte[] b = String.format("%016x", key).getBytes();  
  23.     splits[i] = b;  
  24.   }  
  25.   return splits;  
  26. }  

1.2 Row Key

HBase中row key用来检索表中的记录,支持以下三种方式:

  • 通过单个row key访问:即按照某个row key键值进行get操作;
  • 通过row key的range进行scan:即通过设置startRowKey和endRowKey,在这个范围内进行扫描;
  • 全表扫描:即直接扫描整张表中所有行记录。

在HBase中,row key可以是任意字符串,最大长度64KB,实际应用中一般为10~100bytes,存为byte[]字节数组,一般设计成定长的

row key是按照字典序存储,因此,设计row key时,要充分利用这个排序特点,将经常一起读取的数据存储到一块,将最近可能会被访问的数据放在一块。

举个例子:如果最近写入HBase表中的数据是最可能被访问的,可以考虑将时间戳作为row key的一部分,由于是字典序排序,所以可以使用Long.MAX_VALUE - timestamp作为row key,这样能保证新写入的数据在读取时可以被快速命中。

1.3 Column Family

不要在一张表里定义太多的column family。目前Hbase并不能很好的处理超过2~3个column family的表。因为某个column family在flush的时候,它邻近的column family也会因关联效应被触发flush,最终导致系统产生更多的I/O。感兴趣的同学可以对自己的HBase集群进行实际测试,从得到的测试结果数据验证一下。

1.4 In Memory

创建表的时候,可以通过HColumnDescriptor.setInMemory(true)将表放到RegionServer的缓存中,保证在读取的时候被cache命中。

1.5 Max Version

创建表的时候,可以通过HColumnDescriptor.setMaxVersions(int maxVersions)设置表中数据的最大版本,如果只需要保存最新版本的数据,那么可以设置setMaxVersions(1)。

1.6 Time To Live

创建表的时候,可以通过HColumnDescriptor.setTimeToLive(int timeToLive)设置表中数据的存储生命期,过期数据将自动被删除,例如如果只需要存储最近两天的数据,那么可以设置setTimeToLive(2 * 24 * 60 * 60)。

1.7 Compact & Split

在HBase中,数据在更新时首先写入WAL 日志(HLog)和内存(MemStore)中,MemStore中的数据是排序的,当MemStore累计到一定阈值时,就会创建一个新的MemStore,并且将老的MemStore添加到flush队列,由单独的线程flush到磁盘上,成为一个StoreFile。于此同时, 系统会在zookeeper中记录一个redo point,表示这个时刻之前的变更已经持久化了(minor compact)

StoreFile是只读的,一旦创建后就不可以再修改。因此Hbase的更新其实是不断追加的操作。当一个Store中的StoreFile达到一定的阈值后,就会进行一次合并(major compact),将对同一个key的修改合并到一起,形成一个大的StoreFile,当StoreFile的大小达到一定阈值后,又会对 StoreFile进行分割(split),等分为两个StoreFile。

由于对表的更新是不断追加的,处理读请求时,需要访问Store中全部的StoreFile和MemStore,将它们按照row key进行合并,由于StoreFile和MemStore都是经过排序的,并且StoreFile带有内存中索引,通常合并过程还是比较快的。

实际应用中,可以考虑必要时手动进行major compact,将同一个row key的修改进行合并形成一个大的StoreFile。同时,可以将StoreFile设置大些,减少split的发生。

分享到:
评论

相关推荐

    HBase性能优化方法总结

    综上所述,HBase性能优化是一个综合性的任务,涉及硬件配置、数据模型设计、查询策略、运维管理等多个方面。只有全方位考虑并实践这些策略,才能最大化发挥HBase的性能潜力,满足大数据时代下的高效率需求。

    HBase 表设计 写表、读表 性能优化 word文档

    本文将从表设计、写表、读表三个方面对 HBase 性能优化进行总结。 表设计 1. 预先创建 Regions 在创建 HBase 表的时候,默认情况下,HBase 会自动创建一个 region 分区。当导入数据的时候,所有的 HBase 客户端都...

    Hbase权威指南(HBase: The Definitive Guide)

    - **HBase的概念**:HBase是基于Hadoop的一个分布式、可扩展的列族数据库,它的设计灵感来源于Google的Bigtable论文。 - **HBase的历史**:HBase起源于一个叫做Hadoop的项目中的子项目,最初是为了实现一个类似于...

    Hadoop2.7.1+Hbase1.2.1集群环境搭建(7)hbase 性能优化

    7. **HBase运维参考**:在提供的“hbase运维参考手册(项目实战).docx”文档中,详细介绍了HBase的日常维护、故障排查和性能优化方法,包括但不限于日志分析、监控指标解读、常见问题解决等,对于实际运维工作具有很...

    HBase写性能优化策略

    总结来说,HBase写性能优化可以从多个方面入手,包括调整WAL写入机制、使用批量操作、合理分配Region、保证请求均衡以及控制KeyValue大小。每个策略都有其适用的业务场景和优势,系统管理员和开发者应根据实际需求和...

    hbase性能优化

    除了上述提到的优化方法,HBase的性能优化还可以涉及更多的方面,如合理调整HBase配置、分区和负载均衡策略、压缩和存储优化、监控和诊断等。在HBase集群中,还可能通过调整HMaster和HRegionServer的相关参数来...

    Hbase性能优化百科全书(csdn)————程序.pdf

    在HBase性能优化的过程中,表设计和RowKey的设计是至关重要的。预分区是表设计的一个重要环节,目的是避免因表的自动split导致的资源消耗和性能影响。预分区可以根据业务需求预先设定rowkey的范围,比如在例子中,...

    Hadoop集群(第12期副刊)_Hbase性能优化

    ——HBase性能优化 1、从配置角度优化 1.1 修改Linux配置 Linux系统最大可打开文件数一般默认的参数值是1024,如果你不进行修改并发量上来的时候会出现“Too Many Open Files”的错误,导致整个HBase不可运行,你...

    hbase性能优化.pdf

    有效的表设计是优化性能的关键。应合理规划列族(Family)数量,每个列族内的数据应具有相似的访问模式和生命周期。Qualifier是列族内的具体列,应当尽量细化,以减少不必要的扫描。过多的列族或Qualifier可能导致...

    HBase性能优化指南

    ### HBase性能优化知识点汇总 #### HDFS优化 - **存储机制**: HBase使用HDFS存储WAL(Write-Ahead Log)和HFiles。默认情况下,HDFS不会实时同步数据到磁盘,而是写入临时文件后移动到最终位置,导致在断电情况下...

    HBase的性能优化

    "HBase性能优化" HBase是一种高性能的NoSQL数据库,广泛应用于大数据存储和处理领域。然而,HBase的性能优化是非常重要的,特别是在大规模数据集群环境中。以下是HBase性能优化的相关知识点: 启用LZO压缩 HBase...

    HBase基本操作.pdf

    HBase是一种开源的非关系型分布式...需要注意的是,实验手册中提供的命令格式和使用说明是非常基础的入门指引,对于深入应用HBase来说,掌握高级的Filter使用、时间戳和版本控制、以及数据批量导入方法将更为关键。

    hbase优化总结

    本文档旨在总结 HBase 的优化方法,对项目中使用 HBase 的调优提供指导意义。 1. 修改 Linux 最大文件数 Linux 系统最大可打开文件数的默认参数值是 1024,如果不进行修改,在并发量上来的时候会出现“Too Many ...

    HBase最佳实践-读性能优化策略

    然而,在生产环境中,HBase的读写性能优化是一个比较复杂的问题,尤其对于读延迟的优化更是需要精心设计和调优。下面我们将根据标题和描述中提到的关于HBase读性能优化策略进行详细的知识点阐述。 首先,FullGC异常...

    HBase应用最佳实践详解.pdf

    HBase表设计是指设计HBase表的结构和schema,以满足具体的业务需求。下面是一些常见的HBase表设计原则: * 列族设计:设计合适的列族,可以提高HBase的性能 * 行键设计:设计合适的行键,可以提高HBase的性能 * ...

    hbase2.x-hbck2 jar包及测试命令

    在HBase 2.x版本中,HBCK2(HBase FileSystem Check Tool 2)是一个重要的工具,用于检查和修复HBase表和Region的不一致性。HBCK2是HBase维护和故障排查的重要组成部分,尤其在处理数据丢失、Region分裂不正确或者元...

    HBase安装与配置资源下载:hbase-1.2.6

    HBase是一款基于Google Bigtable设计思想的开源分布式数据库,它属于Apache Hadoop生态系统的一部分,专为处理大规模数据而设计。HBase提供了实时读写、高可靠性和水平扩展的能力,是大数据存储的重要工具。 HBase...

    大数据开发之案例实践Hbase的设计及企业优化视频教程(视频+讲义+笔记+配置+代码+练习)

    │ Hbase表设计-微博案例的表设计 │ Hbase表设计-微博案例的业务实现 │ Hbase列簇属性的介绍 │ Hbase性能优化-GC调优 │ Hbase性能优化-内存管理 │ Hbase性能优化-flush、compact、split │ Hbase性能优化-配置...

Global site tag (gtag.js) - Google Analytics