`
veveer
  • 浏览: 2822 次
  • 性别: Icon_minigender_1
最近访客 更多访客>>
文章分类
社区版块
存档分类
最新评论

HBase在单Column和多Column情况下批量Put的性能对比分析

阅读更多
HBase在单Column和多Column情况下批量Put的性能对比分析
作者: 大圆那些事 | 文章可以转载,请以超链接形式标明文章原始出处和作者信息

网址: http://www.cnblogs.com/panfeng412/archive/2013/11/28/hbase-batch-put-performance-analysis-of-single-column-and-multiple-columns.html

针对HBase在单column family单column qualifier和单column family多column qualifier两种场景下,分别批量Put写入时的性能对比情况,下面是结合HBase的源码来简单分析解释这一现象。

1. 测试结果
在客户端批量写入时,单列族单列模式和单列族多列模式的TPS和RPC次数相差很大,以客户端10个线程,开启WAL的两种模式下的测试数据为例,

单列族单列模式下,TPS能够达到12403.87,实际RPC次数为53次;
单列族多列模式下,TPS只有1730.68,实际RPC次数为478次。
二者TPS相差约7倍,RPC次数相差约9倍。详细的测试环境这里不再罗列,我们这里关心的只是在两种条件下的性能差别情况。

2. 粗略分析
下面我们先从HBase存储原理层面“粗略”分析下为什么出现这个现象:

HBase的KeyValue类中自带的字段占用大小约为50~60 bytes左右(参考HBase源码org/apache/hadoop/hbase/KeyValue.java),那么客户端Put一行数据时(53个字段,row key为64 bytes,value为751 bytes):

1)  开WAL,单column family单column qualifier,批量Put:(50~60) + 64 + 751 = 865~875 bytes;

2)  开WAL,单column family多column qualifier,批量Put:((50~60) + 64) * 53 + 751 = 6793~7323 bytes。

因此,总体来看,后者实际传输的数据量是前者的:(6793~7323 bytes) / (865~875 bytes) = 7.85~8.36倍,与测试结果478 / 53 = 9.0倍基本相符(由于客户端write buffer大小一样,实际请求数的比例关系即代表了实际传输的数据量的比例关系)。

3. 源码分析
OK,口说无凭,下面我们通过对HBase的源码分析来进一步验证以上理论估算值:

HBase客户端执行put操作后,会调用put.heapSize()累加当前客户端buffer中的数据,满足以下条件则调用flushCommits()将客户端数据提交到服务端:

1)每次put方法调用时可能传入的是一个List<Put>,此时每隔DOPUT_WB_CHECK条(默认为10条),检查当前缓存数据是否超过writeBufferSize(测试中被设置为5MB),超过则强制执行刷新;

2)autoFlush被设置为true,此次put方法调用后执行一次刷新;

3)autoFlush被设置为false,但当前缓存数据已超过设定的writeBufferSize,则执行刷新。
private void doPut(final List<Put> puts) throws IOException {
        int n = 0;
        for (Put put : puts) {
            validatePut(put);
            writeBuffer.add(put);
            currentWriteBufferSize += put.heapSize();
            // we need to periodically see if the writebuffer is full instead 
            // of waiting until the end of the List
            n++;
            if (n % DOPUT_WB_CHECK == 0
                    && currentWriteBufferSize > writeBufferSize) {
                flushCommits();
            }
        }
        if (autoFlush || currentWriteBufferSize > writeBufferSize) {
            flushCommits();
        }
    }

由上述代码可见,通过put.heapSize()累加客户端的缓存数据,作为判断的依据;那么,我们可以按照测试数据的实际情况,编写代码生成Put对象后就能得到测试过程中的一行数据(由53个字段组成,共计731 bytes)实际占用的客户端缓存大小:
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.util.Bytes;

public class PutHeapSize {
    /**
     * @param args
     */
    public static void main(String[] args) {
        // single column Put size
        byte[] rowKey = new byte[64];
        byte[] value = new byte[751];
        Put singleColumnPut = new Put(rowKey);
        singleColumnPut.add(Bytes.toBytes("t"), Bytes.toBytes("col"), value);
        System.out.println("single column Put size: " + singleColumnPut.heapSize());
        
        // multiple columns Put size
        value = null;
        Put multipleColumnsPut = new Put(rowKey);
        for (int i = 0; i < 53; i++) {
            multipleColumnsPut.add(Bytes.toBytes("t"), Bytes.toBytes("col" + i), value);
        }
        System.out.println("multiple columns Put size: " + (multipleColumnsPut.heapSize() + 751));
    }
}

程序输出结果如下:

single column Put size: 1208
multiple columns Put size: 10575
由运行结果可得到,9719/1192 = 8.75,与上述理论分析值(7.85~8.36倍)、实际测试结果值(9.0倍)十分接近,基本可以验证测试结果的准确性。

如果你还对put.heapSize()方法感兴趣,可以继续阅读其源码实现,你会发现对于一个put对象来说,其中KeyValue对象的大小最主要决定了整个put对象的heapSize大小,为了进一步通过实例验证,下面的这段代码分别计算单column和多columns两种情况下一行数据的KeyValue对象的heapSize大小:
import org.apache.hadoop.hbase.KeyValue;
public class KeyValueHeapSize {
    /**
     * @param args
     */
    public static void main(String[] args) {
        
        // single column KeyValue size
        byte[] row = new byte[64]; // test row length
        byte[] family = new byte[1]; // test family length
        byte[] qualifier = new byte[4]; // test qualifier length
        long timestamp = 123456L; // ts
        byte[] value = new byte[751]; // test value length
        KeyValue singleColumnKv = new KeyValue(row, family, qualifier, timestamp, value);
        System.out.println("single column KeyValue size: " + singleColumnKv.heapSize());
        
        // multiple columns KeyValue size
        value = null;
        KeyValue multipleColumnsWithoutValueKv = new KeyValue(row, family, qualifier, timestamp, value);
        System.out.println("multiple columns KeyValue size: " + (multipleColumnsWithoutValueKv.heapSize() * 53 + 751));
    }
    
}


程序输出结果如下:

single column KeyValue size: 920
multiple columns KeyValue size: 10079
与前面PutHeapSize程序的输出结果对比发现,KeyValue确实占据了整个Put对象的大部分heapSize空间,同时发现从KeyValue对象级别对比两种情况下的传出数据量情况:10079/920 = 10.9倍,也与实际测试值比较接近。

4. 相关结论
经过以上分析可以得出以下结论:

在实际应用场景中,对于单column qualifier和多column qualifier两种情况,如果value长度越长,row key长度越短,字段数(column qualifier数)越少,前者和后者在实际传输数据量上会相差小些;反之则相差较大。
如果采用多column qualifier的方式存储,且客户端采取批量写入的方式,则可以根据实际情况,适当增大客户端的write buffer大小,以便能够提高客户端的写入吞吐量。
分享到:
评论

相关推荐

    HBase实现批量存取

    HBase是一种分布式、高性能、基于列族的NoSQL数据库,由Apache基金会开发并维护,它在大规模数据存储和实时查询方面表现出色。本项目实现了在Eclipse环境下对HBase的批量存取操作,这对于理解HBase的工作原理以及...

    Hbase笔记 —— 利用JavaAPI的方式操作Hbase数据库(往hbase的表中批量插入数据).pdf

    在本文档中,我们将深入探讨如何使用Java API与HBase数据库进行交互,特别是关于如何创建表、修改表结构以及批量插入数据。...理解这些基本操作对于高效地使用HBase至关重要,特别是在大数据处理和分析的场景下。

    Hbase调用JavaAPI实现批量导入操作.docx

    在大数据时代,Hbase 作为一个分布式、面向列的 NoSQL 数据库,广泛应用于大规模数据存储和处理中。同时,JavaAPI 作为一个强大且流行的编程语言,广泛应用于各种软件开发中。本文旨在介绍如何使用 JavaAPI 调用 ...

    HBase源码分析

    在HBase的put操作中,数据被组织成Put对象,每个Put对象包含多对列族(family)和列(column)的键值对。当数据写入HTable时,如果autoFlush设置为false,写操作会被缓存在客户端,直到缓冲区满或者手动触发flush...

    java链接并对hbase进行增删改查操作的实例代码(含批量插入,范围查询等,并包含所需jar包)

    这个实例代码将帮助开发者理解和实现如何在Java环境中与HBase交互。 首先,要进行HBase操作,你需要在项目中添加相应的依赖。在`.classpath`和`.project`文件中,可能包含了项目的构建和依赖信息,比如Maven或...

    hbase-2.4.17-bin 安装包

    这个“hbase-2.4.17-bin”安装包提供了HBase的最新稳定版本2.4.17,适用于大数据处理和分析场景。下面将详细介绍HBase的核心概念、安装步骤以及配置和管理。 一、HBase核心概念 1. 表(Table):HBase中的表是由行...

    hbase 的java代码 集合 hbase 0.96

    4. **列族和列**:在HBase中,数据被组织在列族(Column Family)内,列族是逻辑上的分组,每个列族可以包含任意数量的列(Column Qualifier)。在Java代码中,我们通过`ColumnFamilyDescriptor`定义列族,并在`...

    scala API 操作hbase表

    此外,为了连接到HBase,还需要在项目的`src/main/resources`目录下放置`core-site.xml`、`hdfs-site.xml`和`hbase-site.xml`配置文件。 以下是一些关键的Scala API操作HBase的基本步骤: 1. 引入必要的库: 首先...

    hbase 学习 hbase原理 hbase资料

    HBase的数据模型基于BigTable的设计,以行和列来进行数据组织,每个表被分为多个行,行由行键(Row Key)标识,而每一行又包含多个列族(Column Family),列族下有多个列(Qualifier)。 1. **HBase的架构** - **...

    hbase的操作数据demo

    HBase还支持批量操作,例如使用`Mutation`类的Java API,可以一次性提交多个`put`和`delete`操作,提高写入效率。此外,HBase提供了丰富的管理功能,如创建、修改和删除表,以及表分区(Region Splitting)和负载...

    hbase的java client实例

    在HBase中,MapReduce常用于批量导入和导出数据,以及复杂的全表扫描操作。使用`TableInputFormat`和`TableOutputFormat`,我们可以将HBase表作为输入和输出源。在Mapper和Reducer中,可以直接访问HBase的行键、列族...

    hbase-0.98.6.1-src.zip

    - **Get和Put操作**:客户端通过HTable接口的get和put方法与HBase交互,发送请求到RegionServer。 - **Scanning**:用于批量获取数据,支持过滤器,优化数据检索效率。 - **Compaction**:定期合并region中的...

    C#操控hbase数据库

    5. **批处理**:为了提高性能,通常会批量处理Put和Delete操作。 6. **过滤器**:使用HBase提供的过滤器机制,可以实现更复杂的查询逻辑,如按时间戳、值范围等进行筛选。 7. **数据版本控制**:HBase支持多版本...

    大数据处理:HBASE.ppt

    总结来说,HBase在大数据处理中的角色是提供高性能、可扩展的存储解决方案,它的设计和操作方式与传统的关系型数据库有很大差异,更适应大数据场景下的实时读写和大规模数据处理需求。了解并掌握HBase的表设计和操作...

    python thrift2 connect hbase

    在实际应用中,你可能需要处理更复杂的情况,例如错误处理、批量操作、行扫描等。此外,如果HBase不在本地运行,你需要修改socket连接参数,如主机名和端口,以指向正确的服务器。 总之,Python通过Thrift2连接...

    hbase启动说明和python脚本

    在本文中,我们将深入探讨HBase的启动过程以及如何利用Python进行操作,同时结合Hadoop的相关知识。HBase是Google Bigtable的一个开源实现,是一个分布式、版本化、面向列的NoSQL数据库,常用于大数据存储。它构建在...

    大数据hbase.zip

    HBase的数据模型是基于行的,每个表由行和列族组成,列族下又包含多个列,这样的设计使得数据的存储和查询更加灵活。 在Java API层面,我们首先需要了解HBase的基本操作类,如HBaseAdmin用于管理表,HTable接口用于...

    hbase0.94java源代码

    在0.94版本中,HBase已经相当成熟,提供了稳定性和性能上的优化。这个源代码包是针对Java开发者的宝贵资源,可以帮助他们深入理解HBase的内部工作原理,优化自己的应用,以及对HBase进行定制化开发。 HBase的核心...

    hbase基本概念和hbase shell常用命令用法

    以上只是HBase Shell的一些基础操作,实际使用中还会有更多高级功能,如批量操作、过滤器等,这些都需要根据具体场景进行学习和掌握。 在HBase的运维中,理解其内部工作原理,如RegionServer、Zookeeper的角色,...

Global site tag (gtag.js) - Google Analytics