long_yu2

浏览: 341503 次

最近访客更多访客>>

u012363178

zdsurge

VIPlued

玄霄夙玉

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

【转载】HBase性能优化方法总结（3）：写表操作

HBase

本文主要是从HBase应用程序设计与开发的角度，总结几种常用的性能优化方法。有关HBase系统配置级别的优化，可参考：淘宝Ken Wu同学的博客。

下面是本文总结的第二部分内容：写表操作相关的优化方法。

2. 写表操作

2.1 多HTable并发写

创建多个HTable客户端用于写操作，提高写数据的吞吐量，一个例子：

[java]view plaincopy
static final Configuration conf = HBaseConfiguration.create();  
static final String table_log_name = “user_log”;  
wTableLog = new HTable[tableN];  
for (int i = 0; i < tableN; i++) {  
    wTableLog[i] = new HTable(conf, table_log_name);  
    wTableLog[i].setWriteBufferSize(5 * 1024 * 1024); //5MB  
    wTableLog[i].setAutoFlush(false);  
}  

2.2 HTable参数设置

2.2.1 Auto Flush

通过调用HTable.setAutoFlush(false)方法可以将HTable写客户端的自动flush关闭，这样可以批量写入数据到HBase，而不是有一条put就执行一次更新，只有当put填满客户端写缓存时，才实际向HBase服务端发起写请求。默认情况下auto flush是开启的。

2.2.2 Write Buffer

通过调用HTable.setWriteBufferSize(writeBufferSize)方法可以设置HTable客户端的写buffer大小，如果新设置的buffer小于当前写buffer中的数据时，buffer将会被flush到服务端。其中，writeBufferSize的单位是byte字节数，可以根据实际写入数据量的多少来设置该值。

2.2.3 WAL Flag

在HBae中，客户端向集群中的RegionServer提交数据时（Put/Delete操作），首先会先写WAL（Write Ahead Log）日志（即HLog，一个RegionServer上的所有Region共享一个HLog），只有当WAL日志写成功后，再接着写MemStore，然后客户端被通知提交数据成功；如果写WAL日志失败，客户端则被通知提交失败。这样做的好处是可以做到RegionServer宕机后的数据恢复。

因此，对于相对不太重要的数据，可以在Put/Delete操作时，通过调用Put.setWriteToWAL(false)或Delete.setWriteToWAL(false)函数，放弃写WAL日志，从而提高数据写入的性能。

值得注意的是：谨慎选择关闭WAL日志，因为这样的话，一旦RegionServer宕机，Put/Delete的数据将会无法根据WAL日志进行恢复。

2.3 批量写

通过调用HTable.put(Put)方法可以将一个指定的row key记录写入HBase，同样HBase提供了另一个方法：通过调用HTable.put(List<Put>)方法可以将指定的row key列表，批量写入多行记录，这样做的好处是批量执行，只需要一次网络I/O开销，这对于对数据实时性要求高，网络传输RTT高的情景下可能带来明显的性能提升。

2.4 多线程并发写

在客户端开启多个HTable写线程，每个写线程负责一个HTable对象的flush操作，这样结合定时flush和写buffer（writeBufferSize），可以既保证在数据量小的时候，数据可以在较短时间内被flush（如1秒内），同时又保证在数据量大的时候，写buffer一满就及时进行flush。下面给个具体的例子：

[java]view plaincopy
for (int i = 0; i < threadN; i++) {  
    Thread th = new Thread() {  
        public void run() {  
            while (true) {  
                try {  
                    sleep(1000); //1 second  
                } catch (InterruptedException e) {  
                    e.printStackTrace();  
                }  
synchronized (wTableLog[i]) {  
                    try {  
                        wTableLog[i].flushCommits();  
                    } catch (IOException e) {  
                        e.printStackTrace();  
                    }  
                }  
            }  
}  
    };  
    th.setDaemon(true);  
    th.start();  
}  

分享到：

世上最伟大的十个公式，质能方程排名第五 | Java程序员从笨鸟到菜鸟之（三十八）细谈st ...

2012-04-21 12:37
浏览 854
评论(0)
分类:行业应用
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

【转载】HBase性能优化方法总结（3）：写表操作

2. 写表操作

2.1 多HTable并发写

2.2 HTable参数设置

2.2.1 Auto Flush

2.2.2 Write Buffer

2.2.3 WAL Flag

2.3 批量写

2.4 多线程并发写

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

【转载】HBase性能优化方法总结（3）：写表操作

2. 写表操作

2.1 多HTable并发写

2.2 HTable参数设置

2.2.1 Auto Flush

2.2.2 Write Buffer

2.2.3 WAL Flag

2.3 批量写

2.4 多线程并发写

评论

发表评论

相关推荐

最近访客更多访客>>