hongs_yang

浏览: 61756 次
性别:
来自: 西安

最近访客更多访客>>

jlbhdfsl

longlongkong

qq85609655

hsujamy

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

hbase hfilev2文件

博客分类：

hbase

hbase源码分析 hbase hfilev2

HFileV2文件

HFileV2文件写入通过StoreFile.Writer-->HFileWriterV2进行写入。

文件格式通过hfile.format.version配置。默认为2，也只有2这个值在0.96可用。

可通过cf中配置DATA_BLOCK_ENCODING配置dataBlock的encoding,

可配置值：NONE,PREFIX,DIFF,FAST_DIFF,PREFIX_TREE,

通过在family的配置属性中配置BLOCKSIZE，来设置hfile的block大小，默认为65536

通过在family的配置属性中配置BLOOMFILTER，来设置是否启用BLOOMFILTER，默认值为ROW，可选值：NONE，ROW，ROWCOL。

如果io.storefile.bloom.enabled配置的值为true,默认为true.在writer中生成一个全局的bloomfilter的Writer

在StoreFile.Writer中生成的generalBloomFilterWriter，实现类为:CompoundBloomFilterWriter,

bloomfilter的blocksize通过io.storefile.bloom.block.size配置，默认为128*1024(128k)

如果bloomfilter属性不是ROWCOL时，同时io.storefile.delete.family.bloom.enabled配置为true,默认值为true,

在StoreFile.Writer中生成的deleteFamilyBloomFilterWriter,实现类：CompoundBloomFilterWriter

writer.append操作

写HFileV2文件时，在store进行flush时，会生成StoreFile.Writer实例，通过Writer.append写入kv.

public void append(final KeyValue kv) throws IOException {

如果是一个新的kv,也就是row与bloomfilter中的最后一个kv的row不相同，表示需要添加到bloomblock中。

此部分目前是在一个缓冲区中。

appendGeneralBloomfilter(kv);

如果kv是删除的KV，把row添加到deletebloomfilter的block中。

此部分目前是在一个缓冲区中。

appendDeleteFamilyBloomFilter(kv);

通过HFileWriterV2.append写入kv到datablock,

writer.append(kv);

trackTimestamps(kv);

}

HFileWriterV2.append(kv)直接调用如下方法：

private void append(final long memstoreTS, final byte[] key,

final int koffset, final int klength,

finalbyte[] value, finalint voffset, finalint vlength)

throws IOException {

检查key是否合法，首先检查上一个添加的key如果比当前的key大，表示有问题，因为hfile的写入需要排序写入。

如果当前的key比上次写入的key要小，返回值为false,如果返回值为true,表示两个key相同。我指的key是rowkey

boolean dupKey = checkKey(key, koffset, klength);

检查value是否为null，

checkValue(value, voffset, vlength);

如果rowkey与上一次的rowkey不是同一个key时，检查hfile的block是否超过了指定的大小。

如果当前的rowkey与上一次写入的rowkey相同时，

就算是block大小超过了指定的大小，相同的rowkey的kv都会写到一个block中。

if (!dupKey) {

此处是检查fsBlockWriter中的大小是否超过了blocksize的大小，如果起过了。需要执行block的flush操作。

checkBlockBoundary();

}

第一次进行入时，fsBlockWriter的状态为State.INIT;此时需要生成一个新的block，并设置State为State.WRITING;

在执行newBlock操作时，生成一个DataOutputStream,使用一个baosInMemory(ByteArrayOutputStream)，

每一个block中，basosInMemory的缓冲区是重用的，因此，每一个block中都会执行baosInMemory.reset操作。

并写入block的header信息。

if (!fsBlockWriter.isWriting())

newBlock();

写入kv到data block的缓冲区中。

// Write length of key and value and then actual key and value bytes.

// Additionally, we may also write down the memstoreTS.

{

DataOutputStream out = fsBlockWriter.getUserDataStream();

out.writeInt(klength);

totalKeyLength += klength;

out.writeInt(vlength);

totalValueLength += vlength;

out.write(key, koffset, klength);

out.write(value, voffset, vlength);

if (this.includeMemstoreTS) {

WritableUtils.writeVLong(out, memstoreTS);

}

记录住此block的第一个key,firstkey主要是block index(leaf-level-index)记录每一个block的first key.

// Are we the first key in this block?

if (firstKeyInBlock == null) {

// Copy the key.

firstKeyInBlock = newbyte[klength];

System.arraycopy(key, koffset, firstKeyInBlock, 0, klength);

}

记录最后一个key的值。

lastKeyBuffer = key;

lastKeyOffset = koffset;

lastKeyLength = klength;

entryCount++;

}

flush data block数据刷新

data block的大小默认为65536(64k),当达到此值时，会对block进行flush操作。

在HFileWriterV2中通过append会对block进行检查。

检查是否是新的一个rowkey的值，如果是检查是否需要flush当前的block，并重新创建一个新的block

boolean dupKey = checkKey(key, koffset, klength);

checkValue(value, voffset, vlength);

if (!dupKey) {

checkBlockBoundary();

}

检查是否达到flush的值，并进行flush操作。

private void checkBlockBoundary() throws IOException {

检查block是否达到指定的值。

if (fsBlockWriter.blockSizeWritten() < blockSize)

return;

对datablock进行flush操作，

finishBlock();

写入索引数据到block中。

writeInlineBlocks(false);

生成一个新的block.

newBlock();

}

finishBlock方法：

private void finishBlock() throws IOException {

检查当前的fsBlockWriter的状态非State.WRITING;或者block中的值为0，不做操作。

if (!fsBlockWriter.isWriting() || fsBlockWriter.blockSizeWritten() == 0)

return;

long startTimeNs = System.nanoTime();

// Update the first data block offset for scanning.

if (firstDataBlockOffset == -1) {

如果是第一个block,设置block的offset的值为0,也就是block的开始位置。

firstDataBlockOffset = outputStream.getPos();

}

记录上一个block的偏移量。主要是用来记录block index的一些个准备信息。

此outputStream是每次write一个block后pos的值就会增加。

// Update the last data block offset

lastDataBlockOffset = outputStream.getPos();

设置fsBlockWriter的状态为State.BLOCK_READY;这样就可以重新执行写入操作。

通过读取buffer中的kv的值，通过encoder对block进行操作。如profix_free等。会写入到一个buffer中。

最后把数据写入到HDFS文件中。

fsBlockWriter.writeHeaderAndData(outputStream);

int onDiskSize = fsBlockWriter.getOnDiskSizeWithHeader();

byte[] indexKey = comparator.calcIndexKey(lastKeyOfPreviousBlock, firstKeyInBlock);

把当前block的key与当前block的偏移量，当前block的大小写入到leaf level index(BlockIndex)中。

每一个block就会有一条block的index记录。

dataBlockIndexWriter.addEntry(indexKey, lastDataBlockOffset, onDiskSize);

totalUncompressedBytes += fsBlockWriter.getUncompressedSizeWithHeader();

HFile.offerWriteLatency(System.nanoTime() - startTimeNs);

是否需要写入kv到cache中。如果是需要，写入到readcache中。

if (cacheConf.shouldCacheDataOnWrite()) {

doCacheOnWrite(lastDataBlockOffset);

}

DataBlock的格式:

8byte	4byte	4byte	8byte	1byte	4byte	4byte	...
blockType	onDiskSize+checsumSize	unCompressedSize	prevOffset	checksumType	bytesPerChecksum	onDiskSize	data

BlockType是block类型

第二个是压缩部分下checksumsize的大小

第三部分是未压缩部分的大小

第4部分是上一个block的偏移号

第5部分是checksumtype的类型

第6部分是是每个checksum的字节数，默认为16*1024

第7部分是压缩部分的大小，但不包含checksunsize

最后是数据部分。

写入索引的block数据，要写入的索引包含如下几个：

blockIndex也就是dataBlockIndexWriter的默认实现是HFileBlockIndex.BlockIndexWriter.

BloomFilterIndex,也就是CompoundBloomFilterWriter实现。

DeleteBloomFilterIndex,也就是CompoundBloomFilterWriter实现。

private void writeInlineBlocks(boolean closing) throws IOException {

for (InlineBlockWriter ibw : inlineBlockWriters) {

while (ibw.shouldWriteBlock(closing)) {

long offset = outputStream.getPos();

boolean cacheThisBlock = ibw.getCacheOnWrite();

ibw.writeInlineBlock(fsBlockWriter.startWriting(

ibw.getInlineBlockType()));

fsBlockWriter.writeHeaderAndData(outputStream);

ibw.blockWritten(offset, fsBlockWriter.getOnDiskSizeWithHeader(),

fsBlockWriter.getUncompressedSizeWithoutHeader());

totalUncompressedBytes += fsBlockWriter.getUncompressedSizeWithHeader();

if (cacheThisBlock) {

doCacheOnWrite(offset);

}

1.blockIndex的shouldWriteBlock主要检查大小(非rootindex)是否大于128*1024(128kb),

2.bloomFilterIndex与deleteBloomFilterIndex的 shouldWriteBlock，

只要bloomfilter中有值，也就是chunk中有数据，shouldWriteBlock的方法返回就为true,

把block写入到HDFS中。

blockIndex的blockType为LEAF_INDEX,

bloomfilter的blockType为BLOOM_CHUNK。

也就是说：

blockIndex中记录有每一个dataBlock的firstKey,offset,blockSize,

bloomFilterIndex中记录有每一个(row)rowkey,(rowcol)或者rowkey与Qualifier,的hash值，

此处的hash主要是bloomfilter的相关信息。

每一个dataBlock进行flush后，都会强制flush到bloomfilter的block.

在flush后bloomfilter后，

会在rootBloomFilter(bloomBlockIndexWriter)的缓冲区中记录此bloomfliter的firstkey.offset,blocksize.

在每一个blockindex进行flush后，这个在datablock进行flush时不会强制flsuh,只有达到指定的值时，才进行flush.

在每一次对blockindex进行flush后，会在rootindex的缓冲区中记录住此blockindex的firstkey,offset,blocksize.

最后：

1.在执行writer.close时，写入rootindex的block

如果blockindex的大小超过了128k，会把rootindex的每128k写入一个INTERMEDIATE_INDEX。

记录住所有的INTERMEDIATE_INDEX的firstkey,offset,blocksize,

此处是一个重复的迭代过程，只有当ROOT_INDEX。可以写入的blocksize小于128kb时，把最后一个写入为ROOT_INDEX。

在trailer中记录ROOTINDEX的offset.

2.接下来写入meta,也就是root的bloomfilter的信息。

3.写入FILE_INFO。会在trailer中记录住fileInfo的offset.

4.写入trailer.

Fileinfo中包含：

MAX_SEQ_ID_KEY,记录hfile最大的seqid,

MAJOR_COMPACTION_KEY,是否做过major compaction。

TIMERANGE,记录hfile中的timeRangeTracker.

EARLIEST_PUT_TS,hfile中最老的timestamp

DATA_BLOCK_ENCODING,记录hfile的encoding的配置值

BLOOM_FILTER_TYPE,记录有全局的bloomfilter的类型

DELETE_FAMILY_COUNT，记录有delete的family的个数。

Hfile.LASTKEY,记录此hfile中最后一个key的值，

hfile.AVG_KEY_LEN,记录key的平均长度。

Hfile.AVG_VALUE_LEN,记录value的平均长度。

Trailer中的内容:

majorVersion:hfile的版本号，固定的值2，

minorVersion,hfile的最大版本号，3.

loadOnOpenDataOffset，datablockrootindex的offset

fileInfoOffset,fileinfo的offset,

numDataIndexLevels,rootindex的层级，在上面提到过的INTERMEDIATE_INDEX有几个层级。

UncompressedDataIndexSize,Uncompressedsize总大小。

firstDataBlockOffset，第一个block的offset

lastDataBlockOffset,最后一个block的offset.

ComparatorClassName,比较器的类名称。

dataIndexCount，rootindex中存储的index个数。

.......

0
顶

0
踩

分享到：

hadoop-mapreduce中maptask运行分析 | Hbase MemStoreLAB

2014-05-10 21:58
浏览 1124
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hbase hfilev2文件

HFileV2文件

writer.append操作

flush data block数据刷新

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hbase hfilev2文件

HFileV2文件

writer.append操作

flush data block数据刷新

评论

发表评论

相关推荐

关于Hbase的cache配置

Hbase MemStoreLAB

UserScan的处理流程分析

Major compaction时的scan操作

minor compaction时的scan操作分析

compact处理流程分析

region split流程分析

memstore的flush流程分析

Hlog的相关处理流程不完全分析

hbase put 流程分析regionserver端

hbase put 流程分析client端

日志重播分析

hbase region分配，RS下线处理

region assign 流程补充说明

HMBASE的REGION分配

HBASE REGIONSERVER启动过程

hbase0.96.1 hmaster启动过程分析

最近访客更多访客>>