HBase-WAL相关线程处理逻辑

我是小小鸟

浏览: 256602 次
性别:

最近访客更多访客>>

xushaomin1122

zzr1000

hzg_0216

baichoufei90

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hadoop

日志同步线程 HLog$LogSyncer

hbase.regionserver.optionallogflushinterval默认1秒

配置log syncer线程扫描间隔

更新、增加、删除操作会触发一次WAL，而WAL是同步写入到hadoop的，也就是先写WAL，再做更新(或者删除)

这些操作是在handle线程中完成的

1.handle先创建一个WAL，放入队列中

2.之后检查标志位，是否是同步写WAL

3. a)如果是再从队列中获取WAL，写入到haddop中

b)此时，日志同步线程也会定期检查队列，将队列中的WAL获取后写入到hadoop中

所以这里是有两个地方可以写WAL，handle线程中不管有没有配置同步写标志， LogSyncer线程都会写WAL

LogSyncer默认是1秒同步一次WAL，所以如果配置了handle异步更新WAL，又出现了大量的更新操作

日志队列中的数据将会非常多(包含了很多KeyValue)，所以这时应该把检查间隔时间调小

所有的HRegion会共用一个HLog对象，所有的WALEdit是写入到一个队列中

使用异步WAL写会提高整体性能，但LogSyncer的设计并不好，这个实现是wait()一段时间，如果检查队列中数据

则进行处理，由每次都是先wait()再检查队列

更新逻辑如下：

Entry List中存放的是HLog.Entry，Entry是由HLogKey和WALEdit组成的

HLog#append()和HLog#sync()是由handler线程触发的

append()时，不会将WALEdit写入到HDFS中，而是先写入到一个队列中，之后还是这个线程，会检查是否要同步更新到HDFS中，如果是异步则会跳过更新，如果是同步，则将WALEdit从队列中取出，然后更新到HDFS中

另外一个线程LogSyncer会定期检查这个队列，如果发现队列中WALEdit，则将其写入到HDFS中

日志回滚线程 LogRoller

hbase.server.thread.wakefrequency 默认1秒，线程sleep的时间

hbase.regionserver.logroll.period 默认3600秒，检查周期

hbase.regionserver.maxlogs 默认32，最大日志数量

hbase.regionserver.hlog.blocksize 默认64M，日志块大小

hbase.regionserver.logroll.multiplier 默认0.95，占用95%日志块空间时回滚

有两种情况会导致当前日志文件被关闭，生成新的日志文件:

1.当前文件size > logrollsize(HDFS文件块大小*0.95)，会强制生成一个新文件

2.超过1小时 && HLog有过append()

日志是如何被清空的?(从.logs移动到.oldlogs目录)

1.当一个region的memstroe大小>指定size，就会触发清空，然后将HLog的cache中保存的对应region删除

2.LogRoller线程会定期查找cache中最小的值index，如果在output中有比index更小的值，则将

这些值关联的Path全部移动到.oldlogs中

3.如果定期检查到cache为空则将output中所有的Path移动到.oldlogs中

日志文件过多如何处理?

从output中获取一个最小的序列号index，如果cache中有比index更小的序列号，则将这些序列号。关联的region的memstore全部flush

回滚日志图如下:

序列号是一个原子递增的long类型值

上图中的output存放了的是<序列号,Path>的键值对

Path就是一个HLog文件的绝对路径(HDFS文件的路径)

每个HLog文件中包含了若干个Entry实体，一个实体会有一个序列号，每个序列号都是递增的，一个HLog文件关联的是这个文件中最大的序列号

cache(源码中不是叫这个名字)存放的是<region名称,第一次保存的序列号>

region名称是用于之后flush时使用的

HLog#append()时，会记录当前delete/put到哪个region上，而每次append()时候都会创建一个

递增的序列号，一个region上保存的Entry就会有多个递增序列号，cache中保存的是这个

region最小的序列号，也就是第一次保存时的序列号

cache中保存的序列号不像output那样，可能是无规律的，比如HLog文件aa中：

101是在region1上保存的，102在region2上，103在region3上

也有可能是100-105全都保存在region1上，110保存在region2上

cache是缓存region的，如果当前的region被flush了，就从cache中删除

而output保存的是具体hlog的HDFS路径，它会根据cache的内容，删除自身的hlog

日志回滚的详细步骤:

假设cache中的region1已经执行了flush，此时region1就从cache中移除了，那么cache中最小的值就是112，如果region2也被移除了，那么最小的值就是132

再从output中找到一个比112小的值，这个是105。105关联的Path是aa，所以将aa移动到.oldlogs中。如果cache中为空则将output中所有的Path都移动到.oldlogs中

日志文件过多处理的详细步骤:

从output中找到一个最小的值105，再从cache中找到比这个105小的值，也就是100，100关联了region1，所以将region1的memstore做刷新，之后日志回滚线程发现cache中最小的值就变成了112，output中小于112的是105，于是将105关联的Path aa移动到.oldlogs中

如果一个HLog中序列号对应的region是这样的:

region1->100， region2->101， region3->102，region4->103，region5->104

此时日志回滚线程的output中找到的是105，它找不到cache中比105更小的值了，所以无法回滚。

但是根据日志文件过多判断的逻辑:

output中找到的最小值是105，cache中比这个值小的就是5个region(region1到region5)于是将这

5个region的memstore全部刷新，这样日志回滚线程下次再判断的时候会能找到很多比105小的值了

所以日志过多处理逻辑最终是配合回滚逻辑一起做的，对应各种场景，最终是将无用的.logs文件清除

默认的最大日志文件数是32，但是也有可能出现超过32个日志文件的情况

master节点处理过程

一些配置:

hbase.splitlog.zk.retries 默认为3，连接到zk的重试次数

hbase.splitlog.max.resubmit 默认为3，最多重提交的次数

hbase.splitlog.manager.timeout 默认300秒

hbase.splitlog.manager.unassigned.timeout 默认180秒

hbase.splitlog.manager.timeoutmonitor.period 默认1秒

1.当有一台region server宕机后，zookeeper会将/hbase/rs中的region server删除，然后触发一个节

点被删除的事件，master收到这个事件之后会遍历调用多个监听类

2.最后由RegionServerTracker处理这个事件，获取这个region server名字，由

ServerManager#expireServer()处理

3.判断宕机的regioin server是否包含了META或ROOT表，如果是核心表则由

MetaServerShutdownHandler处理，否则

由ServerShutdownHandler处理，这个处理过程是由其他线程来做的

SplitLogManager过程

1.split manager将.logs目录重命名

/hbase/.logs/srv.example.com,60020,1254173957298-splitting

2.将所有的路径都注册到znode上，同时还会创建一个回调任务，之后zookeeper会触发这个回调函数

3.等待并监控/hbase/splitlog节点的任务完成

4.删除重命名的.logs目录

分配新的region

1.当日志切分完毕后ServerShutdownHandler调用AssignmentManager将获取所有宕机的RS

2.将这些RS的所有region都放到ZK的/hbase/unassigned目录下

3.随机找一些已经启动的RS，向这些RS发送openRegion的RPC请求

4.这些RS会获取/hbase/unassigned目录下未分配的region，然后启动他们

整个过程如下图:

RS日志切分处理过程

SplitLogWorker 线程

1.检查znode: /hbase/splitlog 是否存在

2.从/hbase/splitlog获取zonde列表

3.对zonode列表遍历，获取当前的数据，检查是否是未分分配状态，如果是则赏识独占这个znode

4.调用HLogSplit#splitLogFile()对，对当前的HLog进行处理

znode中一个未处理的文件路径为:

/hbase/.logs/myhost,60020,1394445133232-splitting/myhost%2C60020%2C1394445133232.1394445137649

HLogSplit#splitLogFile()

hbase.splitlog.report.interval.loglines默认值为1024，达到这个值后，会回调一个处理逻辑

hbase.splitlog.report.openedfiles默认值为3，如果打开的文件数超过这个值，也也调用处理逻辑

1.创建 SequenceFileLogReader，然后遍历文件中的Entry

2.根据Entry的key，HLogKey，可以拿到region的名字，之后创建recovered.edits目录

3.检查这个region目录是否存在，如果不存在则返回null，返回为null就认为这个region不存在，记录一个错误

标志，之后所有在这个region上的Entry都会忽略掉，编辑日志的路径放在这个目录下:

比如/hbase/table-name/ca042068d2decd9dd5ec3f511b274d85/recovered.edits

4.创建一个格式化的临时文件，之后会将数据写入到这个临时文件中

文件为:0000000000000001000，文件长19位，不足19的前面补0

5.创建一个SequenceFileLogWriter，将读取到的Entry写入到之前创建的临时文件中

6.循环读取这个文件，直到读取完毕

7.之后是收尾，将所有的的的临时文件关闭，也就是将数据sync到文件中。如果有不存在的region则忽略

8.因为在向临时文件写Entry的时候，每写一次会生成一个递增序列号，此时获取写入这个文件的最大的序列号，并将

原先的临时文件文件改名

原先:recovered.edits/0000000000000001000.temp 改为:recovered.edits/0000000000000001099

整个处理过程如下:

RS启动region

1.首先RS会收到一个RCP请求，这个请求是由master触发的

2.之后根据请求中的内容，得到regioin信息，WAL参数等提交到线程池中，由OpenRegionHandler处理

3.OpenRegionHandler首先会初始化，并行初始化多个Store(也就是多个column)提交到线程池执行

4.之后就开始做日志回放，如果没有回放日志则跳过

5.首先取得当前目录下的recovered.edits的所有HLog文件，然后依次遍历这些文件

6.读取一个HLog依次获取所有的Entry#WALEdit，然后将其中的kv存储到Store中

7.Sotre中又包含了一个memstore和若干个HFile，所以这里的kv是存到memstore中

7.memstore内部用KeyValueSkipListSet存储，如果保存时超过上限则会触发flush

8.回放完毕后会根据当前region策略创建split策略，并将recovered.edits目录删除

9.之后是更新meta表，由PostOpenDeployTaskThread处理(在新线程中执行)

10.更新时会判断是root表meta表还是普通表

11.最后删除ZK中的/hbase/unassigned下对应的region，并将此region上线

完整过程如下:

一些事件处理类:

Master将下面一些类注册到zookeeper时间监听中，当znode发生改变时，就会触发这些类，进行相应的处理

如节点数据更改，节点增加，节点删除，子节点发生变化等

这些类继承了ZooKeeperListener:

org.apache.hadoop.hbase.master.AssignmentManager

org.apache.hadoop.hbase.master.ActiveMasterManager

org.apache.hadoop.hbase.zookeeper.ClusterStatusTracker

org.apache.hadoop.hbase.master.SplitLogManager

org.apache.hadoop.hbase.zookeeper.RootRegionTracker

org.apache.hadoop.hbase.catalog.CatalogTracker$2

org.apache.hadoop.hbase.zookeeper.RegionServerTracker

org.apache.hadoop.hbase.zookeeper.DrainingServerTracker

org.apache.hadoop.hbase.procedure.ZKProcedureCoordinatorRpcs$1

region server的注册的zookeeper监听类

org.apache.hadoop.hbase.MasterAddressTracker

org.apache.hadoop.hbase.zookeeper.ClusterStatusTracker

org.apache.hadoop.hbase.zookeeper.RootRegionTracker

org.apache.hadoop.hbase.catalog.CatalogTracker$2

org.apache.hadoop.hbase.procedure.ZKProcedureMemberRpcs$1

org.apache.hadoop.hbase.regionserver.SplitLogWorker

RS宕机所有region转移的过程简介

1.master收到ZK的事件，发现/hbase/rs下的region server没有了，遍历所有的监听事件

由SplitlogManager将.log目录文件路径挂到zk的/hbase/splitlog下，

同时监控这个目录，如果发现有操作时间过长的文件则重新提交，如果发现/hbase/splitlog下的文件都处理

完了，则将hdfs://hbase/.log-spliting 目录删除

获取这个region server下的所有region，将这些region放到ZK的/hbase/unassigned下

2.RS收到ZK的事件，/hbase/splitlog有变化了，将SplitlogWorder线程唤醒，处理事件

开始做日志切分，将hdfs://hbase/.log-spliting目录下的文件按region切分放到

/hbase/table-name/encode/recovered.edits目录下

3.master发现整个日志切分过程完毕，找一台在线的RS，发送openRegion的RPC请求

RS收到RCP会开始做Region初始化，做日志重放操作，将/hbase/unassigned下的region encode删除，将这个region上线

move的过程就是先调用closeRegion RPC，然后再调用openRegion RPC

查看图片附件

分享到：

大型网站技术架构 | HBase-RegionServer架构

2014-02-28 19:21
浏览 2170
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论