`

HBase-WAL相关线程处理逻辑

 
阅读更多

 

日志同步线程 HLog$LogSyncer 

hbase.regionserver.optionallogflushinterval默认1秒

配置log syncer线程扫描间隔

更新、增加、删除操作会触发一次WAL,而WAL是同步写入到hadoop的,也就是先写WAL,再做更新(或者删除)

这些操作是在handle线程中完成的

1.handle先创建一个WAL,放入队列中

2.之后检查标志位,是否是同步写WAL

3. a)如果是再从队列中获取WAL,写入到haddop中

   b)此时,日志同步线程也会定期检查队列,将队列中的WAL获取后写入到hadoop中

 

所以这里是有两个地方可以写WAL,handle线程中不管有没有配置同步写标志, LogSyncer线程都会写WAL

LogSyncer默认是1秒同步一次WAL,所以如果配置了handle异步更新WAL,又出现了大量的更新操作

日志队列中的数据将会非常多(包含了很多KeyValue),所以这时应该把检查间隔时间调小

 

所有的HRegion会共用一个HLog对象,所有的WALEdit是写入到一个队列中

使用异步WAL写会提高整体性能,但LogSyncer的设计并不好,这个实现是wait()一段时间,如果检查队列中数据

则进行处理,由每次都是先wait()再检查队列

 

更新逻辑如下:



Entry List中存放的是HLog.Entry,Entry是由HLogKey和WALEdit组成的 

HLog#append()和HLog#sync()是由handler线程触发的

 append()时,不会将WALEdit写入到HDFS中,而是先写入到一个队列中,之后还是这个线程,会检查是否要 同步 更新到HDFS中,如果是异步则会跳过更新,如果是同步,则将WALEdit从队列中取出,然后更新到HDFS中

另外一个线程LogSyncer会定期检查这个队列,如果发现队列中WALEdit,则将其写入到HDFS中

 

 

 

 

 

 

日志回滚线程 LogRoller

hbase.server.thread.wakefrequency 默认1秒,线程sleep的时间

hbase.regionserver.logroll.period 默认3600秒,检查周期

hbase.regionserver.maxlogs 默认32,最大日志数量

hbase.regionserver.hlog.blocksize 默认64M,日志块大小

hbase.regionserver.logroll.multiplier 默认0.95,占用95%日志块空间时回滚

 

有两种情况会导致当前日志文件被关闭,生成新的日志文件:

1.当前文件size > logrollsize(HDFS文件块大小*0.95),会强制生成一个新文件

2.超过1小时 && HLog有过append()

 

日志是如何被清空的?(从.logs移动到.oldlogs目录)

1.当一个region的memstroe大小>指定size,就会触发清空,然后将HLog的cache中保存的对应region删除

2.LogRoller线程会定期查找cache中最小的值index,如果在output中有比index更小的值,则将

  这些值关联的Path全部移动到.oldlogs中

3.如果定期检查到cache为空则将output中所有的Path移动到.oldlogs中

 

日志文件过多如何处理?

从output中获取一个最小的序列号index,如果cache中有比index更小的序列号,则将这些序列号。关联的region的memstore全部flush

 

回滚日志图如下:


 

序列号是一个原子递增的long类型值

上图中的output存放了的是<序列号,Path>的键值对

  Path就是一个HLog文件的绝对路径(HDFS文件的路径)

  每个HLog文件中包含了若干个Entry实体,一个实体会有一个序列号,每个序列号都是递增的,一个HLog文件关联的是这个文件中最大的序列号

 

cache(源码中不是叫这个名字)存放的是<region名称,第一次保存的序列号>

  region名称是用于之后flush时使用的

  HLog#append()时,会记录当前delete/put到哪个region上,而每次append()时候都会创建一个

    递增的序列号,一个region上保存的Entry就会有多个递增序列号,cache中保存的是这个

    region最小的序列号,也就是第一次保存时的序列号

cache中保存的序列号不像output那样,可能是无规律的,比如HLog文件aa中:

101是在region1上保存的,102在region2上,103在region3上

也有可能是100-105全都保存在region1上,110保存在region2上

 

cache是缓存region的,如果当前的region被flush了,就从cache中删除

而output保存的是具体hlog的HDFS路径,它会根据cache的内容,删除自身的hlog

 

日志回滚的详细步骤:

假设cache中的region1已经执行了flush,此时region1就从cache中移除了,那么cache中最小的值就是112,如果region2也被移除了,那么最小的值就是132

再从output中找到一个比112小的值,这个是105。105关联的Path是aa,所以将aa移动到.oldlogs中。如果cache中为空则将output中所有的Path都移动到.oldlogs中

 

日志文件过多处理的详细步骤:

从output中找到一个最小的值105,再从cache中找到比这个105小的值,也就是100,100关联了region1,所以将region1的memstore做刷新,之后日志回滚线程发现cache中最小的值就变成了112,output中小于112的是105,于是将105关联的Path aa移动到.oldlogs中

如果一个HLog中序列号对应的region是这样的:

region1->100, region2->101, region3->102,region4->103,region5->104

此时日志回滚线程的output中找到的是105,它找不到cache中比105更小的值了,所以无法回滚。

 

但是根据日志文件过多判断的逻辑:

output中找到的最小值是105,cache中比这个值小的就是5个region(region1到region5)于是将这

5个region的memstore全部刷新,这样日志回滚线程下次再判断的时候会能找到很多比105小的值了

所以日志过多处理逻辑最终是配合回滚逻辑一起做的,对应各种场景,最终是将无用的.logs文件清除

默认的最大日志文件数是32,但是也有可能出现超过32个日志文件的情况

 

 



 

master节点处理过程

一些配置:

hbase.splitlog.zk.retries 默认为3,连接到zk的重试次数

hbase.splitlog.max.resubmit 默认为3,最多重提交的次数

hbase.splitlog.manager.timeout 默认300秒

hbase.splitlog.manager.unassigned.timeout 默认180秒

hbase.splitlog.manager.timeoutmonitor.period 默认1秒

 

1.当有一台region server宕机后,zookeeper会将/hbase/rs中的region server删除,然后触发一个节

    点被删除的事件,master收到这个事件之后会遍历调用多个监听类

2.最后由RegionServerTracker处理这个事件,获取这个region server名字,由

    ServerManager#expireServer()处理

3.判断宕机的regioin server是否包含了META或ROOT表,如果是核心表则由

   MetaServerShutdownHandler处理,否则

   由ServerShutdownHandler处理,这个处理过程是由其他线程来做的

 

SplitLogManager过程

1.split manager将.logs目录重命名

/hbase/.logs/srv.example.com,60020,1254173957298-splitting

2.将所有的路径都注册到znode上,同时还会创建一个回调任务,之后zookeeper会触发这个回调函数

3.等待并监控/hbase/splitlog节点的任务完成

4.删除重命名的.logs目录

 

分配新的region

1.当日志切分完毕后ServerShutdownHandler调用AssignmentManager将获取所有宕机的RS

2.将这些RS的所有region都放到ZK的/hbase/unassigned目录下

3.随机找一些已经启动的RS,向这些RS发送openRegion的RPC请求

4.这些RS会获取/hbase/unassigned目录下未分配的region,然后启动他们

 

整个过程如下图:



 

 

 

 

 

RS日志切分处理过程

SplitLogWorker 线程

1.检查znode: /hbase/splitlog  是否存在

2.从/hbase/splitlog获取zonde列表

3.对zonode列表遍历,获取当前的数据,检查是否是未分分配状态,如果是则赏识独占这个znode

4.调用HLogSplit#splitLogFile()对,对当前的HLog进行处理

znode中一个未处理的文件路径为:

/hbase/.logs/myhost,60020,1394445133232-splitting/myhost%2C60020%2C1394445133232.1394445137649

 

HLogSplit#splitLogFile()

hbase.splitlog.report.interval.loglines默认值为1024,达到这个值后,会回调一个处理逻辑

hbase.splitlog.report.openedfiles默认值为3,如果打开的文件数超过这个值,也也调用处理逻辑

1.创建 SequenceFileLogReader,然后遍历文件中的Entry

2.根据Entry的key,HLogKey,可以拿到region的名字,之后创建recovered.edits目录

3.检查这个region目录是否存在,如果不存在则返回null,返回为null就认为这个region不存在,记录一个错误

  标志,之后所有在这个region上的Entry都会忽略掉,编辑日志的路径放在这个目录下:

比如/hbase/table-name/ca042068d2decd9dd5ec3f511b274d85/recovered.edits

 

4.创建一个格式化的临时文件,之后会将数据写入到这个临时文件中

文件为:0000000000000001000,文件长19位,不足19的前面补0

5.创建一个SequenceFileLogWriter,将读取到的Entry写入到之前创建的临时文件中

6.循环读取这个文件,直到读取完毕

7.之后是收尾,将所有的的的临时文件关闭,也就是将数据sync到文件中。如果有不存在的region则忽略

8.因为在向临时文件写Entry的时候,每写一次会生成一个递增序列号,此时获取写入这个文件的最大的序列号,并将

  原先的临时文件文件改名

  原先:recovered.edits/0000000000000001000.temp 改为:recovered.edits/0000000000000001099

 

 整个处理过程如下:



 

 

 


RS启动region

1.首先RS会收到一个RCP请求,这个请求是由master触发的

2.之后根据请求中的内容,得到regioin信息,WAL参数等提交到线程池中,由OpenRegionHandler处理

3.OpenRegionHandler首先会初始化,并行初始化多个Store(也就是多个column)提交到线程池执行

4.之后就开始做日志回放,如果没有回放日志则跳过

5.首先取得当前目录下的recovered.edits的所有HLog文件,然后依次遍历这些文件

6.读取一个HLog依次获取所有的Entry#WALEdit,然后将其中的kv存储到Store中

7.Sotre中又包含了一个memstore和若干个HFile,所以这里的kv是存到memstore中

7.memstore内部用KeyValueSkipListSet存储,如果保存时超过上限则会触发flush

8.回放完毕后会根据当前region策略创建split策略,并将recovered.edits目录删除

9.之后是更新meta表,由PostOpenDeployTaskThread处理(在新线程中执行)

10.更新时会判断是root表meta表还是普通表

11.最后删除ZK中的/hbase/unassigned下对应的region,并将此region上线

完整过程如下:



 

 

 

 

一些事件处理类:

Master将下面一些类注册到zookeeper时间监听中,当znode发生改变时,就会触发这些类,进行相应的处理

如节点数据更改,节点增加,节点删除,子节点发生变化等

这些类继承了ZooKeeperListener:

org.apache.hadoop.hbase.master.AssignmentManager

org.apache.hadoop.hbase.master.ActiveMasterManager

org.apache.hadoop.hbase.zookeeper.ClusterStatusTracker

org.apache.hadoop.hbase.master.SplitLogManager

org.apache.hadoop.hbase.zookeeper.RootRegionTracker

org.apache.hadoop.hbase.catalog.CatalogTracker$2

org.apache.hadoop.hbase.zookeeper.RegionServerTracker

org.apache.hadoop.hbase.zookeeper.DrainingServerTracker

org.apache.hadoop.hbase.procedure.ZKProcedureCoordinatorRpcs$1

 

region server的注册的zookeeper监听类

org.apache.hadoop.hbase.MasterAddressTracker

org.apache.hadoop.hbase.zookeeper.ClusterStatusTracker

org.apache.hadoop.hbase.zookeeper.RootRegionTracker

org.apache.hadoop.hbase.catalog.CatalogTracker$2

org.apache.hadoop.hbase.procedure.ZKProcedureMemberRpcs$1

org.apache.hadoop.hbase.regionserver.SplitLogWorker

 
 

 

 

RS宕机所有region转移的过程简介

1.master收到ZK的事件,发现/hbase/rs下的region server没有了,遍历所有的监听事件

   由SplitlogManager将.log目录文件路径挂到zk的/hbase/splitlog下,

   同时监控这个目录,如果发现有操作时间过长的文件则重新提交,如果发现/hbase/splitlog下的文件都处理

    完了,则将hdfs://hbase/.log-spliting 目录删除

   获取这个region server下的所有region,将这些region放到ZK的/hbase/unassigned下

 

2.RS收到ZK的事件,/hbase/splitlog有变化了,将SplitlogWorder线程唤醒,处理事件

开始做日志切分,将hdfs://hbase/.log-spliting目录下的文件按region切分放到

/hbase/table-name/encode/recovered.edits目录下

 

3.master发现整个日志切分过程完毕,找一台在线的RS,发送openRegion的RPC请求

RS收到RCP会开始做Region初始化,做日志重放操作,将/hbase/unassigned下的region encode删除,将这个region上线

 

move的过程就是先调用closeRegion RPC,然后再调用openRegion RPC

 

 

 

 

 

 

 

 

 

  • 大小: 30.8 KB
  • 大小: 61 KB
  • 大小: 43.7 KB
  • 大小: 54 KB
  • 大小: 78.9 KB
分享到:
评论

相关推荐

    hbase-meta-repair-hbase-2.0.2.jar

    HBase 元数据修复工具包。 ①修改 jar 包中的application.properties,重点是 zookeeper.address、zookeeper.nodeParent、hdfs.root.dir配置项,hdfs 最好写 ip; ②将core-site.xml、hdfs-site.xml添加到BOOT-INF/...

    phoenix-core-4.7.0-HBase-1.1-API文档-中文版.zip

    赠送jar包:phoenix-core-4.7.0-HBase-1.1.jar; 赠送原API文档:phoenix-core-4.7.0-HBase-1.1-javadoc.jar; 赠送源代码:phoenix-core-4.7.0-HBase-1.1-sources.jar; 赠送Maven依赖信息文件:phoenix-core-4.7.0...

    hbase-sdk是基于hbase-client和hbase-thrift的原生API封装的一款轻量级的HBase ORM框架

    hbase-sdk是基于hbase-client和hbase-thrift的原生API封装的一款轻量级的HBase ORM框架。 针对HBase各版本API(1.x~2.x)间的差异,在其上剥离出了一层统一的抽象。并提供了以类SQL的方式来读写HBase表中的数据。对...

    hbase-1.2.1-bin.tar.gz.zip

    HBase是NoSQL数据库的一种,特别适合处理大规模数据集,通常在PB级以上的数据量。 标题“hbase-1.2.1-bin.tar.gz.zip”表明这是HBase 1.2.1版本的二进制发行版,以tar.gz格式压缩,并且进一步用zip压缩。这种双重...

    phoenix-hbase-2.4-5.1.2

    配置时,需要将Phoenix的JAR文件添加到HBase的类路径中,然后在HBase的配置文件中指定Phoenix的相关参数,如连接URL、Zookeeper地址等。 4. **使用Phoenix进行数据操作** 开发者可以通过JDBC驱动连接到Phoenix,...

    HBase(hbase-2.4.9-bin.tar.gz)

    HBase(hbase-2.4.9-bin.tar.gz)是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System...

    hbase-1.2.6.1-bin.tar.gz

    hbase-1.2.6.1-bin.tar.gz,hbase-1.2.6.1-bin.tar.gz,hbase-1.2.6.1-bin.tar.gz,hbase-1.2.6.1-bin.tar.gz,hbase-1.2.6.1-bin.tar.gz,hbase-1.2.6.1-bin.tar.gz,hbase-1.2.6.1-bin.tar.gz,hbase-1.2.6.1-bin.tar.gz

    phoenix-client-hbase-2.2-5.1.2.jar

    phoenix-client-hbase-2.2-5.1.2.jar

    phoenix-5.0.0-HBase-2.0-client

    Phoenix使用Java存根(stub)和服务器端的元数据服务来处理SQL到HBase的映射,从而减轻了客户端的负担。 在Squirrel SQL Client中,要使用"phoenix-5.0.0-HBase-2.0-client.jar",你需要首先将其添加到Squirrel的驱动...

    hbase-client-2.1.0-cdh6.3.0.jar

    hbase-client-2.1.0-cdh6.3.0.jar

    hbase-2.4.11-src.tar.gz

    HBase的Coprocessor允许用户在RegionServer端实现自定义逻辑,如数据校验、数据计算等,增强了系统的灵活性和可扩展性。 10. **安全与隔离**: HBase支持用户认证、授权和加密,确保了大数据的安全存储。此外,...

    phoenix-hbase-2.2-5.1.2-bin.tar.gz

    Phoenix和HBase是大数据领域中重要的数据库解决方案,它们在处理大规模、分布式存储和查询上有着卓越的表现。本文将深入探讨这两个技术及其结合体`phoenix-hbase-2.2-5.1.2-bin.tar.gz`的详细内容。 首先,HBase...

    hbase-2.4.17-bin 安装包

    HBase是Apache Hadoop生态系统中的一个分布式、版本化、列族式存储系统,设计用于处理大规模数据集。这个“hbase-2.4.17-bin”安装包提供了HBase的最新稳定版本2.4.17,适用于大数据处理和分析场景。下面将详细介绍...

    hbase的hbase-1.2.0-cdh5.14.2.tar.gz资源包

    HBase设计用于处理PB级的数据,并且可以在数千台服务器上扩展。`hbase-1.2.0-cdh5.14.2.tar.gz` 是针对Cloudera Distribution Including Apache Hadoop (CDH) 5.14.2的一个特定版本的HBase打包文件。CDH是一个流行的...

    hbase-1.3.1-bin.tar.gz.7z

    《HBase 1.3.1 在 CentOS 6.8 上与 Hadoop 2.7.2 集成详解》 HBase,全称Apache HBase,是Apache软件基金...这不仅涉及基本的安装步骤,还包括对Hadoop环境的理解和HBase的高级配置,使得大数据处理能力得以充分发挥。

    phoenix-hbase-1.4-4.16.1-bin

    在大数据领域,HBase因其分布式、列式存储的特性,常被用于处理海量半结构化数据。然而,对于习惯于SQL语法的开发者来说,HBase的原生接口可能显得较为复杂。这时,Phoenix应运而生,它为HBase带来了SQL接口,使得...

    hbase-2.4.11-bin.tar.gz

    HBase,作为Apache软件基金会的一个开源项目,是构建在Hadoop文件系统(HDFS)之上的分布式、面向列的数据库,专为处理大规模数据而设计。标题中的“hbase-2.4.11-bin.tar.gz”是指HBase的2.4.11稳定版本的二进制...

    hive-hbase-handler-1.2.1.jar

    被编译的hive-hbase-handler-1.2.1.jar,用于在Hive中创建关联HBase表的jar,解决创建Hive关联HBase时报FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. org.apache.hadoop....

    phoenix-4.14.1-HBase-1.2-client.jar

    phoenix-4.14.1-HBase-1.2-client.jar

    pinpoint的hbase初始化脚本hbase-create.hbase

    搭建pinpoint需要的hbase初始化脚本hbase-create.hbase

Global site tag (gtag.js) - Google Analytics