日志同步线程 HLog$LogSyncer
hbase.regionserver.optionallogflushinterval默认1秒
配置log syncer线程扫描间隔
更新、增加、删除操作会触发一次WAL,而WAL是同步写入到hadoop的,也就是先写WAL,再做更新(或者删除)
这些操作是在handle线程中完成的
1.handle先创建一个WAL,放入队列中
2.之后检查标志位,是否是同步写WAL
3. a)如果是再从队列中获取WAL,写入到haddop中
b)此时,日志同步线程也会定期检查队列,将队列中的WAL获取后写入到hadoop中
所以这里是有两个地方可以写WAL,handle线程中不管有没有配置同步写标志, LogSyncer线程都会写WAL
LogSyncer默认是1秒同步一次WAL,所以如果配置了handle异步更新WAL,又出现了大量的更新操作
日志队列中的数据将会非常多(包含了很多KeyValue),所以这时应该把检查间隔时间调小
所有的HRegion会共用一个HLog对象,所有的WALEdit是写入到一个队列中
使用异步WAL写会提高整体性能,但LogSyncer的设计并不好,这个实现是wait()一段时间,如果检查队列中数据
则进行处理,由每次都是先wait()再检查队列
更新逻辑如下:
Entry List中存放的是HLog.Entry,Entry是由HLogKey和WALEdit组成的
HLog#append()和HLog#sync()是由handler线程触发的
append()时,不会将WALEdit写入到HDFS中,而是先写入到一个队列中,之后还是这个线程,会检查是否要 同步 更新到HDFS中,如果是异步则会跳过更新,如果是同步,则将WALEdit从队列中取出,然后更新到HDFS中
另外一个线程LogSyncer会定期检查这个队列,如果发现队列中WALEdit,则将其写入到HDFS中
日志回滚线程 LogRoller
hbase.server.thread.wakefrequency 默认1秒,线程sleep的时间
hbase.regionserver.logroll.period 默认3600秒,检查周期
hbase.regionserver.maxlogs 默认32,最大日志数量
hbase.regionserver.hlog.blocksize 默认64M,日志块大小
hbase.regionserver.logroll.multiplier 默认0.95,占用95%日志块空间时回滚
有两种情况会导致当前日志文件被关闭,生成新的日志文件:
1.当前文件size > logrollsize(HDFS文件块大小*0.95),会强制生成一个新文件
2.超过1小时 && HLog有过append()
日志是如何被清空的?(从.logs移动到.oldlogs目录)
1.当一个region的memstroe大小>指定size,就会触发清空,然后将HLog的cache中保存的对应region删除
2.LogRoller线程会定期查找cache中最小的值index,如果在output中有比index更小的值,则将
这些值关联的Path全部移动到.oldlogs中
3.如果定期检查到cache为空则将output中所有的Path移动到.oldlogs中
日志文件过多如何处理?
从output中获取一个最小的序列号index,如果cache中有比index更小的序列号,则将这些序列号。关联的region的memstore全部flush
回滚日志图如下:
序列号是一个原子递增的long类型值
上图中的output存放了的是<序列号,Path>的键值对
Path就是一个HLog文件的绝对路径(HDFS文件的路径)
每个HLog文件中包含了若干个Entry实体,一个实体会有一个序列号,每个序列号都是递增的,一个HLog文件关联的是这个文件中最大的序列号
cache(源码中不是叫这个名字)存放的是<region名称,第一次保存的序列号>
region名称是用于之后flush时使用的
HLog#append()时,会记录当前delete/put到哪个region上,而每次append()时候都会创建一个
递增的序列号,一个region上保存的Entry就会有多个递增序列号,cache中保存的是这个
region最小的序列号,也就是第一次保存时的序列号
cache中保存的序列号不像output那样,可能是无规律的,比如HLog文件aa中:
101是在region1上保存的,102在region2上,103在region3上
也有可能是100-105全都保存在region1上,110保存在region2上
cache是缓存region的,如果当前的region被flush了,就从cache中删除
而output保存的是具体hlog的HDFS路径,它会根据cache的内容,删除自身的hlog
日志回滚的详细步骤:
假设cache中的region1已经执行了flush,此时region1就从cache中移除了,那么cache中最小的值就是112,如果region2也被移除了,那么最小的值就是132
再从output中找到一个比112小的值,这个是105。105关联的Path是aa,所以将aa移动到.oldlogs中。如果cache中为空则将output中所有的Path都移动到.oldlogs中
日志文件过多处理的详细步骤:
从output中找到一个最小的值105,再从cache中找到比这个105小的值,也就是100,100关联了region1,所以将region1的memstore做刷新,之后日志回滚线程发现cache中最小的值就变成了112,output中小于112的是105,于是将105关联的Path aa移动到.oldlogs中
如果一个HLog中序列号对应的region是这样的:
region1->100, region2->101, region3->102,region4->103,region5->104
此时日志回滚线程的output中找到的是105,它找不到cache中比105更小的值了,所以无法回滚。
但是根据日志文件过多判断的逻辑:
output中找到的最小值是105,cache中比这个值小的就是5个region(region1到region5)于是将这
5个region的memstore全部刷新,这样日志回滚线程下次再判断的时候会能找到很多比105小的值了
所以日志过多处理逻辑最终是配合回滚逻辑一起做的,对应各种场景,最终是将无用的.logs文件清除
默认的最大日志文件数是32,但是也有可能出现超过32个日志文件的情况
master节点处理过程
一些配置:
hbase.splitlog.zk.retries 默认为3,连接到zk的重试次数
hbase.splitlog.max.resubmit 默认为3,最多重提交的次数
hbase.splitlog.manager.timeout 默认300秒
hbase.splitlog.manager.unassigned.timeout 默认180秒
hbase.splitlog.manager.timeoutmonitor.period 默认1秒
1.当有一台region server宕机后,zookeeper会将/hbase/rs中的region server删除,然后触发一个节
点被删除的事件,master收到这个事件之后会遍历调用多个监听类
2.最后由RegionServerTracker处理这个事件,获取这个region server名字,由
ServerManager#expireServer()处理
3.判断宕机的regioin server是否包含了META或ROOT表,如果是核心表则由
MetaServerShutdownHandler处理,否则
由ServerShutdownHandler处理,这个处理过程是由其他线程来做的
SplitLogManager过程
1.split manager将.logs目录重命名
/hbase/.logs/srv.example.com,60020,1254173957298-splitting
2.将所有的路径都注册到znode上,同时还会创建一个回调任务,之后zookeeper会触发这个回调函数
3.等待并监控/hbase/splitlog节点的任务完成
4.删除重命名的.logs目录
分配新的region
1.当日志切分完毕后ServerShutdownHandler调用AssignmentManager将获取所有宕机的RS
2.将这些RS的所有region都放到ZK的/hbase/unassigned目录下
3.随机找一些已经启动的RS,向这些RS发送openRegion的RPC请求
4.这些RS会获取/hbase/unassigned目录下未分配的region,然后启动他们
整个过程如下图:
RS日志切分处理过程
SplitLogWorker 线程
1.检查znode: /hbase/splitlog 是否存在
2.从/hbase/splitlog获取zonde列表
3.对zonode列表遍历,获取当前的数据,检查是否是未分分配状态,如果是则赏识独占这个znode
4.调用HLogSplit#splitLogFile()对,对当前的HLog进行处理
znode中一个未处理的文件路径为:
/hbase/.logs/myhost,60020,1394445133232-splitting/myhost%2C60020%2C1394445133232.1394445137649
HLogSplit#splitLogFile()
hbase.splitlog.report.interval.loglines默认值为1024,达到这个值后,会回调一个处理逻辑
hbase.splitlog.report.openedfiles默认值为3,如果打开的文件数超过这个值,也也调用处理逻辑
1.创建 SequenceFileLogReader,然后遍历文件中的Entry
2.根据Entry的key,HLogKey,可以拿到region的名字,之后创建recovered.edits目录
3.检查这个region目录是否存在,如果不存在则返回null,返回为null就认为这个region不存在,记录一个错误
标志,之后所有在这个region上的Entry都会忽略掉,编辑日志的路径放在这个目录下:
比如/hbase/table-name/ca042068d2decd9dd5ec3f511b274d85/recovered.edits
4.创建一个格式化的临时文件,之后会将数据写入到这个临时文件中
文件为:0000000000000001000,文件长19位,不足19的前面补0
5.创建一个SequenceFileLogWriter,将读取到的Entry写入到之前创建的临时文件中
6.循环读取这个文件,直到读取完毕
7.之后是收尾,将所有的的的临时文件关闭,也就是将数据sync到文件中。如果有不存在的region则忽略
8.因为在向临时文件写Entry的时候,每写一次会生成一个递增序列号,此时获取写入这个文件的最大的序列号,并将
原先的临时文件文件改名
原先:recovered.edits/0000000000000001000.temp 改为:recovered.edits/0000000000000001099
整个处理过程如下:
RS启动region
1.首先RS会收到一个RCP请求,这个请求是由master触发的
2.之后根据请求中的内容,得到regioin信息,WAL参数等提交到线程池中,由OpenRegionHandler处理
3.OpenRegionHandler首先会初始化,并行初始化多个Store(也就是多个column)提交到线程池执行
4.之后就开始做日志回放,如果没有回放日志则跳过
5.首先取得当前目录下的recovered.edits的所有HLog文件,然后依次遍历这些文件
6.读取一个HLog依次获取所有的Entry#WALEdit,然后将其中的kv存储到Store中
7.Sotre中又包含了一个memstore和若干个HFile,所以这里的kv是存到memstore中
7.memstore内部用KeyValueSkipListSet存储,如果保存时超过上限则会触发flush
8.回放完毕后会根据当前region策略创建split策略,并将recovered.edits目录删除
9.之后是更新meta表,由PostOpenDeployTaskThread处理(在新线程中执行)
10.更新时会判断是root表meta表还是普通表
11.最后删除ZK中的/hbase/unassigned下对应的region,并将此region上线
完整过程如下:
一些事件处理类:
Master将下面一些类注册到zookeeper时间监听中,当znode发生改变时,就会触发这些类,进行相应的处理
如节点数据更改,节点增加,节点删除,子节点发生变化等
这些类继承了ZooKeeperListener:
org.apache.hadoop.hbase.master.AssignmentManager
org.apache.hadoop.hbase.master.ActiveMasterManager
org.apache.hadoop.hbase.zookeeper.ClusterStatusTracker
org.apache.hadoop.hbase.master.SplitLogManager
org.apache.hadoop.hbase.zookeeper.RootRegionTracker
org.apache.hadoop.hbase.catalog.CatalogTracker$2
org.apache.hadoop.hbase.zookeeper.RegionServerTracker
org.apache.hadoop.hbase.zookeeper.DrainingServerTracker
org.apache.hadoop.hbase.procedure.ZKProcedureCoordinatorRpcs$1
region server的注册的zookeeper监听类
org.apache.hadoop.hbase.MasterAddressTracker
org.apache.hadoop.hbase.zookeeper.ClusterStatusTracker
org.apache.hadoop.hbase.zookeeper.RootRegionTracker
org.apache.hadoop.hbase.catalog.CatalogTracker$2
org.apache.hadoop.hbase.procedure.ZKProcedureMemberRpcs$1
org.apache.hadoop.hbase.regionserver.SplitLogWorker
RS宕机所有region转移的过程简介
1.master收到ZK的事件,发现/hbase/rs下的region server没有了,遍历所有的监听事件
由SplitlogManager将.log目录文件路径挂到zk的/hbase/splitlog下,
同时监控这个目录,如果发现有操作时间过长的文件则重新提交,如果发现/hbase/splitlog下的文件都处理
完了,则将hdfs://hbase/.log-spliting 目录删除
获取这个region server下的所有region,将这些region放到ZK的/hbase/unassigned下
2.RS收到ZK的事件,/hbase/splitlog有变化了,将SplitlogWorder线程唤醒,处理事件
开始做日志切分,将hdfs://hbase/.log-spliting目录下的文件按region切分放到
/hbase/table-name/encode/recovered.edits目录下
3.master发现整个日志切分过程完毕,找一台在线的RS,发送openRegion的RPC请求
RS收到RCP会开始做Region初始化,做日志重放操作,将/hbase/unassigned下的region encode删除,将这个region上线
move的过程就是先调用closeRegion RPC,然后再调用openRegion RPC
相关推荐
HBase 元数据修复工具包。 ①修改 jar 包中的application.properties,重点是 zookeeper.address、zookeeper.nodeParent、hdfs.root.dir配置项,hdfs 最好写 ip; ②将core-site.xml、hdfs-site.xml添加到BOOT-INF/...
赠送jar包:phoenix-core-4.7.0-HBase-1.1.jar; 赠送原API文档:phoenix-core-4.7.0-HBase-1.1-javadoc.jar; 赠送源代码:phoenix-core-4.7.0-HBase-1.1-sources.jar; 赠送Maven依赖信息文件:phoenix-core-4.7.0...
hbase-sdk是基于hbase-client和hbase-thrift的原生API封装的一款轻量级的HBase ORM框架。 针对HBase各版本API(1.x~2.x)间的差异,在其上剥离出了一层统一的抽象。并提供了以类SQL的方式来读写HBase表中的数据。对...
HBase是NoSQL数据库的一种,特别适合处理大规模数据集,通常在PB级以上的数据量。 标题“hbase-1.2.1-bin.tar.gz.zip”表明这是HBase 1.2.1版本的二进制发行版,以tar.gz格式压缩,并且进一步用zip压缩。这种双重...
配置时,需要将Phoenix的JAR文件添加到HBase的类路径中,然后在HBase的配置文件中指定Phoenix的相关参数,如连接URL、Zookeeper地址等。 4. **使用Phoenix进行数据操作** 开发者可以通过JDBC驱动连接到Phoenix,...
HBase(hbase-2.4.9-bin.tar.gz)是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System...
hbase-1.2.6.1-bin.tar.gz,hbase-1.2.6.1-bin.tar.gz,hbase-1.2.6.1-bin.tar.gz,hbase-1.2.6.1-bin.tar.gz,hbase-1.2.6.1-bin.tar.gz,hbase-1.2.6.1-bin.tar.gz,hbase-1.2.6.1-bin.tar.gz,hbase-1.2.6.1-bin.tar.gz
phoenix-client-hbase-2.2-5.1.2.jar
Phoenix使用Java存根(stub)和服务器端的元数据服务来处理SQL到HBase的映射,从而减轻了客户端的负担。 在Squirrel SQL Client中,要使用"phoenix-5.0.0-HBase-2.0-client.jar",你需要首先将其添加到Squirrel的驱动...
hbase-client-2.1.0-cdh6.3.0.jar
HBase的Coprocessor允许用户在RegionServer端实现自定义逻辑,如数据校验、数据计算等,增强了系统的灵活性和可扩展性。 10. **安全与隔离**: HBase支持用户认证、授权和加密,确保了大数据的安全存储。此外,...
Phoenix和HBase是大数据领域中重要的数据库解决方案,它们在处理大规模、分布式存储和查询上有着卓越的表现。本文将深入探讨这两个技术及其结合体`phoenix-hbase-2.2-5.1.2-bin.tar.gz`的详细内容。 首先,HBase...
HBase是Apache Hadoop生态系统中的一个分布式、版本化、列族式存储系统,设计用于处理大规模数据集。这个“hbase-2.4.17-bin”安装包提供了HBase的最新稳定版本2.4.17,适用于大数据处理和分析场景。下面将详细介绍...
HBase设计用于处理PB级的数据,并且可以在数千台服务器上扩展。`hbase-1.2.0-cdh5.14.2.tar.gz` 是针对Cloudera Distribution Including Apache Hadoop (CDH) 5.14.2的一个特定版本的HBase打包文件。CDH是一个流行的...
《HBase 1.3.1 在 CentOS 6.8 上与 Hadoop 2.7.2 集成详解》 HBase,全称Apache HBase,是Apache软件基金...这不仅涉及基本的安装步骤,还包括对Hadoop环境的理解和HBase的高级配置,使得大数据处理能力得以充分发挥。
在大数据领域,HBase因其分布式、列式存储的特性,常被用于处理海量半结构化数据。然而,对于习惯于SQL语法的开发者来说,HBase的原生接口可能显得较为复杂。这时,Phoenix应运而生,它为HBase带来了SQL接口,使得...
HBase,作为Apache软件基金会的一个开源项目,是构建在Hadoop文件系统(HDFS)之上的分布式、面向列的数据库,专为处理大规模数据而设计。标题中的“hbase-2.4.11-bin.tar.gz”是指HBase的2.4.11稳定版本的二进制...
被编译的hive-hbase-handler-1.2.1.jar,用于在Hive中创建关联HBase表的jar,解决创建Hive关联HBase时报FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. org.apache.hadoop....
phoenix-4.14.1-HBase-1.2-client.jar
搭建pinpoint需要的hbase初始化脚本hbase-create.hbase