`

HBase Region恢复逻辑

阅读更多

Region恢复逻辑

RegionServer出现宕机以后,其上部署的Region将会被Master重新分配处理,由于在宕机前,某些Region的memStore数据可能还没有做flush操作,因此,需要对这部分数据做还原处理,还原过程通过读取HLog文件来实现。

截至到目前为止(1.0版本),HBase共对外声明了两种Region恢复策略,分别基于LOG_SPLITTING和LOG_REPLAY。其中LOG_REPLAY是从0.98版本起开始引入的新策略,其相对LOG_SPLITTING策略有以下优点(具体可参考HBASE-7006):

(1)省略了创建和读写recovered.edits文件的过程;

(2)在Region恢复期间依然可以对其执行写操作。

因此,本文主要围绕LOG_REPLAY策略进行描述。

HMaster通过监听Zookeeper的/hbase/rs节点可获取到相关RegionServer的宕机事件,从而进行相应的回调处理,处理逻辑是通过ServerShutdownHandler类来封装的,具体细节如下:

  1. 首先通过元数据信息查找RegionServer,看其之前都部署了哪些Region,并将这些Region标记成recovering状态

    针对每个待恢复的Region记录,Zookeeper都会创建与之对应的/hbase/recovering-regions/[region]/[failed-regionserver]节点来存储其最后一次执行flush时的sequenceId。这个过程是在Master端来完成的,通过MasterFileSystem的prepareLogReplay方法,由于RegionServer在默认情况下会每隔3秒与Master通信一次(通过hbase.regionserver.msginterval参数来控制),因此sequenceId信息便可从通信内容中进行获取。

  2. 将目标RegionServer上部署的Region进行重新分配处理

    分配过程依然是在Master端进行的,通过AssignmentManager的assign(List<HRegionInfo>)方法,以round-robin方式将目标Regions分配给其他RegionServer,详细参考Region分配章节。

  3. 提交LogReplayHandler,将目标RegionServer上的HLog文件按Region进行分组拆分,并针对每个分组执行LOG_REPLAY操作

    针对每一个待拆分的HLog,Master都会生成与之对应的SplitLogTask任务,并在Zookeeper中创建/hbase/splitWAL/[hlog]节点来将其存储,节点名称为HLog的存储路径,内容为SplitLogTask对象信息。

    虽然SplitLogTask在Master端生成,但执行过程却是在RegionServer端,这主要通过Zookeeper来进行协调。每当有/hbase/splitWAL/[hlog]节点生成时,Zookeeper便会通知所有RegionServer节点进行任务抢占,抢占逻辑是通过SplitLogWorker线程来封装的,具体细节如下:

    首先对目标ZK节点的数据内容进行读取,获取其version信息和SplitLogTask对象信息,然后由SplitLogTask对象判断其是否处于Unassigned状态,如果不是说明该任务已被其他RegionServer抢占;否则将SplitLogTask的状态修改为OWN,并通过Zookeeper的setData(path,data,version)方法来重新设置目标节点的数据内容,如果setData方法在执行过程中发现当前version与目标数据的version不匹配,说明该任务已优先被其他RegionServer抢占,将放弃处理。而抢到任务的RegionServer节点通过开启WALSplitterHandler线程开始对目标HLog进行拆分。

    WALSplitter线程在实现上是基于生产者-消费者模式来设计的,其对内封装了buffers生产队列来存储所有待恢复的HLog.Entry实体。并对外提供了splitLogFile生产方法,来将目标HLog中符合以下要求的日志记录添加到buffers集合中去:

    HLogKey的logSeqNum属性值 > 其所在Region最后一次执行flush操作时的seqId

    其中,HLogKey所属Region可通过其encodingRegionName属性值来确定,而该Region最后执行flush时的seqId则记录在Zookeeper的/hbase/recovering-regions/[region]/[failed-regionserver]节点中(步骤1中所创建)。

    buffers集合产生数据之后,WALSplitterHandler线程默认会开启3个子线程来对其数据内容进行消费处理(hbase.regionserver.hlog.splitlog.writer.threads参数控制),每个子线程充当消费者的角色,通过WriterThread进行封装。

    buffers集合是通过如下数据结构进行组织的:

    Map<regionName, RegionEntryBuffer>

    消费者在消费过程中,会从集合中挑选出数据总量最大的RegionEntryBuffer,并将其传递给LogReplayOutputSink进行处理(通过调用其append方法),处理逻辑大致如下:

    • 将RegionEntryBuffer中的日志记录追加到serverToBufferQueueMap集合中

      serverToBufferQueueMap集合的存储结构大致如下:servername#tablename --> Queue<Row>

      通过key可定位到目标RegionServer上的目标表格,value为要在目标表格上执行LOG_REPLAY操作的日志数据。

    • 从serverToBufferQueueMap集合中挑选出Row数量最多的记录并进行如下判断:

      (1)Row个数是否大于hbase.regionserver.wal.logreplay.batch.size参数值;

      (2)所有Row的总数据量大于hbase.regionserver.hlog.splitlog.buffersize * 0.35

      如果满足以上任意一项条件,对其执行下个步骤中的操作,否则先将数据缓存在serverToBufferQueueMap集合中,待数据总量达到一定规模时在进行处理。

    • 对上个步骤中过滤成功的数据执行LOG_REPLAY操作

      通过RPC请求执行远端RSRpcServices服务的replay方法,来将待同步的日志数据传递过去进行数据恢复。

配置参数

  1. hbase.master.distributed.log.replay

    是否启用LOG_REPLAY策略,启用前提:hfile.format.version属性值不小于3。

  2. hbase.hlog.split.skip.errors

    默认值为false,表示如果在HLog读取过程中如果出现了问题,则打印异常信息,并放弃接下来的处理。

    如果将其属性值设置成true,则出现问题时会进行如下处理:首先打印错误信息,然后将出现问题的HLog文件移动到/hbase/.corrupt目录下,并继续接下来的处理。

  3. hbase.splitlog.report.interval.loglines

    默认值为1024,表示每处理1024行HLog日志记录时打印一次输出信息。

  4. hbase.regionserver.hlog.splitlog.buffersize

    默认值为128M,表示每次LOG_REPLAY操作的日志总量应大于128M * 0.35(固定百分比),或满足hbase.regionserver.wal.logreplay.batch.size参数。

  5. hbase.regionserver.wal.logreplay.batch.size

    默认值为64,表示每次执行LOG_REPLAY操作时应至少包含64条日志记录,或满足hbase.regionserver.hlog.splitlog.buffersize参数。

  6. hbase.regionserver.hlog.splitlog.writer.threads

    通过该参数来控制WALSplitter.WriterThread线程的数量。

 

http://blog.csdn.net/javaman_chen/article/details/47166141

分享到:
评论

相关推荐

    原生js图片圆形排列按钮控制3D旋转切换插件.zip

    原生js图片圆形排列按钮控制3D旋转切换插件.zip

    类似c++数组的python包

    内含二维数组与三维数组,分别为list2nd,list3rd

    原生js颜色随机生成9x9乘法表代码.zip

    原生js颜色随机生成9x9乘法表代码.zip

    原生js实现图片叠加滚动切换代码.zip

    原生js实现图片叠加滚动切换代码.zip

    【Academic tailor】学术小裁缝必备知识点:全局注意力机制(GAM)TensorFlow

    【Academic tailor】学术小裁缝必备知识点:全局注意力机制(GAM) 注意力机制是深度学习中的重要技术,尤其在序列到序列(sequence-to-sequence)任务中广泛应用,例如机器翻译、文本摘要和问答系统等。这一机制由 Bahdanau 等人在其论文《Neural Machine Translation by Jointly Learning to Align and Translate》中首次提出。以下将详细介绍这一机制的背景、核心原理及相关公式。 全局注意力机制(Global Attention Mechanism, GAM)由 《Global Attention Mechanism: Retain Information to Enhance Channel-Spatial Interactions》提出,是一篇针对计算机视觉任务提出的方法。这篇文章聚焦于增强深度神经网络中通道和空间维度之间的交互,以提高分类任务的性能。与最早由 Bahdanau 等人提出的用于序列到序列任务的注意力机制 不同,这篇文章的重点是针对图像分类任务,并未专注于序

    基于SpringBoot的“篮球论坛系统”的设计与实现(源码+数据库+文档+PPT).zip

    本项目在开发和设计过程中涉及到原理和技术有: B/S、java技术和MySQL数据库等;此文将按以下章节进行开发设计; 第一章绪论;剖析项目背景,说明研究的内容。 第二章开发技术;系统主要使用了java技术, b/s模式和myspl数据库,并对此做了介绍。 第三章系统分析;包罗了系统总体结构、对系统的性能、功能、流程图进行了分析。 第四章系统设计;对软件功能模块和数据库进行详细设计。 第五章系统总体设计;对系统管理员和用户的功能进行描述, 第六章对系统进行测试, 第七章总结心得;在论文最后结束章节总结了开发这个系统和撰写论文时候自己的总结、感想,包括致谢。

    毕业设计&课设_iOS 商城项目,含购物与商家管理功能,用 Sqlite,有账号示例,适合 iOS 开发练习.zip

    1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。

    镗夹具总工艺图.dwg

    镗夹具总工艺图

    原生js树叶数字时钟代码.rar

    原生js树叶数字时钟代码.rar

    近代非线性回归分析-韦博成1989

    近代非线性回归分析-韦博成1989

    Rust语言中冒泡排序算法的高效实现与优化

    内容概要:本文详细介绍了用 Rust 语言实现冒泡排序算法的具体步骤,以及通过设置标志位来优化算法性能的方法。示例代码包括了函数定义、内外层循环逻辑、标志位的应用,并在主函数中展示了如何调用 bubble_sort 函数并显示排序前后的数组。 适合人群:具有基本 Rust 编程基础的学习者和开发者。 使用场景及目标:适用于想要深入了解 Rust 中冒泡排序实现方式及其优化技巧的技术人员。通过本篇文章,能够掌握 Rust 基本语法以及算法优化的基本思想。 阅读建议:除了仔细阅读和理解每一部分的内容外,还可以尝试修改代码,改变数据集大小,进一步探索冒泡排序的时间复杂度和优化效果。此外,在实际应用时也可以考虑引入并发或其他高级特性以提升性能。

    培训课件 -安全隐患分类与排查治理.pptx

    培训课件 -安全隐患分类与排查治理.pptx

    1-中国各地级市的海拔标准差-社科数据.zip

    中国各地级市的海拔标准差数据集提供了298个地级市的海拔变异性信息。海拔标准差是衡量某地区海拔高度分布离散程度的统计指标,它通过计算各测量点海拔与平均海拔之间的差异来得出。这一数据对于评估地形起伏对网络基础设施建设的影响尤为重要,因为地形的起伏度不仅会增加建设成本,还会影响信号质量。此外,由于地形起伏度是自然地理变量,它与经济社会因素关联性较小,因此被用作“宽带中国”试点政策的工具变量,以研究网络基础设施建设对经济的影响。数据集中包含了行政区划代码、地区、所属省份、所属地域、长江经济带、经度、纬度以及海拔标准差等关键指标。这些数据来源于地理空间数据云,并以Excel和dta格式提供,方便研究者进行进一步的分析和研究。

    YOLO算法的原理与实现.pdf

    YOLO算法的原理与实现

    机器学习用于视网膜病变预测:使用 XGBoost 揭示年龄和HbA1c 的重要性 -论文

    视网膜病变是糖尿病和高血压的主要微血管并发症。如果不及时治疗,可能会导致失明。据估计,印度三分之一的成年人患有糖尿病或高血压,他们未来患视网膜病变的风险很高。我们研究的目的是检查糖化血红蛋白 (HbA1c)、血压 (BP) 读数和脂质水平与视网膜病变的相关性。我们的主要假设是,血糖控制不佳(表现为高 HbA1c 水平、高血压和异常脂质水平)会导致视网膜病变风险增加。我们使用眼底照相机筛查了 119 名印度患者的视网膜病变,并获取了他们最近的血压、HbA1c 和血脂谱值。然后,我们应用 XGBoost 机器学习算法根据他们的实验室值预测是否存在视网膜病变。我们能够根据这些关键生物标志物高精度地预测视网膜病变。此外,使用 Shapely Additive Explanations (SHAP),我们确定了对模型最重要的两个特征,即年龄和 HbA1c。这表明血糖控制不佳的老年患者更有可能出现视网膜病变。因此,这些高风险人群可以成为早期筛查和干预计划的目标,以防止视网膜病变发展为失明。

    RL Base强化学习:信赖域策略优化(TRPO)算法TensorFlow实现

    在强化学习(RL)领域,如何稳定地优化策略是一个核心挑战。2015 年,由 John Schulman 等人提出的信赖域策略优化(Trust Region Policy Optimization, TRPO)算法为这一问题提供了优雅的解决方案。TRPO 通过限制策略更新的幅度,避免了策略更新过大导致的不稳定问题,是强化学习中经典的策略优化方法之一。

    Spring 应用编译为原生可执行文件.zip

    1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。

    1-中国各地区普通小学毕业生数(1999-2020年)-社科数据.zip

    这组数据涵盖了1999至2020年间中国各地区普通小学毕业生的数量。它为我们提供了一个深入了解中国教育领域中普通小学阶段教育水平和教育资源分配情况的窗口。通过分析这些数据,可以为制定科学合理的教育政策提供依据,同时,通过比较不同城市的普通小学毕业生数,也能为城市规划和劳动力市场调查提供参考。数据来源于中国区域统计年鉴和中国各省市统计年鉴,包含了8472个样本,以面板数据的形式呈现。这些数据对于掌握中国教育态势具有重要的参考价值。

    原生js制作拖拽排列排序代码.zip

    原生js制作拖拽排列排序代码.zip

    PixPin截图工具,非常好用的一款截图工具

    PixPin截图工具,非常好用的一款截图工具

Global site tag (gtag.js) - Google Analytics