hbase的行锁与多版本并发控制(MVCC)

san_yun

浏览: 2685178 次
来自: 杭州

最近访客更多访客>>

空城旧梦why

sd3870181

alexqdjay

hanmiao

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

HBase

参考：http://www.rigongyizu.com/hbase-row-lock-and-multiversion-concurrency-control/

MVCC (Multiversion Concurrency Control)，即多版本并发控制技术，它使得大部分支持行锁的事务引擎，不再单纯的使用行锁来进行数据库的并发控制，取而代之的是，把数据库的行锁与行的多个版本结合起来，只需要很小的开销，就可以实现非锁定读，从而大大提高数据库系统的并发性能。

HBase正是通过行锁+MVCC保证了高效的并发读写。

为什么需要并发控制

HBase系统本身只能保证单行的ACID特性。ACID的含义是：

原子性(Atomicity)
一致性(Consistency)
隔离性(Isolation)
持久性(Durability)

传统的关系型数据库一般都提供了跨越所有数据的ACID特性；为了性能考虑，HBase只提供了基于单行的ACID。

下面是一个hbase并发写的例子。

原始数据如下
mvcc

从Apache HBase Write Path一文可以知道hbase写数据是分为两步：
1. 写Write-Ahead-Log(WAL)文件
2. 写MemStore：将每个cell[(row,column)对]的数据写到内存中的memstore

写写同步

假定对写没有采取并发控制，并考虑以下的顺序：

mvcc

最终得到的结果是：

mvcc

这样就得到了不一致的结果。显然我们需要对并发写操作进行同步。
最简单的方式是提供一个基于行的独占锁来保证对同一行写的独立性。所以写的顺序是：

(0) 获取行锁
(1) 写WAL文件
(2) 更新MemStore：将每个cell写入到memstore
(3) 释放行锁

读写同步

尽管对并发写加了锁，但是对于读呢？见下面的例子：
mvcc

如果在上面的图中红线所示的地方进行读操作，最终得到的结果是：
mvcc

可见需要对读和写也进行并发控制，不然会得到不一致的数据。最简单的方案就是读和写公用一把锁。这样虽然保证了ACID特性，但是读写操作同时抢占锁会互相影响各自的性能。

MVCC算法

HBase采用了MVCC算法来避免读操作去获取行锁。

对于写操作：

(w1) 获取行锁后，每个写操作都立即分配一个写序号
(w2) 写操作在保存每个数据cell时都要带上写序号
(w3) 写操作需要申明以这个写序号来完成本次写操作

对于读操作:

(r1) 每个读操作开始都分配一个读序号，也称为读取点
(r2) 读取点的值是所有的写操作完成序号中的最大整数(所有的写操作完成序号<=读取点)
(r3) 对某个(row,column)的读取操作r来说，结果是满足写序号为“写序号<=读取点这个范围内”的最大整数的所有cell值的组合

在采用MVCC后的数据执行图：
mvcc

注意到采用MVCC算法后，每一次写操作都有一个写序号(即w1步)，每个cell数据写memstore操作都有一个写序号(w2，例如：“Cloudera [wn=1]”))，并且每次写操作完成也是基于这个写序号(w3)。

如果在“Restaurant [wn=2]” 这步之后，“Waiter [wn=2]”这步之前，开始一个读操作。根据规则r1和r2，读的序号为1。根据规则3，读操作以序号1读到的值是：

mvcc

这样就实现了以无锁的方式读取到一致的数据了。

重新总结下MVCC算法下写操作的执行流程：

(0) 获取行锁
(0a) 获取写序号
(1) 写WAL文件
(2) 更新MemStore：将每个cell写入到memstore
(2a) 以写序号完成操作
(3) 释放行锁

本文是基于HBase 0.92. 在HBase 0.94中会有些优化策略，比如 HBASE-5541 提到的。

英文原文：https://blogs.apache.org/hbase/entry/apache_hbase_internals_locking_and

参考：深入理解MVCC多版本并发控制

分享到：

HBase的数据的update | facebook的HBase经验

2014-11-16 12:57
浏览 6435
评论(2)
分类:非技术
查看更多

2 楼 san_yun 2017-09-14

leibnitz 写道

hi,我想知道,无论在92还是94版本,更新时(如Puts)都加上了至少获取一个rowlock的条件.但这意味着同一批次的余下puts不能获取到依然继续更新.
想问的是为什么至少一个rowlock呢?(而且代码要求是必须是first row's lock).
其实我看来mvcc已经保证了ACID的要求了.至于上面说到的写写问题,内部已经使用queueWrites来隔离,即atomicity已经实现.
thanks

这块我也不是很清楚诶

1 楼 leibnitz 2017-09-08

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

hbase 事务与锁: - **实现方式**：HBase 使用 MVCC（多版本并发控制）机制来解决读写并发控制问题。 - **步骤一**：为每个写入操作分配一个递增的序列号。 - **步骤二**：为每个读取操作分配一个已完成的最大写入操作的序列号。 ...

HBase-并发控制机制解析: 为了实现事务特性，HBase采用了各种并发控制策略，包括各种锁机制、MVCC机制等。本文首先介绍HBase 的两种基于锁实现的同步机制，再分别详细介绍行锁的实现以及各种读写锁的应用场景，最后重点介绍MVCC机制的实现...

阿里巴巴面试官手册.pdf: ### MVCC（多版本并发控制） - **概念**：在不加锁的情况下保证数据的一致性，提高了并发处理能力。 - **实现原理**：为数据行附加版本号，读取时根据版本号选择合适的数据版本。 ### 间隙锁与幻读 - **间隙锁**：...

毕业设计选题 -未来生鲜运输车设计.pptx: 毕业设计选题 -未来生鲜运输车设计.pptx

基于樽海鞘算法优化的极限学习机回归预测及其与BP、GRNN、ELM的性能对比研究: 内容概要：本文详细探讨了基于樽海鞘算法（SSA）优化的极限学习机（ELM）在回归预测任务中的应用，并与传统的BP神经网络、广义回归神经网络（GRNN）以及未优化的ELM进行了性能对比。首先介绍了ELM的基本原理，即通过随机生成输入层与隐藏层之间的连接权重及阈值，仅需计算输出权重即可快速完成训练。接着阐述了SSA的工作机制，利用樽海鞘群体觅食行为优化ELM的输入权重和隐藏层阈值，从而提高模型性能。随后分别给出了BP、GRNN、ELM和SSA-ELM的具体实现代码，并通过波士顿房价数据集和其他工业数据集验证了各模型的表现。结果显示，SSA-ELM在预测精度方面显著优于其他三种方法，尽管其训练时间较长，但在实际应用中仍具有明显优势。适合人群：对机器学习尤其是回归预测感兴趣的科研人员和技术开发者，特别是那些希望深入了解ELM及其优化方法的人。使用场景及目标：适用于需要高效、高精度回归预测的应用场景，如金融建模、工业数据分析等。主要目标是提供一种更为有效的回归预测解决方案，尤其是在处理大规模数据集时能够保持较高的预测精度。其他说明：文中提供了详细的代码示例和性能对比图表，帮助读者更好地理解和复现实验结果。同时提醒使用者注意SSA参数的选择对模型性能的影响，建议进行参数敏感性分析以获得最佳效果。

2025年中国生成式AI大会PPT（4-1）: 2025年中国生成式AI大会PPT（4-1）

无刷直流电机双闭环调速系统的Simulink建模与参数优化: 内容概要：本文详细介绍了基于Simulink平台构建无刷直流电机（BLDC）双闭环调速系统的全过程。首先阐述了双闭环控制系统的基本架构，即外层速度环和内层电流环的工作原理及其相互关系。接着深入探讨了PWM生成模块的设计，特别是占空比计算方法的选择以及三角波频率的设定。文中还提供了详细的电机参数设置指导，如转动惯量、电感、电阻等，并强调了参数选择对系统性能的影响。此外，针对PI控制器的参数整定给出了具体的公式和经验值，同时分享了一些实用的调试技巧，如避免转速超调、处理启动抖动等问题的方法。最后，通过仿真实验展示了系统的稳定性和鲁棒性，验证了所提出方法的有效性。适用人群：从事电机控制研究的技术人员、自动化工程领域的研究生及科研工作者。使用场景及目标：适用于需要深入了解和掌握无刷直流电机双闭环调速系统设计与优化的人群。主要目标是帮助读者学会利用Simulink进行BLDC电机控制系统的建模、仿真和参数优化，从而提高系统的稳定性和响应速度。其他说明：文章不仅提供了理论知识，还包括了许多实践经验和技术细节，有助于读者更好地理解和应用相关技术。

西门子S7-1200 PLC与施耐德变频器Modbus通讯实现及调试技巧: 内容概要：本文详细介绍了西门子S7-1200 PLC与施耐德ATV310/312变频器通过Modbus RTU进行通讯的具体实现步骤和调试技巧。主要内容涵盖硬件接线、通讯参数配置、控制启停、设定频率、读取运行参数的方法以及常见的调试问题及其解决方案。文中提供了具体的代码示例，帮助读者理解和实施通讯程序。此外，还强调了注意事项，如地址偏移量、数据格式转换和超时匹配等。适合人群：从事工业自动化领域的工程师和技术人员，尤其是那些需要将西门子PLC与施耐德变频器进行集成的工作人员。使用场景及目标：适用于需要通过Modbus RTU协议实现PLC与变频器通讯的工程项目。目标是确保通讯稳定可靠，掌握解决常见问题的方法，提高调试效率。其他说明：文中提到的实际案例和调试经验有助于读者避免常见错误，快速定位并解决问题。建议读者在实践中结合提供的代码示例和调试工具进行操作。

基于FPGA的Verilog实现IIC主从机驱动及其应用: 内容概要：本文详细介绍了如何使用Verilog在FPGA上实现IIC（Inter-Integrated Circuit）主从机驱动。主要内容包括从机和主机的设计，特别是状态机的实现、寄存器读取、时钟分频策略、SDA线的三态控制等关键技术。文中还提供了详细的代码片段，展示了从机地址匹配逻辑、主机时钟生成逻辑、顶层模块的连接方法以及仿真实验的具体步骤。此外，文章讨论了一些常见的调试问题，如总线竞争、时序不匹配等，并给出了相应的解决方案。适合人群：具备一定FPGA开发基础的技术人员，尤其是对IIC协议感兴趣的嵌入式系统开发者。使用场景及目标：适用于需要在FPGA平台上实现高效、可靠的IIC通信的应用场景。主要目标是帮助读者掌握IIC协议的工作原理，能够独立完成IIC主从机系统的开发和调试。其他说明：文章不仅提供了理论讲解，还包括了大量的实战经验和代码实例，有助于读者更好地理解和应用所学知识。同时，文章还提供了一个思考题，引导读者进一步探索多主设备仲裁机制的设计思路。

C#开发的拖拽式Halcon可视化抓边抓圆控件，提升机器视觉测量效率: 内容概要：本文介绍了一款基于C#开发的拖拽式Halcon可视化抓边、抓圆控件，旨在简化机器视觉项目中的测量任务。该控件通过拖拽操作即可快速生成测量区域，自动完成边缘坐标提取，并提供实时反馈。文中详细描述了控件的工作原理和技术细节，如坐标系转换、卡尺生成、边缘检测算法封装以及动态参数调试等功能。此外，还讨论了一些常见问题及其解决方案，如坐标系差异、内存管理等。适合人群：从事机器视觉开发的技术人员，尤其是熟悉C#和Halcon的开发者。使用场景及目标：适用于需要频繁进行边缘和圆形特征测量的工业自动化项目，能够显著提高测量效率并减少编码工作量。主要目标是将复杂的测量任务转化为简单的拖拽操作，使非专业人员也能轻松完成测量配置。其他说明：该控件已开源发布在GitHub上，提供了完整的源代码和详细的使用指南。未来计划扩展更多高级功能，如自动路径规划和亚像素级齿轮齿距检测等。

西门子200Smart与维纶触摸屏在疫苗车间控制系统的应用：配液、发酵、纯化及CIP清洗工艺详解: 内容概要：本文详细介绍了西门子200Smart PLC与维纶触摸屏在某疫苗车间控制系统的具体应用，涵盖配液、发酵、纯化及CIP清洗四个主要工艺环节。文中不仅展示了具体的编程代码和技术细节，还分享了许多实战经验和调试技巧。例如，在配液罐中，通过模拟量处理确保温度和液位的精确控制；发酵罐部分，着重讨论了PID参数整定和USS通讯控制变频器的方法；纯化过程中，强调了双PID串级控制的应用；CIP清洗环节，则涉及复杂的定时器逻辑和阀门联锁机制。此外，文章还提到了一些常见的陷阱及其解决方案，如通讯干扰、状态机切换等问题。适合人群：具有一定PLC编程基础的技术人员，尤其是从事工业自动化领域的工程师。使用场景及目标：适用于需要深入了解PLC与触摸屏集成控制系统的工程师，帮助他们在实际项目中更好地理解和应用相关技术和方法，提高系统的稳定性和可靠性。其他说明：文章提供了大量实战经验和代码片段，有助于读者快速掌握关键技术点，并避免常见错误。同时，文中提到的一些优化措施和调试技巧对提升系统性能非常有帮助。

计算机网络结课设计：通过思科Cisco进行中小型校园网搭建: 计算机网络课程的结课设计是使用思科模拟器搭建一个中小型校园网，当时花了几天时间查阅相关博客总算是做出来了，现在免费上传CSDN，希望小伙伴们能给博客一套三连支持

芋道（yudao）开发技术文档: 《芋道开发指南文档-2023-10-27更新》是针对软件开发者和IT专业人士的一份详尽的资源集合，旨在提供最新的开发实践、范例代码和最佳策略。这份2023年10月27日更新的文档集，包含了丰富的模板和素材，帮助开发者在日常工作中提高效率，保证项目的顺利进行。让我们深入探讨这份文档的可能内容。"芋道"可能是一个开源项目或一个专业的技术社区，其开发指南涵盖了多个方面，例如： 1. **编程语言指南**：可能包括Java、Python、JavaScript、C++等主流语言的编码规范、最佳实践以及常见问题的解决方案。 2. **框架与库的应用**：可能会讲解React、Vue、Angular等前端框架，以及Django、Spring Boot等后端框架的使用技巧和常见应用场景。 3. **数据库管理**：涵盖了SQL语言的基本操作，数据库设计原则，以及如何高效使用MySQL、PostgreSQL、MongoDB等数据库系统。 4. **版本控制**：详细介绍了Git的工作流程，分支管理策略，以及与其他开发工具（如Visual Studio Code、IntelliJ IDEA）的集成。 5. **持续集成与持续部署(CI/CD)**：包括Jenkins、Travis CI、GitHub Actions等工具的配置和使用，以实现自动化测试和部署。 6. **云服务与容器化**：可能涉及AWS、Azure、Google Cloud Platform等云计算平台的使用，以及Docker和Kubernetes的容器化部署实践。 7. **API设计与测试**：讲解RESTful API的设计原则，Swagger的使用，以及Postman等工具进行API测试的方法。 8. **安全性与隐私保护**：涵盖OAuth、JWT认证机制，HTTPS安全通信，以及防止SQL注入、

基于信息间隙决策的综合能源系统优化调度模型及其应用: 内容概要：本文介绍了一种先进的综合能源系统优化调度模型，该模型将风电、光伏、光热发电等新能源与燃气轮机、燃气锅炉等传统能源设备相结合，利用信息间隙决策（IGDT）处理不确定性。模型中引入了P2G（电转气）装置和碳捕集技术，实现了碳经济闭环。通过多能转换和储能系统的协同调度，提高了系统的灵活性和鲁棒性。文中详细介绍了模型的关键组件和技术实现，包括IGDT的鲁棒性参数设置、P2G与碳捕集的协同控制、储能系统的三维协同调度等。此外，模型展示了在极端天气和负荷波动下的优异表现，显著降低了碳排放成本并提高了能源利用效率。适合人群：从事能源系统优化、电力调度、碳交易等相关领域的研究人员和工程师。使用场景及目标：适用于需要处理多种能源形式和不确定性的综合能源系统调度场景。主要目标是提高系统的灵活性、鲁棒性和经济效益，减少碳排放。其他说明：模型具有良好的扩展性，可以通过修改配置文件轻松集成新的能源设备。代码中包含了详细的注释和公式推导，便于理解和进一步改进。

毕业设计的论文撰写、终期答辩相关的资源.m: 毕业设计的论文撰写、终期答辩相关的资源

机器学习（预测模型）：专注于 2024 年出现的漏洞（CVE）信息数据集: 该是一个在 Kaggle 上发布的数据集，专注于 2024 年出现的漏洞（CVE）信息。以下是关于该数据集的详细介绍：该数据集收集了 2024 年记录在案的各类漏洞信息，涵盖了漏洞的利用方式（Exploits）、通用漏洞评分系统（CVSS）评分以及受影响的操作系统（OS）。通过整合这些信息，研究人员和安全专家可以全面了解每个漏洞的潜在威胁、影响范围以及可能的攻击途径。数据主要来源于权威的漏洞信息平台，如美国国家漏洞数据库（NVD）等。这些数据经过整理和筛选后被纳入数据集，确保了信息的准确性和可靠性。数据集特点：全面性：涵盖了多种操作系统（如 Windows、Linux、Android 等）的漏洞信息，反映了不同平台的安全状况。实用性：CVSS 评分提供了漏洞严重程度的量化指标，帮助用户快速评估漏洞的优先级。同时，漏洞利用信息（Exploits）为安全研究人员提供了攻击者可能的攻击手段，有助于提前制定防御策略。时效性：专注于 2024 年的漏洞数据，反映了当前网络安全领域面临的新挑战和新趋势。该数据集可用于多种研究和实践场景：安全研究：研究人员可以利用该数据集分析漏洞的分布规律、攻击趋势以及不同操作系统之间的安全差异，为网络安全防护提供理论支持。机器学习与数据分析：数据集中的结构化信息适合用于机器学习模型的训练，例如预测漏洞的 CVSS 评分、识别潜在的高危漏洞等。企业安全评估：企业安全团队可以参考该数据集中的漏洞信息，结合自身系统的实际情况，进行安全评估和漏洞修复计划的制定。

建模大赛入门指南：从零基础到实战应用.pdf: 内容概要：本文档作为建模大赛的入门指南，详细介绍了建模大赛的概念、类型、竞赛流程、核心步骤与技巧，并提供实战案例解析。文档首先概述了建模大赛，指出其以数学、计算机技术为核心，主要分为数学建模、3D建模和AI大模型竞赛三类。接着深入解析了数学建模竞赛，涵盖组队策略（如三人分别负责建模、编程、论文写作）、时间安排（72小时内完成全流程）以及问题分析、模型建立、编程实现和论文撰写的要点。文中还提供了物流路径优化的实战案例，展示了如何将实际问题转化为图论问题并采用Dijkstra或蚁群算法求解。最后，文档推荐了不同类型建模的学习资源与工具，并给出了新手避坑建议，如避免过度复杂化模型、重视可视化呈现等。; 适合人群：对建模大赛感兴趣的初学者，特别是高校学生及希望参与数学建模竞赛的新手。; 使用场景及目标：①了解建模大赛的基本概念和分类；②掌握数学建模竞赛的具体流程与分工；③学习如何将实际问题转化为数学模型并求解；④获取实战经验和常见错误规避方法。; 其他说明：文档不仅提供了理论知识，还结合具体实例和代码片段帮助读者更好地理解和实践建模过程。建议新手从中小型赛事开始积累经验，逐步提升技能水平。

protobuf-6.30.1-cp310-abi3-win32.whl: 该资源为protobuf-6.30.1-cp310-abi3-win32.whl，欢迎下载使用哦！

大数据环境构建：从虚拟机创建到Ambari集群部署的技术指南: 内容概要：本文档详细介绍了基于Linux系统的大数据环境搭建流程，涵盖从虚拟机创建到集群建立的全过程。首先，通过一系列步骤创建并配置虚拟机，包括设置IP地址、安装MySQL数据库等操作。接着，重点讲解了Ambari的安装与配置，涉及关闭防火墙、设置免密登录、安装时间同步服务（ntp）、HTTP服务以及配置YUM源等关键环节。最后，完成了Ambari数据库的创建、JDK的安装、Ambari server和agent的部署，并指导用户创建集群。整个过程中还提供了针对可能出现的问题及其解决方案，确保各组件顺利安装与配置。适合人群：具有Linux基础操作技能的数据工程师或运维人员，尤其是那些需要构建和管理大数据平台的专业人士。使用场景及目标：适用于希望快速搭建稳定可靠的大数据平台的企业或个人开发者。通过本指南可以掌握如何利用Ambari工具自动化部署Hadoop生态系统中的各个组件，从而提高工作效率，降低维护成本。其他说明：文档中包含了大量具体的命令行指令和配置细节，建议读者按照顺序逐步操作，并注意记录下重要的参数值以便后续参考。此外，在遇到问题时可参照提供的解决方案进行排查，必要时查阅官方文档获取更多信息。

MATLAB中基于LMS算法的一维时间序列信号降噪技术及其实现: 内容概要：本文详细介绍了如何在MATLAB R2018A中使用最小均方(LMS)自适应滤波算法对一维时间序列信号进行降噪处理，特别是针对心电图(ECG)信号的应用。首先，通过生成模拟的ECG信号并加入随机噪声，创建了一个带有噪声的时间序列。然后，实现了LMS算法的核心部分，包括滤波器阶数、步长参数的选择以及权重更新规则的设计。文中还提供了详细的代码示例，展示了如何构建和训练自适应滤波器，并通过图形化方式比较了原始信号、加噪信号与经过LMS处理后的降噪信号之间的差异。此外，作者分享了一些实用的经验和技术要点，如参数选择的影响、误差曲线的解读等。适用人群：适用于具有一定MATLAB编程基础并对信号处理感兴趣的科研人员、工程师或学生。使用场景及目标：本教程旨在帮助读者掌握LMS算法的基本原理及其在实际项目中的应用方法，特别是在生物医学工程、机械故障诊断等领域中处理含噪信号的任务。同时，也为进一步探索其他类型的自适应滤波技术和扩展到不同的信号处理任务奠定了基础。其他说明：尽管LMS算法在处理平稳噪声方面表现出色，但在面对突发性的强干扰时仍存在一定局限性。因此，在某些特殊场合下，可能需要与其他滤波技术相结合以获得更好的效果。

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论