hbase 结构及工作过程 -

fishyu0817

浏览: 111650 次
性别:
来自: 北京

最近访客更多访客>>

fangyong2006

persourle

langchenglc

sqq4290

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

hbase 结构及工作过程

博客分类：

Hadoop Hbase

HBase 工作数据结构 Hadoop 设计模式

最近关注 Hadoop ，因此也顺便关注了一下 Hadoop相关的项目。 HBASE就是基于 Hadoop的一个开源项目，也是对 Google的 BigTable的一种实现。

   BigTable是什么？ Google的 Paper对其作了充分的说明。字面上看就是一张大表，其实和我们想象的传统数据库的表还是有些差别的。松散数据可以说是介于 Map Entry（ key & value）和 DB Row之间的一种数据。在我使用 Memcache的时候，有时候的需求是需要存储的不仅仅是简单的一个 key对应一个 value，可能我需要类似于数据库表结构中多属性的存储，但是又不会有传统数据库表结构中那么多关联关系的需求，其实这类数据就是所谓的松散数据。 BigTable最浅显来看就是一张很大的表，表的属性可以根据需求去动态增加，但是又没有表与表之间关联查询的需求。
   互联网应用有一个最大的特点，就是速度，功能再强大，速度慢，还是会被舍弃。因此在大访问量的网站都采取前后的缓存来提升性能和响应时间。对于 Map Entry类型的数据，集中式分布式 Cache都有很多选择，对于传统的关系型数据，从 MySQL 到 Oracle都给了很好的支持，唯有松散数据这类数据，采用前后两种解决方案都不能最大化它的处理能力。因此 BigTable才有了它用武之地。
   HBASE作为 Apache的开源项目，也是出于起步阶段，因为其实它所依赖的 Hadoop也不能说已经到了成熟阶段，所以都有很大的发展空间，这也为我们这些开源爱好者提供了更多空间去贡献。这里主要会谈到 HBASE的框架设计方面的知识和它的一些特点，不论是否采用 HBASE去解决工作中的问题，一种好的流程设计总会给开发者和架构设计者带来一些思想上的火花。 HBASE 设计介绍数据模型
   HBASE中的每一张表，就是所谓的 BigTable。 BigTable会存储一系列的行记录，行记录有三个基本类型的定义： Row Key,Time Stamp,Column。 Row Key是行在 BigTable中的唯一标识， Time Stamp是每次数据操作对应关联的时间戳，可以看作类似于 SVN的版本， Column定义为： <family>:<label>，通过这两部分可以唯一的指定一个数据的存储列， family的定义和修改需要对 HBASE作类似于 DB的 DDL操作，而对于 label的使用，则不需要定义直接可以使用，这也为动态定制列提供了一种手段。 family另一个作用其实在于物理存储优化读写操作，同 family的数据物理上保存的会比较临近，因此在业务设计的过程中可以利用这个特性。
看一下逻辑数据模型：

Row Key	Time Stamp	Column "contents:"	Column "anchor:"	Column "mime:"
"com.cnn.www"	t9		"anchor:cnnsi.com"	"CNN"
t8		"anchor:my.look.ca"	"CNN.com"
t6	"<html>..."			"text/html"
t5	"<html>..."
t3	"<html>..."

上表中有一列，列的唯一标识为 com.cnn.www，每一次逻辑修改都有一个 timestamp关联对应，一共有四个列定义： <contents:>,<anchor:cnnsi.com>,<anchor:my.look.ca>,<mime:>。如果用传统的概念来将 BigTable作解释，那么 BigTable可以看作一个 DB Schema，每一个 Row就是一个表， Row key就是表名，这个表根据列的不同可以划分为多个版本，同时每个版本的操作都会有时间戳关联到操作的行。

再看一下 HBASE的物理数据模型：

Row Key	Time Stamp	Column "contents:"
"com.cnn.www"	t6	"<html>..."
t5	"<html>..."
t3	"<html>..."

Row Key	Time Stamp	Column "anchor:"
"com.cnn.www"	t9	"anchor:cnnsi.com"	"CNN"
t8	"anchor:my.look.ca"	"CNN.com"

Row Key	Time Stamp	Column "mime:"
"com.cnn.www"	t6	"text/html"

物理数据模型其实就是将逻辑模型中的一个 Row分割成为根据 Column family存储的物理模型。

对于 BigTable的数据模型操作的时候，会锁定 Row，并保证 Row的原子操作。框架结构及流程

图 1 框架结构图

HBASE依托于 Hadoop的 HDFS作为存储基础，因此结构也很类似于 Hadoop的 Master-Slave模式， Hbase Master Server 负责管理所有的 HRegion Server，但 Hbase Master Server本身并不存储 HBASE中的任何数据。 HBASE逻辑上的 Table被定义成为一个 Region存储在某一台 HRegion Server上， HRegion Server 与 Region的对应关系是一对多的关系。每一个 HRegion在物理上会被分为三个部分： Hmemcache、 Hlog、 HStore，分别代表了缓存，日志，持久层。通过一次更新流程来看一下这三部分的作用：

图 2 提交更新以及刷新 Cache 流程

由流程可以看出，提交更新操作将会写入到两部分实体中， HMemcache和 Hlog中， HMemcache就是为了提高效率在内存中建立缓存，保证了部分最近操作过的数据能够快速的被读取和修改， Hlog是作为同步 Hmemcache和 Hstore的事务日志，在 HRegion Server周期性的发起 Flush Cache命令的时候，就会将 Hmemcache中的数据持久化到 Hstore中，同时会清空 Hmemecache中的数据，这里采用的是比较简单的策略来做数据缓存和同步，复杂一些其实可以参照 java的垃圾收集机制来做。

在读取 Region信息的时候，优先读取 HMemcache中的内容，如果未取到再去读取 Hstore中的数据。

几个细节：

1．
由于每一次 Flash Cache，就会产生一个 Hstore File，在 Hstore中存储的文件会越来越多，对性能也会产生一定影响，因此达到设置文件数量阀值的时候就会 Merge这些文件为一个大文件。

2．
Cache大小的设置以及 flush的时间间隔设置需要考虑内存消耗以及对性能的影响。

3．
HRegion Server每次重新启动的时候会将 Hlog中没有被 Flush到 Hstore中的数据再次载入到 Hmemcache，因此 Hmemcache过大对于启动的速度也有直接影响。

4．
Hstore File中存储数据采用 B-tree的算法，因此也支持了前面提到对于 Column同 Family数据操作的快速定位获取。

5．
HRegion可以 Merge也可以被 Split，根据 HRegion的大小决定。不过在做这些操作的时候 HRegion都会被锁定不可使用。

6．
Hbase Master Server通过 Meta-info Table来获取 HRegion Server的信息以及 Region的信息， Meta最顶部的一个 Region是虚拟的一个叫做 Root Region，通过 Root Region可以找到下面各个实际的 Region。

7．
客户端通过 Hbase Master Server获得了 Region所在的 Region Server，然后就直接和 Region Server进行交互，而对于 Region Server相互之间不通信，只和 Hbase Master Server交互，受到 Master Server的监控和管理。

后话

对 HBase 还没有怎么使用，仅仅只是看了 wiki去了解了一下结构和作用，暂时还没有需要使用的场景，不过对于各种开源项目的设计有所了解，对自己的框架结构设计也会有很多帮助，因此分享一下。

分享到：

在eclipse中使用junit | hbase 数据持久

2010-06-04 19:00
浏览 3621
评论(0)
分类:数据库
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

智能车竞赛介绍（竞赛目标和赛程安排）.zip: 全国大学生智能汽车竞赛自2006年起，由教育部高等教育司委托高等学校自动化类教学指导委员会举办，旨在加强学生实践、创新能力和培养团队精神的一项创意性科技竞赛。该竞赛至今已成功举办多届，吸引了众多高校学生的积极参与，此文件为智能车竞赛介绍

集字卡v4.3.4微信公众号原版三种UI+关键字卡控制+支持强制关注.zip: 字卡v4.3.4 原版三种UI+关键字卡控制+支持获取用户信息+支持强制关注集卡模块从一开始的版本到助力版本再到现在的新规则版本。集卡模块难度主要在于如何控制各种不同的字卡组合被粉丝集齐的数量。如果不控制那么一定会出现超过数量的粉丝集到指定的字卡组合，造成奖品不够的混乱，如果大奖价值高的话，超过数量的粉丝集到大奖后，就造成商家的活动费用超支了。我们冥思苦想如何才能限制集到指定字卡组合的粉丝数，后我们想到了和支付宝一样的选一张关键字卡来进行规则设置的方式来进行限制，根据奖品所需的关键字卡数，设定规则就可以控制每种奖品所需字卡组合被粉丝集到的数量，规则可以在活动进行中根据需要进行修改，活动规则灵活度高。新版的集卡规则，在此次政府发布号的活动中经受了考验，集到指定字卡组合的粉丝没有超出规则限制。有了这个规则限制后，您无需盯着活动，建好活动后就无人值守让活动进行就行了，您只需要时不时来看下蹭蹭上涨的活动数据即可。被封？无需担心，模块内置有防封功能，支持隐藏主域名，显示炮灰域名，保护活动安全进行。活动准备？只需要您有一个认证服务号即可，支持订阅号借用认证服务号来做活动。如果您

出口设备线体程序详解：PLC通讯下的V90控制与开源FB284工艺对象实战指南,出口设备线体程序详解：PLC通讯与V90控制集成，工艺对象与FB284协同工作，开源学习V90控制技能,出口设备1200: 出口设备线体程序详解：PLC通讯下的V90控制与开源FB284工艺对象实战指南,出口设备线体程序详解：PLC通讯与V90控制集成，工艺对象与FB284协同工作，开源学习V90控制技能,出口设备1200线体程序，多个plc走通讯，内部有多个v90,采用工艺对象与fb284 共同控制，功能快全部开源，能快速学会v90的控制 ,出口设备; 1200线体程序; PLC通讯; 多个V90; 工艺对象; FB284; 功能开源; V90控制。,V90工艺控制：开源功能快，快速掌握1200线体程序与PLC通讯

基于Arduino与DAC8031的心电信号模拟器资料：心电信号与正弦波的双重输出应用方案,Arduino与DAC8031心电信号模拟器：生成心电信号与正弦波输出功能详解,基于arduino +DAC: 基于Arduino与DAC8031的心电信号模拟器资料：心电信号与正弦波的双重输出应用方案,Arduino与DAC8031心电信号模拟器：生成心电信号与正弦波输出功能详解,基于arduino +DAC8031的心电信号模拟器资料，可输出心电信号，和正弦波 ,基于Arduino;DAC8031;心电信号模拟器;输出心电信号;正弦波输出;模拟器资料,基于Arduino与DAC8031的心电信号模拟器：输出心电与正弦波

（参考项目）MATLAB口罩识别检测.zip: MATLAB口罩检测的基本流程图像采集：通过摄像头或其他图像采集设备获取包含面部的图像。图像预处理：对采集到的图像进行灰度化、去噪、直方图均衡化等预处理操作，以提高图像质量，便于后续的人脸检测和口罩检测。人脸检测：利用Haar特征、LBP特征等经典方法或深度学习模型（如MTCNN、FaceBoxes等）在预处理后的图像中定位人脸区域。口罩检测：在检测到的人脸区域内，进一步分析是否佩戴口罩。这可以通过检测口罩的边缘、纹理等特征，或使用已经训练好的口罩检测模型来实现。结果输出：将检测结果以可视化方式展示，如在图像上标注人脸和口罩区域，或输出文字提示是否佩戴口罩。

kernel-debug-devel-3.10.0-1160.119.1.el7.x64-86.rpm.tar.gz: 1、文件内容：kernel-debug-devel-3.10.0-1160.119.1.el7.rpm以及相关依赖 2、文件形式：tar.gz压缩包 3、安装指令： #Step1、解压 tar -zxvf /mnt/data/output/kernel-debug-devel-3.10.0-1160.119.1.el7.tar.gz #Step2、进入解压后的目录，执行安装 sudo rpm -ivh *.rpm 4、更多资源/技术支持：公众号禅静编程坊

day02供应链管理系统-补充.zip: 该文档提供了一个关于供应链管理系统开发的详细指南，重点介绍了项目安排、技术实现和框架搭建的相关内容。文档分为以下几个关键部分：项目安排：主要步骤包括搭建框架（1天），基础数据模块和权限管理（4天），以及应收应付和销售管理（5天）。供应链概念：供应链系统的核心流程是通过采购商品放入仓库，并在销售时从仓库提取商品，涉及三个主要订单：采购订单、销售订单和调拨订单。大数据的应用：介绍了数据挖掘、ETL（数据抽取）和BI（商业智能）在供应链管理中的应用。技术实现：讲述了DAO（数据访问对象）的重用、服务层的重用、以及前端JS的继承机制、jQuery插件开发等技术细节。系统框架搭建：包括Maven环境的配置、Web工程的创建、持久化类和映射文件的编写，以及Spring配置文件的实现。 DAO的需求和功能：供应链管理系统的各个模块都涉及分页查询、条件查询、删除、增加、修改操作等需求。泛型的应用：通过示例说明了在Java语言中如何使用泛型来实现模块化和可扩展性。文档非常技术导向，适合开发人员参考，用于构建供应链管理系统的架构和功能模块。

基于四旋翼无人机的PD控制研究附Matlab代码.rar: 1.版本：matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

C#与VB实现欧姆龙PLC的Fins TCP通信案例源码：调用动态链接库进行数据读写，定时器与计数器数据区的简洁读写操作示例,C#与VB实现欧姆龙PLC的Fins TCP通信案例源码：调用动态链接库进: C#与VB实现欧姆龙PLC的Fins TCP通信案例源码：调用动态链接库进行数据读写，定时器与计数器数据区的简洁读写操作示例,C#与VB实现欧姆龙PLC的Fins TCP通信案例源码：调用动态链接库进行读写操作，涵盖定时器计数器数据区学习案例,C#欧姆龙plc Fins Tcp通信案例上位机源码，有c#和VB的Demo，c#上位机和欧姆龙plc通讯案例源码,调用动态链接库，可以实现上位机的数据连接，可以简单实现D区W区定时器计数器等数据区的读写，是一个非常好的学习案例 ,C#; 欧姆龙PLC; Fins Tcp通信; 上位机源码; 动态链接库; 数据连接; D区W区读写; 定时器计数器; 学习案例,C#实现欧姆龙PLC Fins Tcp通信上位机源码，读写数据区高效学习案例

可调谐石墨烯超材料吸收体的FDTD仿真模拟研究报告：吸收光谱的化学势调节策略与仿真源文件解析,可调谐石墨烯超材料吸收体：化学势调节光谱的FDTD仿真模拟研究,可调谐石墨烯超材料吸收体FDTD仿真模拟: 可调谐石墨烯超材料吸收体的FDTD仿真模拟研究报告：吸收光谱的化学势调节策略与仿真源文件解析,可调谐石墨烯超材料吸收体：化学势调节光谱的FDTD仿真模拟研究,可调谐石墨烯超材料吸收体FDTD仿真模拟【案例内容】该案例提供了一种可调谐石墨烯超材料吸收体，其吸收光谱可以通过改变施加于石墨烯的化学势来进行调节。【案例文件】仿真源文件 ,可调谐石墨烯超材料吸收体; FDTD仿真模拟; 化学势调节; 仿真源文件,石墨烯超材料吸收体：FDTD仿真调节吸收光谱案例解析

RBF神经网络控制仿真-第二版: RBF神经网络控制仿真-第二版

松下PLC与威纶通触摸屏转盘设备控制：FPWINPRO7与EBPRO智能编程与宏指令应用,松下PLC与威纶通触摸屏转盘设备控制解决方案：FPWINPRO7与EBPRO协同工作，实现多工位转盘加工与IE: 松下PLC与威纶通触摸屏转盘设备控制：FPWINPRO7与EBPRO智能编程与宏指令应用,松下PLC与威纶通触摸屏转盘设备控制解决方案：FPWINPRO7与EBPRO协同工作，实现多工位转盘加工与IEC编程模式控制,松下PLC+威纶通触摸屏的转盘设备松下PLC工程使用程序版本为FPWINPRO7 7.6.0.0版本威纶通HMI工程使用程序版本为EBPRO 6.07.02.410S 1.多工位转盘加工控制。 2.国际标准IEC编程模式。 3.触摸屏宏指令应用控制。 ,松下PLC; 威纶通触摸屏; 转盘设备控制; 多工位加工控制; IEC编程模式; 触摸屏宏指令应用,松下PLC与威纶通HMI联控的转盘设备控制程序解析

基于循环神经网络（RNN）的多输入单输出预测模型（适用于时间序列预测与回归分析，需Matlab 2021及以上版本）,基于循环神经网络（RNN）的多输入单输出预测模型（matlab版本2021+），真: 基于循环神经网络（RNN）的多输入单输出预测模型（适用于时间序列预测与回归分析，需Matlab 2021及以上版本）,基于循环神经网络（RNN）的多输入单输出预测模型（matlab版本2021+），真实值与预测值对比，多种评价指标与线性拟合展示。,RNN预测模型做多输入单输出预测模型，直接替数据就可以用。程序语言是matlab，需求最低版本为2021及以上。程序可以出真实值和预测值对比图，线性拟合图，可打印多种评价指标。 PS:以下效果图为测试数据的效果图，主要目的是为了显示程序运行可以出的结果图，具体预测效果以个人的具体数据为准。 2.由于每个人的数据都是独一无二的，因此无法做到可以任何人的数据直接替就可以得到自己满意的效果。这段程序主要是一个基于循环神经网络（RNN）的预测模型。它的应用领域可以是时间序列预测、回归分析等。下面我将对程序的运行过程进行详细解释和分析。首先，程序开始时清空环境变量、关闭图窗、清空变量和命令行。然后，通过xlsread函数导入数据，其中'数据的输入'和'数据的输出'是两个Excel文件的文件名。接下来，程序对数据进行归一化处理。首先使用ma

【图像识别】手写文字识别研究附Matlab代码+运行结果.rar: 1.版本：matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

旅游管理系统(基于springboot,mysql,java).zip: 旅游管理系统中的功能模块主要是实现管理员；首页、个人中心、用户管理、旅游方案管理、旅游购买管理、系统管理，用户；首页、个人中心、旅游方案管理、旅游购买管理、我的收藏管理。前台首页；首页、旅游方案、旅游资讯、个人中心、后台管理等功能。经过认真细致的研究，精心准备和规划，最后测试成功，系统可以正常使用。分析功能调整与旅游管理系统实现的实际需求相结合，讨论了Java开发旅游管理系统的使用。从上面的描述中可以基本可以实现软件的功能： 1、开发实现旅游管理系统的整个系统程序； 2、管理员；首页、个人中心、用户管理、旅游方案管理、旅游购买管理、系统管理等。 3、用户：首页、个人中心、旅游方案管理、旅游购买管理、我的收藏管理。 4、前台首页：首页、旅游方案、旅游资讯、个人中心、后台管理等相应操作； 5、基础数据管理：实现系统基本信息的添加、修改及删除等操作，并且根据需求进行交流查看及回复相应操作。

Boost二级升压光伏并网结构的Simulink建模与MPPT最大功率点追踪：基于功率反馈的扰动观察法调整电压方向研究,Boost二级升压光伏并网结构的Simulink建模与MPPT最大功率点追踪：基: Boost二级升压光伏并网结构的Simulink建模与MPPT最大功率点追踪：基于功率反馈的扰动观察法调整电压方向研究,Boost二级升压光伏并网结构的Simulink建模与MPPT最大功率点追踪：基于功率反馈的扰动观察法调整电压方向研究,Boost二级升压光伏并网结构，Simulink建模，MPPT最大功率点追踪，扰动观察法采用功率反馈方式，若ΔP>0，说明电压调整的方向正确，可以继续按原方向进行“干扰”；若ΔP<0，说明电压调整的方向错误，需要对“干扰”的方向进行改变。 ,Boost升压;光伏并网结构;Simulink建模;MPPT最大功率点追踪;扰动观察法;功率反馈;电压调整方向。,光伏并网结构中Boost升压MPPT控制策略的Simulink建模与功率反馈扰动观察法

基于matlab平台的图像去雾设计.zip: 运行GUI版本，可二开

Deepseek相关参考资源文档: Deepseek相关主题资源及行业影响

WP Smush Pro3.16.12 一款专为 WordPress 网站设计的图像优化插件开心版.zip: WP Smush Pro 是一款专为 WordPress 网站设计的图像优化插件。一、主要作用图像压缩它能够在不影响图像质量的前提下，大幅度减小图像文件的大小。例如，对于一些高分辨率的产品图片或者风景照片，它可以通过先进的压缩算法，去除图像中多余的数据。通常 JPEG 格式的图像经过压缩后，文件大小可以减少 40% – 70% 左右。这对于网站性能优化非常关键，因为较小的图像文件可以加快网站的加载速度。该插件支持多种图像格式的压缩，包括 JPEG、PNG 和 GIF。对于 PNG 图像，它可以在保留透明度等关键特性的同时，有效地减小文件尺寸。对于 GIF 图像，也能在一定程度上优化文件大小，减少动画 GIF 的加载时间。懒加载 WP Smush Pro 实现了图像懒加载功能。懒加载是一种延迟加载图像的技术，当用户滚动页面到包含图像的位置时，图像才会加载。这样可以避免一次性加载大量图像，尤其是在页面内容较多且包含许多图像的情况下。例如，在一个新闻网站的长文章页面，带有大量配图，懒加载可以让用户在浏览文章开头部分时，不需要等待所有图片加载，从而提高页面的初始加载速度，同时也能

1. Download this file: https://cdn-media.huggingface.co/frpc-gradio-0.3/frpc-windows-amd64.exe: Could not create share link. Missing file: C:\Users\xx\.conda\envs\omni\Lib\site-packages\gradio\frpc_windows_amd64_v0.3 1. Download this file: https://cdn-media.huggingface.co/frpc-gradio-0.3/frpc_windows_amd64.exe 2. Rename the downloaded file to: frpc_windows_amd64_v0.3 3. Move the file to this location: C:\Users\xx\.conda\envs\omni\Lib\site-packages\gradio

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hbase 结构及工作过程

评论

发表评论

相关推荐

hbase 数据持久

转载：hbase入门 一些简单的查询语句

GWT+hadoop+Hbase搭建环境

最近访客更多访客>>

转载：hbase入门一些简单的查询语句