原文:http://punishzhou.iteye.com/blog/1258848
0.90.X的get和scan操作原理上是比较一致的,get操作都变为scan操作。不过在分析之前我们还是从get说起
话不多说首先看看get这个接口,hbase客户端对于get有以下几种:
- public Get(byte [] row)
- public Get(byte [] row, RowLock rowLock)
其中rowlock主要是用来保证行的事务性,即每个get是以一个row来标记的一个row中可以有很多family和column
get还有很多函数如addfamily,addcolumn,这里我主要以指定row family column来get数据
ok我们来看HTable的get操作
- public Result get(final Get get) throws IOException {
- return connection.getRegionServerWithRetries(
- new ServerCallable<Result>(connection, tableName, get.getRow()) {
- public Result call() throws IOException {
- return server.get(location.getRegionInfo().getRegionName(), get);
- }
- }
- );
- }
这也是一个RPC调用的过程且其返回结果为Result。
1.调用HConnectManger的getRegionServerWithRetries(ServerCallable<T> callable)
callable.instantiateServer(tries != 0);
return callable.call();
这两步主要是找到该get的row所在的region,locateRegion
这个过程以后再来分析,总之就是找到该get所在的region,并与该region所在server通信
我们主要来看RegionServer端的Get操作,主要是region的get操作
- List<KeyValue> result = get(get);
- private List<KeyValue> get(final Get get) throws IOException {
- Scan scan = new Scan(get);
- List<KeyValue> results = new ArrayList<KeyValue>();
- InternalScanner scanner = null;
- try {
- scanner = getScanner(scan);
- scanner.next(results);
- } finally {
- if (scanner != null)
- scanner.close();
- }
- return results;
- }
上述这个过程就是region的get过程,我们用下图来进行一个简单的描述
每个region中有一个regionscanner,每个regionscanner中维持一个heap的优先级队列,其中包含所有的storescanner,每个storescanner中包含一个Memstorescanner和n个Hfilescanner
进行查找时首先会定位到hfilestore或是memstore,找到这个get的row起始位置
在HFile或是memstore中数据视安从小到大进行排序的,排序规则是按keyvalue的大小,row,family,column,timestamp,最后是type。
上图就是模拟hfile里面keyvalue的一个排序规则。
哪些get的话如果没有指定时间戳的话会返回最近的一个值。,get也可以制定取回的版本数。
如果我们需要取回3个版本如上图所示
首先每个Hfile会定位到该row的起始处位置如此处在这3个Hflie的开头,若指定的column是C1
然后比较这三个文件开头的keyvalue大小,显然第三个R1,cf,c1,9最小,故首先取它
然后该文件指针往下移,重新比较当前指针的最小值,此时第一个文件的R1,cf,c1,8最小故第二个版本取它
然后指针下移继续比较知道满足版本数为止
相关推荐
Jupyter-Notebook
考研公共课历年真题集-最新发布.zip
2006-2023年上市公司资产误定价Misp数据集(4.9万样本,含原始数据、代码及结果,最新).zip
Jupyter-Notebook
Jupyter-Notebook
100个Origin软件高效使用技巧大全-最新更新.zip
Jupyter-Notebook
煤矿感知数据联网接入规范 第2部分:重要设备
1、资源内容地址:https://blog.csdn.net/abc6838/article/details/143777985 2、数据特点:今年全新,手工精心整理,放心引用,数据来自权威,且标注《数据来源》,相对于其他人的控制变量数据准确很多,适合写论文做实证用 ,不会出现数据造假问题 3、适用对象:大学生,本科生,研究生小白可用,容易上手!!! 4、课程引用: 经济学,地理学,城市规划与城市研究,公共政策与管理,社会学,商业与管理
KSSJ_CJ15-2023
全国电子地图行政区划道路水系数据-最新shp.zip
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。
全国乡镇级行政区划矢量数据2.0版-最新.zip
Jupyter-Notebook
Typora(version 1.2.3)导出 pdf 自定义水印的 frame.js 文件,详情可以查看:
【作品名称】:基于Java 实现的电脑鼠走迷宫的软件程序 【适用人群】:适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 【项目介绍】: 迷宫地图生成算法的设计和实现 自动生成迷宫:根据迷宫生成算法自动生成一定复杂度的迷宫地图。 手动生成迷宫:根据文件中存储的固定数据生成迷宫地图。 单路径寻找算法的设计与实现:找出迷宫中一条单一的通路。 迷宫遍历算法的设计与实现:遍历迷宫中所有的可行路径。 最短路径计算算法的设计与实现:根据遍历结果,找出迷宫中所有通路中的最短通路。 (3)第二部分:界面展示部分 生成迷宫地图界面的设计与实现:根据生成的迷宫地图,用可视化的界面展现出来。 界面布局的设计与实现:根据迷宫程序的总体需求,设计和实现合理的界面布局。 相关迷宫生成过程和寻路算法在界面上的展现:将迷宫程序中的相关功能,跟界面合理结合,并采用一定的方法展 【资源声明】:本资源作为“参考资料”而不是“定制需求”,代码只能作为参考,不能完全复制照搬。需要有一定的基础看懂代码,自行调试代码并解决报错,能自行添加功能修改代码。
基于Selenium前端自动化测试工具,对youtube和tiktok数据进行爬虫,可设置自己要爬取的内容和主题,快速便捷。
Jupyter-Notebook
gkt
Jupyter-Notebook