Hbase 学习笔记（二）: 高级模块 -

须等待

浏览: 214196 次
性别:
来自: 深圳

最近访客更多访客>>

nuaaguojin

tengda1221

huangguangdong

dongguangming88

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Hbase 学习笔记（二）: 高级模块

博客分类：

Hbase

Hbase 笔记

上一篇介绍了Hbase在操作数据中的基本的API，包括增删查。增删都是相对简单的操作，与传统的RDBMS相比，这里的查询操作略显苍白，只能根据特定的主键查询（Get）或者根据主键的一个范围来查询（Scan）。Hbase提供了更加高级的过滤器来查询，当然还有另外一些高级的模块，我们将在这一篇里看到。

一、过滤器（Filter）

基础API中的查询操作在面对大量数据的时候是非常苍白的，这里Hbase提供了高级的查询方法：Filter。Filter可以根据簇、列、版本等更多的条件来对数据进行过滤，基于Hbase本身提供的三维有序（主键有序、列有序、版本有序），这些Filter可以高效的完成查询过滤的任务。带有Filter条件的RPC查询请求会把Filter分发到各个RegionServer，是一个服务器端（Server-side）的过滤器，这样也可以降低网络传输的压力。

要完成一个过滤的操作，至少需要两个参数。一个是抽象的操作符，Hbase提供了枚举类型的变量来表示这些抽象的操作符：LESS/LESS_OR_EQUAL/EQUAL/NOT_EUQAL等；另外一个就是具体的比较器（Comparator），代表具体的比较逻辑，如果可以提高字节级的比较、字符串级的比较等。有了这两个参数，我们就可以清晰的定义筛选的条件，过滤数据。

CompareFilter（CompareOp compareOp， WritableByteArrayComparable valueComparator）

CompareFilter是高层的抽象类，下面我们将看到它的实现类和实现类代表的各种过滤条件。这里实现类实际上代表的是参数中的过滤器过滤的内容，可以使主键、簇名、列值等，这就是由CompareFilter决定了。

行过滤器（RowFilter）

行过滤器的比较对象是行主键

Scan scan = new Scan();
Filter filter1 = new RowFilter(CompareFIlter.CompareOp.LESS_OR_EUQAL, new BinaryComparator(Bytes.toBytes("hello")));
scan.setFilter(filter1);
scan.close();

例中的Filter会将所有的小于等于“Hello”的主键过滤出来。

簇过滤器（FamilyFilter）

簇过滤器过滤的是簇的名字。

列过滤器（QualifierFilter）

列过滤器过滤的是列的名字。

值过滤器（ValueFilter）

值过滤器过滤的是扫描对象的值。

单值过滤器（SingleColumnValueFilter）

单值过滤器是以特定列的值为过滤内容，与值过滤器不同的是，这里是特定的列，而值过滤器比较的是行内的所有列。所有在使用单值过滤器的时候要指定比较的列的坐标。

SingleColumnValueFilter(byte[] family, byte[] qualifier, CompareOp compareOp, WritableByteArrayComparable comparator)

对于找不到该列的行，可以有特殊的处理

void setFilterIfMissing(boolean filterIfMissing)

默认缺省行将被包含进过滤的结果集中。

前缀过滤器（PrefixFilter）

前缀过滤器将会过滤掉不匹配的记录，过滤的对象是主键的值。

PrefixFilter(byte[] prefix)

页过滤器（PageFilter）

页过滤器可以根据主键有序返回固定数量的记录，这需要客户端在遍历的时候记住页开始的地方，配合scan的startkey一起使用。

PageFilter(int size)

键过滤器（KeyOnlyFilter）

键过滤器可以简单的设置过滤的结果集中只包含键而忽略值，这里有一个选项可以把结果集的值保存为值的长度。

FirstKeyOnlyFilter

在键过滤器的基础上，根据列有序，只包含第一个满足的键。

ColumnPrefixFilter

这里过滤的对象是列的值。

TimestampsFilter

TimestampsFilter(List<Long> times)

这里参数是一个集合，只有包含在集合中的版本才会包含在结果集中。

包装类过滤器，此类过滤器要通过包装其他的过滤器才有意义，是其他过滤器的一种加强。

SkipFilter

SkipFilter(Filter filter)

过滤器集合（FilterList）

Hbase的过滤器设计遵照于设计模式中的组合模式，以上的所有过滤器都可以叠加起来共同作用于一次查询。

二、计数器（Counter）

Hbase提供一个计数器工具可以方便快速的进行计数的操作，而免去了加锁等保证原子性的操作。但是实质上，计数器还是列，有自己的簇和列名。值得注意的是，维护计数器的值最好是用Hbase提供的API，直接操作更新很容易引起数据的混乱。

计数器的增量可以是正数负数，正数代表加，负数代表减。

long icrementColumnValue(byte[] row, byte[] famuly, byte[] qualifier, long amount)
Result increment(Increment increment)

三、协处理器（Coprocessor）

协处理器的思想是把处理的复杂代码分发到各个RegionServer，使大部分的计算可以在服务器端，或者扫描的时候完成，提高处理的效率。形式上比较类似RDBMS中的存储过程，不同的是，存储过程的原理是在服务器端进行预处理等优化，而协处理器仅仅只是服务器处理，这里又有点类似于Map-Reduce中的Map阶段。

协处理器(Coprocesssor)有两种，一种是观察者（Obsever）另外一种是Endpoint（LZ跪了，实在不知道翻译成啥）。

每个协处理器都有一个优先级，优先级分为USER/SYSTEM，优先级决定处理器的执行顺序，SYSTEM级别的处理器永远先于USER。

每个处理器都有自己的执行环境(CoprocessorEnvironment)，这个环境包含当前集群和请求的状态等信息，是处理中重要的一部分，以构造函数参数的形式被传入到处理器。

另外就是CoprocessorHost，这是Hbase管理协处理器的类，用来维护所有的处理器和其环境。

抽象如图：

协处理器的加载有两种方式，一种是通过配置文件，在配置文件中指定加载路径、类名等，通过这种方式加载的处理器都是SYSTEM级别的，会作用于所有的请求，所有的表；另一种方式是通过在创建表的时候在表中指定，这种方式既可以创建全局的SYSTEM级别的处理器，也可以创建USER级别的处理器，USER级别的处理器是针对表的。

Path path = new Paht("test.jar");
HTableDescriptor htd = new HTableDescriptor("test");
htd.addFamily(new HColumnDescriptor("family1"));
htd.setValue("Coprocessor$1", path.toString + "|" + className + "|" + Coprocessor.Priority.USER);
HBaseAdmin admin = new HBaseAdmin(conf);
admin.createTable(htd);

这里setValue方法有两个参数，第一个参数是协处理器的名字，$后面跟的是影响执行顺序的序号；第二个参数是<path>|<classname>|<priority>。

Observer

这是第一种处理器，观察者，观察者有三种，分别用来监听RegionServerObserver、MasterServerObserver、WALObserver。

RegionServer监听的是Region Server上的操作，如在Region Server上的Get、Put等。操作被赋予生命周期：Pending open--open--Pending close

监听器是可以监听生命周期中的各个阶段，并对其做出处理。

每一个监听的方法都有一个上下文参数（Context），通过Context参数可以直接的操作请求的声明周期。

void bypass();
void complete();

MasterObserver监听的是Master Server上的操作，有点类似RDBMS中的DDL的操作如表操作、列操作等。

具体的操作和RegionServer比较类似。

Endpoint

这是第二种处理器，Endpoint相当于被分发到各个RegionServer上的存储过程，可以在客户端远程调用的方法。Endpoint的存在使我们可以进行一些服务器端的计算，如服务器聚集、求和等运算，弥补了查询API的不足。服务器端计算的优势是显而易见的，它可以降低网络传输的数据量，合理利用服务器资源。

从功能上可以看出Endpoint是一个基于RPC调用的模块，所以在实现自己的Endpoint时候需要定义我们自己的通信协议。在Hbase中，通信协议被抽象为CoprocessorProtocol接口，要实现我们的协议，我们要创建协议接口继承自CoprocessorProtocol接口，然后再实现我们的协议类。

public interface MyProtocol extends CoprocessorProtocol {
    public int work();
}

协议类本身也是处理器，所以还要继承BaseEndpointCoprocessor类。

public class MyEndpoint extends BaseEndpointCoprocessor implements MyProtocol {
    public int work() {
        Sytem.out.println("hello");
    }
}

在抽象的父类BaseEndpointCoprocessor中还提供了一些有用的方法，如我们可以拿到对应的环境类。

RegionCoprocessorEnvironment getEnvironment()

配置好Endpoint重启集群环境以后，我们的实现类会被分发到各个RegionServer，通过HTable实例的方法我们可以调用到Endpoint。

<T extends CoprocessorProtocol, R> Map<byte[], R> coprocessorExec(Class<T> protocol, byte[] startKey, byte[] endKey, Batch.Call<T, R> callable);

startKey和endKey用于确定哪些RegionServer将执行Endpoint， Batch中的内部类将决定协议中方法的调用。

四、 HTablePool 连接池

在Hbase中，创建一个代表表的HTable实例是一个耗时且很占资源的操作，类似操作数据库，我们也需要建立我们自己的连接池，于是有了代表连接池的抽象类：HTable。

HTablePool(Configuaration conf, int maxSize)
HTablePool(Configuaration conf, int maxSize, HTableInterfaceFactory factory)

创建HTable需要配置文件的实例，连接池的最大连接数也在构造方法中设置。另外，如果想要自己控制HTable被创建的过程，则需要实现自己的工厂方法。在连接池中，最大连接数（maxSize）的含义是，连接池管理的最大的连接数，当所需要的连接数超过最大值时，会临时的创建连接来满足需求，但是这些连接在使用完毕之后会被直接释放且丢弃而不会进入连接池被管理，所以最大连接数代表的是连接池中最大被管理的连接数，而不是使用连接池最大可使用的连接数。

HTableInterface getTable(String tableName)
HTableInterface getTable(byte[] tableName)
void putTable(HTableInterface table)

需要注意的是，使用完连接以后需要手动的调用putTable方法将连接放回池中。

PS：关于查询过滤器那块LZ没有做效率上的测试，如果有人做了测试可以把数据拿出来分享一下。

分享到：

Hive 常用命令小记 | Hbase 学习笔记（一）: 基础客户端API

2012-11-05 20:05
浏览 22207
评论(2)
分类:编程语言
查看更多

2 楼 Hello你的World 2014-08-15

filter是可以叠加作用于一次查询,有没有关于filter的执行顺序的理解呢?

1 楼 xchd 2013-12-11

RowFilter rowFilter = null;
binarycomparator = new BinaryComparator(Bytes.toBytes("chat_qqchat_2013-01-12 12:12:13"));
rowFilter = new RowFilter(CompareOp.GREATER_OR_EQUAL,binarycomparator);
filterList.addFilter(rowFilter);

binarycomparator = new BinaryComparator(Bytes.toBytes("chat_qqchat_2013-01-12 12:12:19"));
rowFilter = new RowFilter(CompareOp.LESS_OR_EQUAL,binarycomparator);
filterList.addFilter(rowFilter);

我要查大于chat_qqchat_2013-01-12 12:12:13 小于chat_qqchat_2013-01-12 12:12:19的值，为什么连chat_qqchat_2013-01-12 12:12:12的值都查了出来？

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

基于Django花卉商城系统的设计与实现-2885fb37-.zip: 基于Django花卉商城系统的设计与实现_2885fb37--.zip

102页-智慧农业解决方案.pdf: 智慧农业，作为现代农业的新篇章，正引领着农业生产的革命性变革。本解决方案以物联网、云计算、大数据等先进技术为核心，为农业生产打造了一套全面、智能的管理系统。想象一下，从温室大棚到广袤田野，智能传感器遍布每个角落，它们能实时感知空气温湿度、土壤水分、光照强度等环境参数，仿佛为农作物装上了“眼睛”和“耳朵”。这些数据通过物联网技术传输到云端，经过大数据分析，为农民提供精准的种植建议，如何时灌溉、施肥、防虫，让农业生产变得更加科学、高效。更有趣的是，通过智慧农业平台，农民可以远程监控作物生长情况，甚至用手机就能控制温室大棚的遮阳板、通风设备等，实现“指尖上的农业”。此外，方案还包含了农产品可追溯系统，从田间到餐桌，每一步都可追溯，让消费者吃得放心。而智慧农业电商平台，则让农产品销售更加便捷，农民直接对接市场，收益倍增。总之，这套智慧农业解决方案不仅让农业生产变得更加智能、高效，还提升了农产品的质量和安全，为农民带来了实实在在的收益，开启了农业现代化的新篇章。对于想要投身智慧农业领域的你来说，这不仅仅是一套解决方案，更是一把开启现代农业大门的钥匙，引领你走向更加辉煌的未来。

【人工智能模型部署】DeepSeek本地部署与WebUI可视化：环境搭建、模型启动及界面开发指南文档的主要内容: 内容概要：本文档详细介绍了DeepSeek本地部署与WebUI可视化的一般步骤。本地部署方面，涵盖了环境准备（硬件要求如多核CPU、8GB以上内存或带适当显存的NVIDIA GPU，软件环境涵盖操作系统如Ubuntu 20.04及以上版本、Python环境及依赖库如PyTorch或TensorFlow）、获取DeepSeek模型代码和权重（通过官方仓库克隆代码，从指定渠道下载权重）、模型配置与启动（配置模型参数，运行启动脚本以初始化模型和服务）。WebUI可视化部分则推荐了Streamlit和Gradio两种框架，介绍了它们的安装、使用方法（通过编写脚本调用DeepSeek API构建交互界面），以及集成与部署（确保WebUI与模型服务之间的数据正确传递，在本地运行后可通过浏览器访问）。适合人群：对深度学习模型部署有一定了解的技术人员，尤其是那些希望将DeepSeek模型应用于本地环境并提供用户友好界面的研发人员。使用场景及目标：①为希望在本地环境中运行DeepSeek模型的研究者或开发者提供详细的部署指南；②帮助用户快速搭建一个带有图形化操作界面的DeepSeek应用，降低使用门槛，提高用户体验。阅读建议：在阅读时，应根据自己的操作系统环境和硬件条件调整相应的配置要求，同时注意按照官方文档的具体指引操作，确保各组件版本兼容，以便顺利完成部署和可视化工作。

MISRA C 2014和MISRA CPP 2008版本: MISRA C 2014和MISRA CPP 2008版本

Revit2024二次开发之安装Addin: Revit2024二次开发之安装Addin

ai应用文生视频大模型及AI人应用方案设计.docx### 文生视频大模型及AI人应用方案总结: 内容概要：本文详细介绍了文生视频大模型及AI人应用方案的设计与实现。文章首先阐述了文生视频大模型的技术基础，包括深度生成模型、自然语言处理（NLP）和计算机视觉（CV）的深度融合，以及相关技术的发展趋势。接着，文章深入分析了需求，包括用户需求、市场现状和技术需求，明确了高效性、个性化和成本控制等关键点。系统架构设计部分涵盖了数据层、模型层、服务层和应用层的分层架构，确保系统的可扩展性和高效性。在关键技术实现方面，文章详细描述了文本解析与理解、视频生成技术、AI人交互技术和实时处理与反馈机制。此外，还探讨了数据管理与安全、系统测试与验证、部署与维护等重要环节。最后，文章展示了文生视频大模型在教育、娱乐和商业领域的应用场景，并对其未来的技术改进方向和市场前景进行了展望。适用人群：具备一定技术背景的研发人员、产品经理、数据科学家以及对AI视频生成技术感兴趣的从业者。使用场景及目标：①帮助研发人员理解文生视频大模型的技术实现和应用场景；②指导产品经理在实际项目中应用文生视频大模型；③为数据科学家提供技术优化和模型改进的思路；④让从业者了解AI视频生成技术的市场潜力和发展趋势。阅读建议：本文内容详尽，涉及多个技术细节和应用场景，建议读者结合自身的专业背景和技术需求，重点阅读与自己工作相关的章节，并结合实际项目进行实践和验证。

黑板风格毕业答辩模板25个: 黑板风格毕业答辩模板是一系列富有创意和趣味性的答辩文档模板，专为追求独特表达的大学生设计。这25个模板模拟了传统黑板的效果，结合了手绘风格与现代设计理念，使得内容呈现既生动又具学术感。每个模板都强调清晰的结构和易于理解的布局，适用于各类学科和研究领域，帮助学生有效地展示研究成果和核心观点。黑板风格不仅带来亲切感，还能唤起人们对课堂学习的回忆，为答辩增添了轻松而专业的氛围。这些模板配备了丰富的图标、示意图和配色，既美观又实用，能够帮助学生在答辩中更好地吸引评审的注意力，增强信息的传达效果。无论是科技、艺术还是人文社科，黑板风格毕业答辩模板都能够为你的演示增添一份独特的魅力，提升你的表现，助力你在毕业答辩中取得成功。

delphi-ACCESS宠物医院: delphi_ACCESS宠物医院

社会心理学：MATLAB复杂系统仿真在群体行为预测中的跨学科研究.pdf: 文档支持目录章节跳转同时还支持阅读器左侧大纲显示和章节快速定位，文档内容完整、条理清晰。文档内所有文字、图表、函数、目录等元素均显示正常，无任何异常情况，敬请您放心查阅与使用。文档仅供学习参考，请勿用作商业用途。你是否渴望高效解决复杂的数学计算、数据分析难题？MATLAB 就是你的得力助手！作为一款强大的技术计算软件，MATLAB 集数值分析、矩阵运算、信号处理等多功能于一身，广泛应用于工程、科学研究等众多领域。其简洁直观的编程环境，让代码编写如同行云流水。丰富的函数库和工具箱，为你节省大量时间和精力。无论是新手入门，还是资深专家，都能借助 MATLAB 挖掘数据背后的价值，创新科技成果。别再犹豫，拥抱 MATLAB，开启你的科技探索之旅！

DDS Accepted Assessment Instruments DDS 认可的评估工具.doc: DDS Accepted Assessment Instruments DDS 认可的评估工具.doc

Windows下MySQL安装与配置教程.markdown: mysql安装配置教程本教程将指导您在Windows操作系统上安装和配置MySQL数据库，适用于MySQL 8.0及以上版本。本教程以清晰的步骤说明，确保初学者也能顺利完成安装和基本配置。

体育科学突破：MATLAB生物力学仿真优化短跑运动员起跑姿态.pdf: 文档支持目录章节跳转同时还支持阅读器左侧大纲显示和章节快速定位，文档内容完整、条理清晰。文档内所有文字、图表、函数、目录等元素均显示正常，无任何异常情况，敬请您放心查阅与使用。文档仅供学习参考，请勿用作商业用途。你是否渴望高效解决复杂的数学计算、数据分析难题？MATLAB 就是你的得力助手！作为一款强大的技术计算软件，MATLAB 集数值分析、矩阵运算、信号处理等多功能于一身，广泛应用于工程、科学研究等众多领域。其简洁直观的编程环境，让代码编写如同行云流水。丰富的函数库和工具箱，为你节省大量时间和精力。无论是新手入门，还是资深专家，都能借助 MATLAB 挖掘数据背后的价值，创新科技成果。别再犹豫，拥抱 MATLAB，开启你的科技探索之旅！

### 智慧教育应用发展研究报告（2025年）总结: 内容概要：《智慧教育应用发展研究报告（2025年）》由中国信息通信研究院发布，全面梳理了全球及我国智慧教育的发展现状和趋势。报告指出，智慧教育通过多种数字技术促进教育模式、管理模式和资源生成等方面的变革。国外经济体如欧盟、美国、韩国和日本纷纷通过顶层设计推动智慧教育发展，而我国则通过政策支持、基础设施建设、技术融合等多方面努力，推动智慧教育进入“快车道”。智慧教育应用场景分为智慧校园和校外教育两类，涵盖教学、考试、评价、管理和服务等多个方面。报告还详细分析了支撑智慧教育发展的技术、产业、基础设施和安全能力的发展趋势，并指出了当前面临的挑战及建议。适用人群：教育领域的政策制定者、教育管理者、教育技术从业者、研究人员和关心教育发展的社会各界人士。使用场景及目标：①了解全球及我国智慧教育的最新进展和趋势；②为政策制定者提供决策参考；③为教育管理者和技术从业者提供实施智慧教育的具体指导；④促进教育技术的研发和应用。其他说明：报告强调了智慧教育在促进教育公平、提升教育质量、推动教育模式创新等方面的重要性，并呼吁加强跨领域协同攻关、缩小教育数字化差距、强化网络信息安全和提升教师数字素养，以应对当前面临的挑战。

AC6003V200R008C10SPC300.cc华为AC6003-8固件系统下载: 华为AC6003-8固件系统网上确实不好找啊

教育领域基于Word模板的实习证明文档设计：学生实习信息规范化记录与管理: 内容概要：这是一份实习证明模板，用于证明学生在指定单位完成实习经历。主要内容包括学生的学校、年级、专业以及姓名，明确标注了实习开始日期、实习单位名称、具体岗位、薪资待遇、单位地址及联系方式等信息，还列出了实习期间的指导教师及其联系方式。文件最后设有单位公章、单位负责人签字及联系电话的位置，并标明开具证明的日期。; 适合人群：即将或正在实习的大学生、大专生以及其他需要开具实习证明的学生群体。; 使用场景及目标：①为学生提供规范的实习证明文件，方便学校、企业或其他相关机构核实实习情况；②作为实习经历的正式书面记录，可用于求职、升学等场合。; 其他说明：此模板可根据不同学校和单位的具体要求进行适当调整，确保信息完整性和准确性。在填写时应注意核实各项信息的真实性，确保与实际情况相符。

IMG_20250416_154832.jpg: IMG_20250416_154832.jpg

红色警戒95版（RA95）: 游戏亲测无毒可用，可在Win10、Win11等系统直接运行（执行ra95.exe，无需虚拟机） #初代经典红警，#红警95，#RTS，#电脑游戏，#怀旧游戏

【路径规划】基于matlab改进的RRT算法移动机器人路径规划【含Matlab源码 13175期】.zip: Matlab领域上传的视频是由对应的完整代码运行得来的，完整代码皆可运行，亲测可用，适合小白； 1、从视频里可见完整代码的内容主函数：main.m；调用函数：其他m文件；无需运行运行结果效果图； 2、代码运行版本 Matlab 2019b；若运行有误，根据提示修改；若不会，私信博主； 3、运行操作步骤步骤一：将所有文件放到Matlab的当前文件夹中；步骤二：双击打开main.m文件；步骤三：点击运行，等程序运行完得到结果； 4、仿真咨询如需其他服务，可私信博主； 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作

教育技术领域JavaWeb技术在网络考试系统设计与实现中的应用【毕业论文+数据库+项目辅导视频+源代码】: 内容概要：本文介绍了网络考试系统的设计与实现，旨在通过浏览器作为界面，利用B/S模式解决传统考试流程复杂、耗时的问题。系统主要采用JavaWeb技术和MySql数据库，设计了用户管理、功能管理、角色权限管理、学生网络考试、试题管理、错题管理、自动组卷等功能模块。文章详细描述了系统的可行性分析、需求分析、总体设计、详细设计、数据库设计以及系统测试等内容。通过功能测试和兼容性测试，确保系统的稳定性和实用性。该系统基本可以满足简单的在线考试需求，运行良好，基本达到了设计要求。适合人群：计算机科学与技术、软件工程等相关专业的本科生、研究生，以及对网络考试系统感兴趣的教育工作者和开发人员。使用场景及目标：①适用于高校、培训机构等教育机构，用于组织和管理在线考试；②帮助教师减少出卷、阅卷和统计的时间，提高工作效率；③为学生提供便捷的在线考试平台，支持错题解析，促进自主学习。阅读建议：本文不仅介绍了系统的具体实现细节，还涵盖了相关技术的应用和开发流程，建议读者在阅读时重点关注系统设计思路和关键技术的应用，同时结合实际操作，理解系统的工作原理和实现方法。

毕节市乡镇边界，矢量边界，shp格式: 矢量边界，行政区域边界，精确到乡镇街道，可直接导入arcgis使用

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Hbase 学习笔记（二）: 高级模块

评论

发表评论

相关推荐

Hbase 学习笔记（四）: Hbase的架构和实现原理

Hbase 学习笔记（三）：管理模块

Hbase 学习笔记（一）: 基础客户端API

最近访客更多访客>>