hbase利用hint来实现filter快速扫描 - 大神带我来搬砖 - ITeye博客

`

kabike

浏览: 616724 次
性别:
来自: 大连

最近访客更多访客>>

agreetech

confused9090

kavy

aininim

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

fei33423：同意你的说法. hbase 的强一致性分为两部分来说. 数据分 ...
浅谈Hbase 的强一致性
zengwenbo5566： ,高人，刚安装了 genymotion 那个附带 virtu ...
VirtualBox报错Unable to load R3 module GetLastError=1790 (VERR_UNRESOLVED_ERROR
kabike： QQ1289714862 写道这代码有问题吧 bar1 bar ...
AtomicBoolean运用
QQ1289714862：这代码有问题吧 bar1 bar2 那来的你是不是new了两 ...
AtomicBoolean运用
DEMONU：需要依赖这么多东西啊
hbase 0.96和hadoop 2.2 java 客户端的jar依赖

hbase利用hint来实现filter快速扫描

博客分类：

大数据
hbase

阅读更多

hbase只有rowkey上有索引,在rowkey上可以实现快速扫描,想在column上进行条件筛选或者是在rowkey的非前缀部分进行筛选只能通过filter,而一直以为filter只能顺序的遍历所有KeyValue.
但实际上filter可以提供hint来使scanner reseek重新定位,提高查询效率.

比如假设rowkey设计形式为barfoo,前三位是定长的bar属性,后三位是定长的foo属性,在bar属性上查询很容易,因为它是rowkey的前缀,使用startrow和endrow可以快速查询,对于非前缀属性foo来说,指定startrow是没有用的,必须要full scan才行.比如想查询***fo3的行,可以想象使用RegexStringComparator和RowFilter来全表扫描.

但是假设这个table中,bar的基数比较小,foo的基数比较大(即bar的不同值的个数很少,而foo的不同值的个数很多).那么这时候可以通过在Filter的filterKeyValue方法中返回SEEK_NEXT_USING_HINT,告诉scanner进行reseek重定位,比如上述问题中,在检查过ba1fo3后,下一个rowkey是ba1fo4,可以通过hint告知scanner,reseek到ba2fo3的位置,即使hfile中没有ba2fo3这个key,也能定位到附近位置.假设bar的取值有十个,那么经过十次左右reseek,就可以完成文件遍历.

该方法可用于rowkey的非前缀搜索,以及在wide row中进行inter row scan

查看图片附件

0
顶

4
踩

分享到：

FM算法统计独立元素个数 | hbase的caching和batch

2015-01-15 20:23
浏览 2107
评论(1)
分类:开源软件
查看更多

评论

1 楼 zhao_rock 2015-01-15

写的不错，继续努力

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

hbase分页查询实现.pdf: 作者使用了ResultScanner来扫描表数据，并使用了Filter来实现分页查询。知识点6：Filter的使用 Filter是HBase中的一种过滤器，用于过滤查询结果。在本文中，作者使用了FirstKeyOnlyFilter和...

hbase分页查询实现: 实现HBase分页查询的思路是使用Scan对象来扫描表中的数据，然后使用Filter来过滤数据，最后使用ResultScanner来获取结果集。在实现过程中，我们需要注意的一点是，每次Scan操作都需要指定开始行和结束行，以便实现...

hbase分页查询实现[归类].pdf: 在这个方法中，我们使用了HBase的Scan对象来实现分页查询。Scan对象可以根据起始行和结束行来实现分页查询。此外，我们还使用了Filter对象来过滤查询结果。四、HBase分页查询的优点 HBase分页查询可以带来以下几...

HBase实现批量存取: 总之，理解并掌握HBase的批量存取是高效利用HBase的关键。通过Eclipse中的实践项目，我们可以深入学习HBase的API用法，了解其在大数据场景下的优势，为实际业务提供强有力的数据存储和处理支持。

HbaseTemplate 操作hbase: 本篇文章将详细讲解如何利用Spring Data Hadoop中的HbaseTemplate来操作HBase。首先，我们需要理解Spring Data Hadoop提供的HbaseTemplate类。这是一个封装了HBase操作的模板类，简化了Java开发人员与HBase交互的...

HBase指南-带书签高清扫描版pdf: 例如，社交媒体网站可能利用HBase存储和检索用户的活动数据，搜索引擎可能会用它来存储索引数据，以便快速响应用户的搜索请求。然而，使用HBase也需要注意其挑战和限制，如复杂的数据模型可能导致学习曲线较陡峭，...

Hbase笔记 —— 利用JavaAPI的方式操作Hbase数据库（往hbase的表中批量插入数据）.pdf: 在本文档中，我们将深入探讨如何使用Java API与...总的来说，通过Java API与HBase交互涉及到配置连接、管理表结构和批量处理数据。理解这些基本操作对于高效地使用HBase至关重要，特别是在大数据处理和分析的场景下。

HBase_SI_--_实现HBase_ACID的理论: 根据给定文件的信息，本文将深入探讨"HBase_SI"这一理论框架，该理论旨在实现HBase中的ACID特性。文章将从多个角度分析HBase_SI的设计理念、技术细节及其应用场景。 ### HBase_SI：实现HBase_ACID特性的理论 #### ...

hbase存储csv数据的代码实现: 以下是一个简单的Python示例，展示如何使用HappyBase库（一个Python HBase客户端）来实现这个过程： ```python import happybase # 连接到HBase connection = happybase.Connection('localhost') # 创建表 table ...

Hbase 表设计与操作: HBase是Google Bigtable的开源实现，类似Google Bigtable利用GFS作为其文件存储系统，HBase利用Hadoop HDFS作为其文件存储系统；Google运行MapReduce来处理Bigtable中的海量数据，HBase同样利用Hadoop MapReduce来...

基于hbase, mapreduce结合springMVC查询操作扫描操作,数据分析.zip: 总的来说，这个项目旨在实现一个高效、可扩展的大数据处理平台，通过Spring MVC提供Web接口，用户可以使用HBase进行数据查询和扫描，同时利用MapReduce进行复杂的数据分析。这个平台对于处理和理解海量的人工智能...

基于spring boot 的spring-boot-starter-hbase自动注解实现: 6. **Repository接口**: Spring Data HBase提供了一个Repository抽象层，可以定义自定义的Repository接口，Spring会自动实现这些接口，提供基本的数据操作方法。例如： ```java public interface MyRepository ...

HBase分布式事务与SQL实现: 此外，HBase通过块缓存和布隆过滤器来优化实时查询，并通过服务器端过滤器实现查询谓词下推，从而加速查询处理。HBase还支持多版本并发控制（MVCC），这种机制允许多个版本的数据项并存，通常用于实现读写一致性。 ...

hbase java api 访问查询、分页: 在HBase这个分布式列式数据库中，Java API是开发者常用的一种接口来操作HBase，包括创建表、插入数据、查询数据以及实现分页等操作。本文将深入探讨如何使用HBase Java API进行数据访问和分页查询。首先，我们要...

java解决hive快速导数据到Hbase代码: 本文将详细讨论如何使用Java编程语言实现从Hive到HBase的快速数据导入方案。首先，Hive是一个基于Hadoop的数据仓库工具，它可以将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，适合大规模数据的离线...

Hbase调用JavaAPI实现批量导入操作.docx: Hbase 调用 JavaAPI 实现批量导入操作在大数据时代，Hbase 作为一个分布式、面向列的 NoSQL 数据库，广泛应用于大规模数据存储和处理中。同时，JavaAPI 作为一个强大且流行的编程语言，广泛应用于各种软件开发中。...

hbase jar包.zip: 《Spring集成HBase的必备库...开发者需要理解每个库的功能和使用场景，以便更好地利用Spring框架构建HBase应用，实现数据的高效存储和检索。在实际开发中，合理地导入和利用这些库，将有助于提高项目的可扩展性和性能。

HBase实战(中文扫描版: 学习Hadoop以及Hbase Hbase及Hadoop是开源软件的杰作

hbase数据可视化系统: 然而，对于非技术人员来说，直接操作HBase命令行进行数据管理可能会显得较为复杂。因此，通过SpringBoot构建HBase的可视化界面，就成为了提升工作效率、简化操作流程的有效手段。一、HBase简介 HBase是基于Google...

HBase可视化客户端: 1. 查询：支持对 HBase 进行单行查询、范围查询以及全表扫描，并支持 14 种过滤器的实现以及多版本查询！ 2. 管理：HBase表格数据的增删查、命名空间和表格的创建删除，支持集群状态的实时监控（比如集群请求数量、...

Global site tag (gtag.js) - Google Analytics