hbase 自定义filter - 疯狂的矩阵 - ITeye博客

`

乡里伢崽

浏览: 113999 次
性别:
来自: 深圳

最近访客更多访客>>

loginboot

gaojingsong

eliot4u

benwudashi

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

土豆蛋儿：我想读取一个外部文件，以什么方式好了？文件内容经常编辑
flume 自定义source
土豆蛋儿：大神，您好。
flume 自定义source

hbase 自定义filter

博客分类：

hbase

阅读更多

base自带的filter已经很多了，按照RK，CF，CQ过滤的都有

我最常用的PrefixFilter,按照rk前缀

RowFilter，按照rk比较

ColumnPrefixFilter，按照cq前缀

QualifierFilter，按照cq比较

hbase还有一堆WritableByteArrayComparable，可以满足各种比较

比如RegexStringComparator可以使用正则

但是在实际业务中，因为需求对数据要求是多样，对维度的，且数据是冗余，残缺，不可靠，不能枚举的。

所以自定义的Filter还是有用的，而且选择正确的方法继承，查询效率也可以很高

自定义filter继承的接口Filter，或是FilterBase

以下是重写的方法：
filterRowKey根据RK决定行是否被过滤，ex Profix

filterKeyValue根据KV决定行或列（ReturnCode）是否被过滤，

ex ColumnProfix ColumnCompare

filterRow（keyvalues）根据制定列值决定行是否过滤，

ex DependentColumnFilter

filterRow在之前Filter结束后，进行过滤，ex PageFilter

reset当一行读完，为了读下一行，清空当前行数据

filterAllRemainning当返回true，停止scan

为了提高自定义filter的执行效率，需要知道过滤器的执行流程图

查看图片附件

分享到：

hbase 布隆过滤器 | HBase性能优化方法总结（四）：数据计算

2014-12-17 17:22
浏览 683
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

hbase-2.4.17-bin 安装包: 4. Bloom Filter：使用Bloom Filter可以减少不必要的磁盘I/O，提高查询性能。 5. Indexing：虽然HBase本身不支持索引，但可以通过第三方库如 phoenix 或 hbase-indexer 实现索引功能。六、监控与维护 1. 使用...

java-hbase开发包: 5. **过滤器和比较器**：通过使用`Filter`接口，开发者可以实现复杂的数据筛选逻辑，如基于特定条件的查询。同时，`Comparator`接口允许自定义列值的比较规则。 6. **安全性与权限**：Java-HBase开发包也支持HBase...

HBase视频教程下载|基于微博数据应用的HBase实战开发: 课时8：过滤器实战之专用过滤器与FilterList 课时9：过滤器实战之自定义过滤器课时10：Observer协处理器实战之Master级别原理剖析课时11：Observer协处理器实战之Region级别原理剖析课时12：Observer协处理器...

HBase实战实例: 1. 地理坐标转换：GIS数据通常包含经纬度信息，HBase可通过自定义编码器将这些坐标转化为适合存储的格式。 2. 列族设计：根据GIS数据的特点，合理规划列族，如存储地物属性信息、几何信息等。 3. 时间序列处理：考虑...

hbase-0.92.1.tar.gz: 8. **Secondary Index**：虽然HBase不直接支持二级索引，但可以通过实现自定义的Filter或者使用 Coprocessors 来实现类似的功能。 9. **Coprocessors**：这是一种可以在Region Server上运行的用户定义代码，用于...

hbase-0.98.6-cdh5.3.6.zip: 9. ** Coprocessor机制**：HBase 0.98.6引入了Coprocessor框架，允许用户自定义插件在Region服务器端执行，实现数据的预处理或后处理，提升性能和安全性。 10. **MapReduce集成**：HBase可以与MapReduce结合，进行...

hbase-1.2.0-cdh5.14.2.tar.gz: CDH5.14.2中的HBase 1.2.0还支持 Coprocessors 和 Filter，这是两个强大的扩展机制。Coprocessors允许用户在RegionServer端编写自定义逻辑，提高数据处理的灵活性和效率；而Filter则可以在数据读取时进行过滤，减少...

hadoop_hbase_pig: Pig Latin将复杂的数据处理任务转化为一系列简单的操作，如LOAD、FILTER、JOIN等，这些操作由Pig引擎自动转换为MapReduce作业执行。Pig提供了一种抽象层，降低了编写大数据处理程序的复杂度，使得数据科学家和分析师...

HBaseHelper Hbase增删改查帮助类: 通过继承HBase的Filter接口，我们可以编写自己的过滤逻辑，以实现更复杂的查询需求。 `App.java`可能是主应用程序类，它调用`HBaseHelper`中的方法进行实际操作，是测试和使用`HBaseHelper`的入口点。开发者可以...

HbaseGUI:Hbase图形用户界面: 提供可视化查询、元数据管理和支持预分区建表三大功能特点响应式设计Hbase数据/操作可视化提供包括Rowkey、版本号、Scan时间和各类Filter在内的高级查询提供元数据管理提供命名空间管理创建表时支持通过设置起止...

大数据HBase二次开发.pdf: 例如，通过编写自定义的RegionServer、Filter、 Coprocessor等，可以实现特定业务需求的功能增强。同时，为了确保系统的稳定性和高效性，还需要了解如何配置HBase的各个参数，如MemStore大小、Blocksize、Compaction...

HBase权威指南.pdf: 2. **协处理器（Coprocessor）**：可以运行在RegionServer上的代码，可以扩展HBase的功能，例如自定义聚合操作。 3. **快照与克隆**：HBase可以创建数据的快照，用于数据备份或恢复。也可以通过快照进行数据的克隆...

基于HBase的数据高效读技术研究.pdf: 首先，布隆过滤器(Bloom Filter)的应用可以显著提高数据读取的效率，它能够快速判断某个行键在HBase的某个列族中是否存在，从而减少无效的磁盘读取操作。其次，Block Cache作为HBase中一个重要的性能优化工具，它...

Hbase优化-参数优化: 预分区可以通过`HBaseAdmin.createTable`方法完成，并提供自定义的region划分，如示例代码所示。 - **Row Key设计**：Row Key是HBase的核心索引，决定了数据的分布和访问效率。设计时应考虑以下几点： - 单个row ...

Hbase行键设计（rowkey）实现多条件查询: 实现多条件查询时，可以使用HBase的自定义比较器（Comparator）和过滤器（Filter）。例如，创建一个相等比较器用于实现精确匹配查询，另一个范围比较器用于执行范围查询。这两个比较器结合过滤器，可以在一次Scan...

HBase课件汇总完整版ppt全套课件最全教学教程整本书电子教案全书教案合集最新课件汇编.pptx: - HBase 的读取过程涉及 Region Server、MemStore 和 HFile 等组件，通过 Bloom Filter 和 BlockCache 提高性能。 - 写入数据首先被写入内存的 MemStore，当达到一定阈值时，会触发 Flush 操作，将数据写入磁盘的 ...

问题说明2: 4. **HBase的Filter过滤器** - HBase提供了强大的过滤机制，允许用户根据需求进行数据筛选。在`members`表的示例中，我们可以使用过滤器来实现各种查询功能： - 编号精准匹配：通过RowKey过滤器直接定位到特定ID的...

HBase 数据库检索性能优化策略: 5. **布隆过滤器（Bloom Filter）**：用于在不读取数据的情况下判断某条记录是否存在，可以有效减少无效的磁盘I/O。 6. **HFile压缩**：启用列族级别的数据压缩，减少存储空间并提高读取速度。 7. **Split策略**：...

Spark-Streaming-Apache-Kafka-Apache-HBase:Spark Streaming示例项目，它从Kafka中提取消息并写入HBase Table: - `mapPartitionsToHBase`: 自定义函数，用于将每个分区的数据转换为 HBase Put 对象。 - `HBaseRDDFunctions.saveToHBase`: 将 RDD 写入 HBase 的方法。总结来说，这个项目展示了如何利用 Spark Streaming、Kafka...

英特尔Hadoop发行版 2.2 开发者指南: - **HBase Expression Filter**：介绍如何使用表达式过滤器进行数据筛选。 - **HBase MultiRow Range Filter**：展示如何使用多行范围过滤器。 - **全文索引**：详细介绍如何在HBase中实现全文检索功能。 #### ...

Global site tag (gtag.js) - Google Analytics