`
尘事随缘
  • 浏览: 9997 次
社区版块
存档分类
最新评论

Hbase Client API 介绍

 
阅读更多
Hbase API 常用类应用
网上Hbase的介绍有很多,案例也不少。自己写了个Demo,进行一些简单的总结。
HBase 常用类介绍。

JAVA API 和 HBase数据库模型之间的关系
JAVA 类
Hbase 数据模型
HBaseAdmin
数据库(database)
HBaseConfiguration
HTable
表(table)
HTableDescriptor
列族(Column Family)
Put
行列操作
Get
Scanner

下面说说JAVA API 提供的这些类的功能。和他们之间有什么样的联系。
1.HBaseConfiguration
关系:org.apache.hadoop.hbase.HBaseConfiguration
作用:通过此类可以对HBase进行配置
用法实例: Configuration config = HBaseConfiguration.create();
说明: HBaseConfiguration.create() 默认会从classpath 中查找 hbase-site.xml 中的配置信息,初始化 Configuration。
2.HBaseAdmin
关系:org.apache.hadoop.hbase.client.HBaseAdmin
作用:提供接口关系HBase 数据库中的表信息
用法:HBaseAdmin admin = new HBaseAdmin(config);
3.HTableDescriptor
关系:org.apache.hadoop.hbase.HTableDescriptor
作用:HTableDescriptor 类包含了表的名字以及表的列族信息
用法:HTableDescriptor htd =new HTableDescriptor(tablename);
           Htd.addFamily(new HColumnDescriptor(“myFamily”));
4.HColumnDescriptor
关系:org.apache.hadoop.hbase.HColumnDescriptor
作用:HColumnDescriptor 维护列族的信息
用法:HTableDescriptor htd =new HTableDescriptor(tablename);
           Htd.addFamily(new HColumnDescriptor(“myFamily”));
5.HTable
关系:org.apache.hadoop.hbase.client.HTable
作用:HTable 和 HBase 的表通信
用法:HTable tab = new HTable(config,Bytes.toBytes(tablename));
           ResultScanner sc = tab.getScanner(Bytes.toBytes(“familyName”));
说明:获取表内列族 familyNme 的所有数据。
6.Put
关系:org.apache.hadoop.hbase.client.Put
作用:获取单个行的数据
用法:HTable table = new HTable(config,Bytes.toBytes(tablename));
           Put put = new Put(row);
           p.add(family,qualifier,value);
说明:向表 tablename 添加 “family,qualifier,value”指定的值。
7.Get
关系:org.apache.hadoop.hbase.client.Get
作用:获取单个行的数据
用法:HTable table = new HTable(config,Bytes.toBytes(tablename));
           Get get = new Get(Bytes.toBytes(row));
           Result result = table.get(get);
说明:获取 tablename 表中 row 行的对应数据
8.ResultScanner
关系:Interface
作用:获取值的接口
用法:ResultScanner scanner = table.getScanner(Bytes.toBytes(family));
           For(Result rowResult : scanner){
                   Bytes[] str = rowResult.getValue(family,column);
}
说明:循环获取行中列值。
下面例子使用的就是上面提供的类和接口。
例子1:
/**
     * 获取表中所有数据
     */
    @SuppressWarnings("unchecked")
    publicstatic List<Map> getDateAll(String tablename){
       ResultScanner rs = null;
       HTable table  = null;
       try {
           table = new HTable(cfg,tablename);
           Scan s = new Scan();
           //扫描全表,性能不佳
           rs = table.getScanner(s);
           for(Result r=rs.next();r!=null;r=rs.next()){                       for(KeyValue kv : r.raw()){
                  System.out.println(new String(kv.getValue()));
              }
           }
       } catch (Exception e) {
           returnnull;
       }finally{
           rs.close();
       }
       return list;
    }
HBase是大数据的分布式数据库,当使用全表扫描肯定是不合理。下面的例子相比较例子1做些优化。
例子2
/**
     * 指定rowkey的开始和结束扫描表数据
     */
    @SuppressWarnings("unchecked")
    publicstatic List<Map> getDateAll(String tablename){
       ... //篇幅原因省略
       try {
           table = new HTable(cfg,tablename);
           Scan s = new Scan();
           //通过rowkey来指定数据开始和结束,性能上较例子1高很多
            s.setStartRow(Bytes.toBytes(“2012-12-22”));
           s.setStopRow(Bytes.toBytes(“2012-12-23”));
           rs = table.getScanner(s);
           ... //篇幅原因省略
       } catch (Exception e) {
           ...//篇幅原因省略
    }
当使用扫描器 scan.setStartRow(Bytes)和scan.setStopRow(Bytes)查询的数据还不能满足结果集的话,下面的一些类就派上用场了,他就是Filter。
客户端请求过滤器

A.      逐一说一下Filter。
1.       FilterList 
FilterList 代表一个过滤器列表,过滤器间具有
FilterList.Operator.MUST_PASS_ALL 和
FilterList.Operator.MUST_PASS_ONE 的关系,下面展示一个过滤器的 “或”关系。
下面FilterList 列表中检查同一属性的'value1' 或'value2' 。
FilterList list = new FilterList(FilterList.Operator.MUST_PASS_ONE);

SingleColumnValueFilter filter1 = new SingleColumnValueFilter(Bytes.toBytes(“cfamily”), Bytes.toBytes(“column”),CompareOp.EQUAL,Bytes.toBytes("value1"));

list.add(filter1);

SingleColumnValueFilter filter2 = new SingleColumnValueFilter(Bytes.toBytes(“cfamily”), Bytes.toBytes(“column”), CompareOp.EQUAL, Bytes.toBytes("value2"));

List.add(filter2);


2.       SingleColumnValueFilter  
SingleColumnValueFilter 用于测试列值相等 (CompareOp.EQUAL ), 不等 (CompareOp.NOT_EQUAL),或范围 (e.g., CompareOp.GREATER). 下面示例检查列值和字符串'my values' 相等...
SingleColumnValueFilter filter = new SingleColumnValueFilter(Bytes.toBytes(“cFamily”), Bytes.toBytes(“column”), CompareOp.EQUAL, Bytes.toBytes("values"));
scan.setFilter(filter);
3.       ColumnPrefixFilter
ColumnPrefixFilter 用于指定列名前缀值相等
Byte[] prefix = Bytes.toBytes(“values”);
Filter f = new ColumnPrefixFilter(prefix);
scan.setFilter(f);
4.       MultipleColumnPrefixFilter
MultipleColumnPrefixFilter 和 ColumnPrefixFilter 行为差不多,但可以指定多个前缀。
byte[][] prefixes = new byte[][] {Bytes.toBytes("value1"), Bytes.toBytes("value2")};
Filter f = new MultipleColumnPrefixFilter(prefixes);
scan.setFilter(f);
5.       QualifierFilter
QualifierFilter 是基于列名的过滤器。
Filter f = new QualifierFilter(“QualifierName”);
scan.setFilter(f);
6.       RowFilter
RowFilter 是rowkey过滤器,通常根据rowkey来指定范围时,使用scan扫描器的StartRow和StopRow 方法比较好。Rowkey也可以使用。
Filter f = new RowFilter(“rowkey”);
scan.setFilter(f);
B.比较器
7.       RegexStringComparator
RegexStringComparator 是支持正则表达式的比较器。
过滤器配合上比较器会很方便。看下面的代码。
解释一下:代码中绿色字体标注的代码就是正则比较器的使用方法。参数 reg 就是正则验证的规则。
HTable table = new HTable(cfg,"datainfo");
Scan scan = new Scan();
String reg = "^136([0-9]{8})$";//满足136开头的手机号
RowFilter filter = new RowFilter(CompareOp.EQUAL,
new RegexStringComparator(reg));
scan.setFilter(filter);
ResultScanner rs = table.getScanner(scan);
for(Result rr : rs){
for(KeyValue kv : rr.raw()){
         ...
}
}
8.       SubstringComparator
SubstringComparator 用于检测一个子串是否存在于值中。大小写不敏感。
//检测values 是否存在于查询的列值中
SubstringComparator comp = new SubstringComparator("values");
SingleColumnValueFilter filter = new SingleColumnValueFilter(Bytes.toBytes(“family”), Bytes.toBytes(“column”),CompareOp.EQUAL, Bytes.toBytes(“value”));
scan.setFilter(filter);
基本用法也就是这些。欢迎指正点评。
分享到:
评论

相关推荐

    hbase-client-1.4.3-API文档-中文版.zip

    赠送原API文档:hbase-client-1.4.3-javadoc.jar; 赠送源代码:hbase-client-1.4.3-sources.jar; 赠送Maven依赖信息文件:hbase-client-1.4.3.pom; 包含翻译后的API文档:hbase-client-1.4.3-javadoc-API文档-...

    HBase_Client_Api_Guide

    #### 二、Client API介绍 **2.1 配置** `HBaseConfiguration`是客户端使用的核心配置对象,用于管理HBase的配置信息。它有两种主要的构造方式: - `public HBaseConfiguration()`: 默认构造函数,会从`hbase-...

    HBase Java API类介绍

    ### HBase Java API类介绍 #### 一、概述 HBase是一个分布式的、面向列的开源数据库,基于Google的Bigtable论文实现。它适合于非结构化数据存储,并且能够实时处理PB级别的数据。HBase提供了Java API供开发者使用...

    hbase-client-1.1.2-API文档-中文版.zip

    赠送原API文档:hbase-client-1.1.2-javadoc.jar; 赠送源代码:hbase-client-1.1.2-sources.jar; 赠送Maven依赖信息文件:hbase-client-1.1.2.pom; 包含翻译后的API文档:hbase-client-1.1.2-javadoc-API文档-...

    hbase-client-1.2.12-API文档-中文版.zip

    赠送原API文档:hbase-client-1.2.12-javadoc.jar; 赠送源代码:hbase-client-1.2.12-sources.jar; 赠送Maven依赖信息文件:hbase-client-1.2.12.pom; 包含翻译后的API文档:hbase-client-1.2.12-javadoc-API文档...

    基于HBase的client API设计的一款SQL查询器,专为简化HBase原生API的使用而打造

    HydraQL`是基于HBase的client API设计的一款SQL查询器,专为简化HBase原生API的使用而打造。 `HydraQL`旨在提供一种更直观、易用的方式来查询和操作HBase数据库。通过使用SQL语法或更精简的API,用户可以通过简单的...

    hbase的java client实例

    本主题将深入探讨如何使用Java客户端API与HBase进行交互,包括集成Spring、MapReduce实例以及协处理器的使用。 首先,让我们从HBase的基础开始。HBase是构建在Hadoop文件系统(HDFS)之上的开源NoSQL数据库,它为非...

    hbase-client-1.1.2-API文档-中英对照版.zip

    赠送原API文档:hbase-client-1.1.2-javadoc.jar; 赠送源代码:hbase-client-1.1.2-sources.jar; 包含翻译后的API文档:hbase-client-1.1.2-javadoc-API文档-中文(简体)-英语-对照版.zip 对应Maven信息:groupId...

    hbase java api 访问 增加修改删除(一)

    在本文中,我们将深入探讨如何使用HBase的Java API进行数据的增加、修改和删除操作。HBase是一个基于Google Bigtable设计的开源分布式数据库,它属于Apache Hadoop生态系统的一部分,适用于处理大规模数据存储。通过...

    hbase java api 所需最精简 jar

    - **hbase-client.jar**:包含了HBase的客户端API,是我们进行Java开发的主要依赖。 - **hbase-common.jar**:包含HBase通用的类和工具,如数据模型、配置等。 - **hbase-server.jar**:虽然不是所有场景都需要,...

    Hbase Java API

    HBaseConfiguration 可以设置 ZooKeeper 的配置信息,如 hbase.zookeeper.quorum 和 hbase.zookeeper.property.clientPort。 创建表是通过 HBaseAdmin 对象来操作的。HBaseAdmin 负责表的 META 信息处理,提供了 ...

    hbase-sdk是基于hbase-client和hbase-thrift的原生API封装的一款轻量级的HBase ORM框架

    hbase-sdk是基于hbase-client和hbase-thrift的原生API封装的一款轻量级的HBase ORM框架。 针对HBase各版本API(1.x~2.x)间的差异,在其上剥离出了一层统一的抽象。并提供了以类SQL的方式来读写HBase表中的数据。对...

    hbase java api 访问 查询、分页

    在Java API中,我们主要通过`org.apache.hadoop.hbase.client.Connection`和`org.apache.hadoop.hbase.client.Table`这两个核心类来进行交互。 1. **连接HBase**: 使用`ConnectionFactory.createConnection...

    scala API 操作hbase表

    在本文中,我们将深入探讨如何使用Scala API操作HBase数据库。HBase是一个分布式、面向列的NoSQL数据库,它构建于Hadoop之上,提供实时访问大量数据的能力。Scala是一种强大的函数式编程语言,与Java虚拟机(JVM)...

    hbase-client-1.2.12-API文档-中英对照版.zip

    赠送原API文档:hbase-client-1.2.12-javadoc.jar; 赠送源代码:hbase-client-1.2.12-sources.jar; 赠送Maven依赖信息文件:hbase-client-1.2.12.pom; 包含翻译后的API文档:hbase-client-1.2.12-javadoc-API文档...

    HBaseClient-Download:HBaseClient 编译后的版本库

    HBaseClient 是 HBase 的客户端库,它提供了 Java API 和命令行工具,使得开发者能够方便地在应用程序中连接到 HBase 数据库,执行增删查改操作。编译后的 HBaseClient 包含了所有必要的类和库,可以无缝集成到Java...

    hbase-client_lib.rar

    这些库通常包括HBase自身的API,Zookeeper客户端用于协调集群,Hadoop的相关库用于与HDFS交互,以及其他的依赖,如protobuf用于序列化和反序列化,Guava提供实用工具类,SLF4J和Log4j用于日志记录等。 在实际使用中...

    最新版linux hbase-2.3.2-client-bin.tar.gz

    本文将针对Linux环境下的HBase 2.3.2客户端进行详细介绍。 一、HBase概述 HBase的设计灵感来源于Google的Bigtable,旨在处理PB级别的数据。它采用表格存储模型,提供强一致性和高可用性,适合于半结构化和非结构化...

    11-HBase Java API编程实践1

    import org.apache.hadoop.hbase.client.*; import java.io.IOException; public class ExampleForHBase { public static Configuration configuration; public static Connection connection; public static ...

    使用Java API连接虚拟机HBase并进行数据库操作,Java源代码

    在本文中,我们将深入探讨如何使用Java API连接到运行在虚拟机上的HBase数据库,并进行相关的数据操作。HBase是一个分布式的、版本化的、基于列族的NoSQL数据库,它构建于Hadoop之上,适用于处理大规模的数据存储和...

Global site tag (gtag.js) - Google Analytics