本文是基于hbase 0.96.0 测试的,理论上支持hbase 0.94 以上版本!!
HBase有两种协处理器(Coprocessor)
1、RegionObserver
:类似于关系型数据库的触发器
2、Endpoint:类似于关系型数据库的存储过程,本文将介绍此种Coprocessor.
Endpoint 允许您定义自己的动态RPC协议,用于客户端与region servers通讯。Coprocessor 与region server在相同的进程空间中,因此您可以在region端定义自己的方法(endpoint),将计算放到region端,减少网络开销,常用于提升hbase的功能,如:count,sum等。
本文以count为例,实现一个自己的endpoint:
一、定义一个protocol buffer Service。
1、安装protobuf
下载protoc-2.5.0-win32.zip(根据自己的操作系统选择),解压;
将protoc-2.5.0-win32中的protoc.exe拷贝到c:\windows\system32中。
将proto.exe文件拷贝到解压后的XXX\protobuf-2.5.0\src目录中.
参考链接:http://shuofenglxy.iteye.com/blog/1512980
2.定义.proto文件,用于定义类的一些基本信息
CXKTest.proto的代码如下:
- <span style="font-family:SimSun;font-size:14px;">option java_package = "com.cxk.coprocessor.test.generated";
- option java_outer_classname = "CXKTestProtos";
- option java_generic_services = true;
- option java_generate_equals_and_hash = true;
- option optimize_for = SPEED;
- message CountRequest {
- }
- message CountResponse {
- required int64 count = 1 [default = 0];
- }
- service RowCountService {
- rpc getRowCount(CountRequest)
- returns (CountResponse);
- }</span>
参考链接:https://developers.google.com/protocol-buffers/docs/proto#services
执行命令:proto.exe--java_out=. CXKTest.proto
在 com.cxk.coprocessor.test.generated 下会生成类:CXKTestProtos
二、定义自己的Endpoint类(实现一下自己的方法)
RowCountEndpoint.java 的代码片段如下:
- <span style="font-family:SimSun;font-size:14px;">package com.cxk.coprocessor.test;
- import java.io.IOException;
- import java.util.ArrayList;
- import java.util.List;
- import org.apache.hadoop.hbase.Cell;
- import org.apache.hadoop.hbase.CellUtil;
- import org.apache.hadoop.hbase.Coprocessor;
- import org.apache.hadoop.hbase.CoprocessorEnvironment;
- import org.apache.hadoop.hbase.client.Scan;
- import org.apache.hadoop.hbase.coprocessor.CoprocessorException;
- import org.apache.hadoop.hbase.coprocessor.CoprocessorService;
- import org.apache.hadoop.hbase.coprocessor.RegionCoprocessorEnvironment;
- import org.apache.hadoop.hbase.filter.FirstKeyOnlyFilter;
- import org.apache.hadoop.hbase.protobuf.ResponseConverter;
- import org.apache.hadoop.hbase.regionserver.InternalScanner;
- import org.apache.hadoop.hbase.util.Bytes;
- import com.google.protobuf.RpcCallback;
- import com.google.protobuf.RpcController;
- import com.google.protobuf.Service;
- public class RowCountEndpoint extends CXKTestProtos.RowCountService
- implements Coprocessor, CoprocessorService {
- private RegionCoprocessorEnvironment env;
- public RowCountEndpoint() {
- }
- @Override
- public Service getService() {
- return this;
- }
- /**
- * 统计hbase表总行数
- */
- @Override
- public void getRowCount(RpcController controller, CXKTestProtos.CountRequest request,
- RpcCallback<CXKTestProtos.CountResponse> done) {
- Scan scan = new Scan();
- scan.setFilter(new FirstKeyOnlyFilter());
- CXKTestProtos.CountResponse response = null;
- InternalScanner scanner = null;
- try {
- scanner = env.getRegion().getScanner(scan);
- List<Cell> results = new ArrayList<Cell>();
- boolean hasMore = false;
- byte[] lastRow = null;
- long count = 0;
- do {
- hasMore = scanner.next(results);
- for (Cell kv : results) {
- byte[] currentRow = CellUtil.cloneRow(kv);
- if (lastRow == null || !Bytes.equals(lastRow, currentRow)) {
- lastRow = currentRow;
- count++;
- }
- }
- results.clear();
- } while (hasMore);
- response = CXKTestProtos.CountResponse.newBuilder()
- .setCount(count).build();
- } catch (IOException ioe) {
- ResponseConverter.setControllerException(controller, ioe);
- } finally {
- if (scanner != null) {
- try {
- scanner.close();
- } catch (IOException ignored) {}
- }
- }
- done.run(response);
- }
- @Override
- public void start(CoprocessorEnvironment env) throws IOException {
- if (env instanceof RegionCoprocessorEnvironment) {
- this.env = (RegionCoprocessorEnvironment)env;
- } else {
- throw new CoprocessorException("Must be loaded on a table region!");
- }
- }
- @Override
- public void stop(CoprocessorEnvironment env) throws IOException {
- // nothing to do
- }
- }
- </span>
三、实现自己的客户端方法:
TestEndPoint.java 代码如下:
- <span style="font-family:SimSun;font-size:14px;">package com.test;
- import java.io.IOException;
- import java.util.Map;
- import org.apache.hadoop.conf.Configuration;
- import org.apache.hadoop.hbase.HBaseConfiguration;
- import org.apache.hadoop.hbase.client.HTable;
- import org.apache.hadoop.hbase.client.coprocessor.Batch;
- import org.apache.hadoop.hbase.ipc.BlockingRpcCallback;
- import org.apache.hadoop.hbase.ipc.ServerRpcController;
- import com.cxk.coprocessor.test.CXKTestProtos;
- import com.cxk.coprocessor.test.CXKTestProtos.RowCountService;
- import com.google.protobuf.ServiceException;
- public class TestEndPoint {
- /**
- *
- * @param args[0] ip ,args[1] zk_ip,args[2] table_name
- * @throws ServiceException
- * @throws Throwable
- */
- public static void main(String[] args) throws ServiceException, Throwable {
- // TODO Auto-generated method stub
- System.out.println("begin.....");
- long begin_time=System.currentTimeMillis();
- Configuration config=HBaseConfiguration.create();
- // String master_ip="192.168.150.128";
- String master_ip=args[0];
- String zk_ip=args[1];
- String table_name=args[2];
- config.set("hbase.zookeeper.property.clientPort", "2181");
- config.set("hbase.zookeeper.quorum", zk_ip);
- config.set("hbase.master", master_ip+":600000");
- final CXKTestProtos.CountRequest request = CXKTestProtos.CountRequest.getDefaultInstance();
- HTable table=new HTable(config,table_name);
- Map<byte[],Long> results = table.coprocessorService(RowCountService.class,
- null, null,
- new Batch.Call<CXKTestProtos.RowCountService,Long>() {
- public Long call(CXKTestProtos.RowCountService counter) throws IOException {
- ServerRpcController controller = new ServerRpcController();
- BlockingRpcCallback<CXKTestProtos.CountResponse> rpcCallback =
- new BlockingRpcCallback<CXKTestProtos.CountResponse>();
- counter.getRowCount(controller, request, rpcCallback);
- CXKTestProtos.CountResponse response = rpcCallback.get();
- if (controller.failedOnException()) {
- throw controller.getFailedOn();
- }
- return (response != null && response.hasCount()) ? response.getCount() : 0;
- }
- });
- table.close();
- if(results.size()>0){
- System.out.println(results.values());
- }else{
- System.out.println("没有任何返回结果");
- }
- long end_time=System.currentTimeMillis();
- System.out.println("end:"+(end_time-begin_time));
- }
- }
- </span>
四、部署endpoint
部署endpoint有两种方法,第一种通过修改hbase.site.xml文件,实现对所有表加载这个endpoint;第二张通过alter表,实现对某一张表加载这个endpoint;
1、修改hbase.site.xml
在hbase.site.xml中添加如下内容
- <span style="font-family:SimSun;font-size:14px;"><property>
- <name>hbase.coprocessor.region.classes</name>
- <value>com.cxk.coprocessor.test.RowCountEndpoint</value>
- <description>A comma-separated list of Coprocessors that are loaded by
- default. For any override coprocessor method from RegionObservor or
- Coprocessor, these classes' implementation will be called
- in order. After implement your own
- Coprocessor, just put it in HBase's classpath and add the fully
- qualified class name here.
- </description>
- </property></span>
2、hbase shell alter表
A、将CXKTestProtos.java和RowCountEndpoint.java打成jar放到hdfs上;
B、
- <span style="font-family:SimSun;font-size:14px;">disable 'test'</span>
C、
- <span style="font-family:SimSun;font-size:14px;">alter 'test','coprocessor'=>'hdfs:///user/hadoop/test/coprocessor/cxkcoprocessor.1.01.jar|com.cxk.coprocessor.test.RowCountEndpoint|1001|arg1=1,arg2=2'</span>
- <span style="font-family:SimSun;font-size:14px;">enable 'test'</span>
五、运行客户端
将TestEndPoint.java 打成jar,通过以下命令运行
- <span style="font-family:SimSun;font-size:14px;">java -jar test.cxk.endpiont.1.03.jar ip1 ip2 test</span>
ps:如果eclipse可以直接调试hadoop,可直接运行测试类。
=================================================================================
===============================================================================
参考材料:
http://hbase.apache.org/devapidocs/index.html
相关推荐
综合以上信息,用户在进行hadoop2.2+hbase0.96+hive0.12的集成安装时,应该详细检查各个组件的版本兼容性,确保系统权限设置正确,按照实践指南执行相关配置步骤,并正确设置和使用MySQL数据库作为元数据存储。...
### hadoop2.2+hbase0.96+hive0.12安装整合详细高可靠文档及经验总结 #### 一、Hadoop2.2的安装 **问题导读:** 1. Hadoop的安装需要安装哪些软件? 2. Hadoop与HBase整合需要注意哪些问题? 3. Hive与HBase的...
本篇内容将详细讲解如何在Hadoop 2.2的基础上安装配置HBase 0.96和ZooKeeper 3.4.5。首先,我们需要了解这两个组件的基本概念和作用。 **ZooKeeper的安装与配置** 1. **下载与解压**:首先,从官方网站获取...
Hadoop2.2+Zookeeper3.4.5+HBase0.96集群环境搭建 Hadoop2.2+Zookeeper3.4.5+HBase0.96集群环境搭建是大数据处理和存储的重要组件,本文档将指导用户从零开始搭建一个完整的Hadoop2.2+Zookeeper3.4.5+HBase0.96集群...
本文将详细介绍如何在Linux环境下搭建Hadoop2.2.0、HBase0.96和Hive0.12的集群环境。 首先,我们从Hadoop的安装开始。Hadoop2.2.0是Apache官方稳定版,可以从官方网站或镜像站点下载。下载完成后,将其上传到Linux...
HBase 0.96则是基于Hadoop的数据库,设计为高度可扩展的列式数据库,适用于实时查询。 **Hadoop 2.6的伪分布式安装** 在伪分布式模式下,所有的Hadoop组件都运行在一个单一节点上,这对于测试和学习Hadoop的环境...
在本文中,我们将深入探讨如何在CentOS-6.4 64位操作系统上配置一个基于Hadoop 2.2.0、HBase 0.96和Zookeeper 3.4.5的分布式环境。这个过程涉及到多个步骤,包括系统设置、软件安装、配置以及服务启动。 首先,为了...
基于Flume+Kafka+Hbase+Flink+FineBI的实时综合案例.txt基于Flume+Kafka+Hbase+Flink+FineBI的实时综合案例.txt基于Flume+Kafka+Hbase+Flink+FineBI的实时综合案例.txt基于Flume+Kafka+Hbase+Flink+FineBI的实时综合...
HBase 0.96版本是一个较早但仍然重要的发行版,它引入了许多功能和改进,使得处理大规模数据变得更加高效。下面我们将深入探讨HBase 0.96版本中的关键Java编程知识点。 首先,理解HBase的基础架构至关重要。HBase是...
VMware10+CentOS6.5+Hadoop2.2+Zookeeper3.4.6+HBase0.96安装过程详解 用于解决分布式集群服务器
安装Spark时,需要与Hadoop版本兼容,并配置相关环境变量。 Hive是基于Hadoop的数据仓库工具,它可以将结构化的数据文件映射为一张数据库表,并提供SQL查询功能。通过Hive,用户无需编写Java MapReduce程序,就能对...
VMware10+CentOS6.5+Hadoop2.2+Zookeeper3.4.6+HBase0.96安装过程详解.pdf
Hadoop+Hbase+Spark+Hive搭建指南 Hadoop是Apache开源的大数据处理框架,它提供了可靠的高效的数据存储和处理能力。Hbase是基于Hadoop的分布式NoSQL数据库,提供了高效的数据存储和检索能力。Spark是基于内存的数据...
Phoenix-hbase-2.1-5.1.0-bin包含了Phoenix与HBase2.1的适配版本,它将SQL查询转换为HBase的原生操作,提高了查询效率,使得非Java背景的开发者也能轻松地操作HBase。 为了部署这个环境,你需要按照以下步骤进行: ...
资源名称:hadoop2完全分布式及整合hbase0.96安装文档 内容简介: 首先说一下这个安装过程需要注意的地方一、使用新建用户可能会遇到的问题(1)权限问题:对于新手经常使用root,刚开始可以使用,...
这个“hbase-0.96 jar包”是HBase 0.96版本的二进制发行版,它包含了运行和开发HBase应用所需的所有库文件。HBase 0.96是一个重要的里程碑,因为它在性能和稳定性上都有显著提升,特别是在处理大规模数据集时。 ...
- **下载并解压HBase**: 下载HBase 0.96版本,解压至指定目录。 - **配置HBase环境**: 修改`/etc/profile`文件,添加HBase路径。 - **配置HBase核心文件**: 包括`hbase-site.xml`。 - **格式化HBase**: 使用`hbase ...
hbase2.3.5+spark-3.0.3源码编译包
本文档由王家林老师详细的介绍了 hadoop2.2完全分布式 及整合hbase0.96 安装步骤,图文并茂。
hadoop2完全分布式最新高可靠安装文档及整合hbase0.96中文安装详解,新手必备!