- 浏览: 540006 次
- 性别:
- 来自: 杭州
文章分类
最新评论
-
飞天奔月:
public List<String> gener ...
实践中的重构30_不做油漆匠 -
在世界的中心呼喚愛:
在世界的中心呼喚愛 写道public class A {
...
深入理解ReferenceQueue GC finalize Reference -
在世界的中心呼喚愛:
在世界的中心呼喚愛 写道在世界的中心呼喚愛 写道在classB ...
深入理解ReferenceQueue GC finalize Reference -
在世界的中心呼喚愛:
在世界的中心呼喚愛 写道在classB的finalize上打断 ...
深入理解ReferenceQueue GC finalize Reference -
在世界的中心呼喚愛:
iteye比较少上,如果可以的话,可以发e-mail交流:ch ...
深入理解ReferenceQueue GC finalize Reference
hbase中的CoprocessorProtocol机制.
CoprocessorProtocol的原理比较简单,近似于一个mapreduce框架。由client将scan分解为面向多个region的请求,并行发送请求到多个region,然后client做一个reduce的操作,得到最后的结果。
先看一个例子,使用hbase的AggregationClient可以做到简单的面向单个column的统计。
看下hbase的源码。AggregateImplementation
这里由于
所以,hbase自带的Aggregate函数,只能面向单列进行统计。
当我们想对多列进行Aggregate,并同时进行countRow时,有以下选择。
1 scan出所有的row,程序自己进行Aggregate和count。
2 使用AggregationClient,调用多次,得到所有的结果。由于多次调用,有一致性问题。
3 自己扩展CoprocessorProtocol。
首先我们可以写一个protocol的通用框架。
定义protocol接口。
定义该protocol的实现。
定义一个KeyValueListHandler。
定义一个reduce。
定义一个client。
这样,我们就有了一个protocol的通用框架。
假设我们要同时得到多个列的sum和结果的count,我们通过实现这些接口和定义一些request和result类来实现。
有了CoprocessorProtocol,可以扩展出来很多的功能,这个机制还是很强大的。
代码见https://github.com/zhang-xzhi/simplehbase
并且有测试代码。
CoprocessorProtocol的原理比较简单,近似于一个mapreduce框架。由client将scan分解为面向多个region的请求,并行发送请求到多个region,然后client做一个reduce的操作,得到最后的结果。
先看一个例子,使用hbase的AggregationClient可以做到简单的面向单个column的统计。
@Test public void testAggregationClient() throws Throwable { LongColumnInterpreter columnInterpreter = new LongColumnInterpreter(); AggregationClient aggregationClient = new AggregationClient( CommonConfig.getConfiguration()); Scan scan = new Scan(); scan.addColumn(ColumnFamilyName, QName1); Long max = aggregationClient.max(TableNameBytes, columnInterpreter, scan); Assert.assertTrue(max.longValue() == 100); Long min = aggregationClient.min(TableNameBytes, columnInterpreter, scan); Assert.assertTrue(min.longValue() == 20); Long sum = aggregationClient.sum(TableNameBytes, columnInterpreter, scan); Assert.assertTrue(sum.longValue() == 120); Long count = aggregationClient.rowCount(TableNameBytes, columnInterpreter, scan); Assert.assertTrue(count.longValue() == 4); }
看下hbase的源码。AggregateImplementation
@Override public <T, S> T getMax(ColumnInterpreter<T, S> ci, Scan scan) throws IOException { T temp; T max = null; InternalScanner scanner = ((RegionCoprocessorEnvironment) getEnvironment()) .getRegion().getScanner(scan); List<KeyValue> results = new ArrayList<KeyValue>(); byte[] colFamily = scan.getFamilies()[0]; byte[] qualifier = scan.getFamilyMap().get(colFamily).pollFirst(); // qualifier can be null. try { boolean hasMoreRows = false; do { hasMoreRows = scanner.next(results); for (KeyValue kv : results) { temp = ci.getValue(colFamily, qualifier, kv); max = (max == null || (temp != null && ci.compare(temp, max) > 0)) ? temp : max; } results.clear(); } while (hasMoreRows); } finally { scanner.close(); } log.info("Maximum from this region is " + ((RegionCoprocessorEnvironment) getEnvironment()).getRegion() .getRegionNameAsString() + ": " + max); return max; }
这里由于
byte[] colFamily = scan.getFamilies()[0]; byte[] qualifier = scan.getFamilyMap().get(colFamily).pollFirst();
所以,hbase自带的Aggregate函数,只能面向单列进行统计。
当我们想对多列进行Aggregate,并同时进行countRow时,有以下选择。
1 scan出所有的row,程序自己进行Aggregate和count。
2 使用AggregationClient,调用多次,得到所有的结果。由于多次调用,有一致性问题。
3 自己扩展CoprocessorProtocol。
首先我们可以写一个protocol的通用框架。
定义protocol接口。
public interface CommonCoprocessorProtocol extends CoprocessorProtocol { public static final long VERSION = 345L; public <T> T handle(KeyValueListHandler<T> handler, Scan scan) throws IOException; }
定义该protocol的实现。
public class CommonEndpointImpl extends BaseEndpointCoprocessor implements CommonCoprocessorProtocol { protected static Log log = LogFactory.getLog(CommonEndpointImpl.class); @Override public ProtocolSignature getProtocolSignature(String protocol, long version, int clientMethodsHashCode) throws IOException { if (CommonCoprocessorProtocol.class.getName().equals(protocol)) { return new ProtocolSignature(CommonCoprocessorProtocol.VERSION, null); } throw new IOException("Unknown protocol: " + protocol); } @Override public <T> T handle(KeyValueListHandler<T> handler, Scan scan) throws IOException { InternalScanner scanner = ((RegionCoprocessorEnvironment) getEnvironment()) .getRegion().getScanner(scan); List<KeyValue> results = new ArrayList<KeyValue>(); T t = handler.getInitValue(); try { boolean hasMoreRows = false; do { hasMoreRows = scanner.next(results); t = handler.handle(results, t); results.clear(); } while (hasMoreRows); } finally { scanner.close(); } return t; } }
定义一个KeyValueListHandler。
public interface KeyValueListHandler<T> extends Writable { public T getInitValue(); public T handle(List<KeyValue> keyValues, T t); }
定义一个reduce。
public interface ClientReducer<T, R> { public R getInitValue(); public R reduce(R r, T t); }
定义一个client。
public class CpClient { private HTableInterface table; public CpClient(HTableInterface table) { this.table = table; } public <T, R> R call(final KeyValueListHandler<T> handler, final ClientReducer<T, R> reducer, final Scan scan) throws Throwable { class MyCallBack implements Batch.Callback<T> { R r = reducer.getInitValue(); R getResult() { return r; } @Override public synchronized void update(byte[] region, byte[] row, T result) { r = reducer.reduce(r, result); } } MyCallBack myCallBack = new MyCallBack(); try { table.coprocessorExec(CommonCoprocessorProtocol.class, scan.getStartRow(), scan.getStopRow(), new Batch.Call<CommonCoprocessorProtocol, T>() { @Override public T call(CommonCoprocessorProtocol instance) throws IOException { return instance.handle(handler, scan); } }, myCallBack); } finally { table.close(); } return myCallBack.getResult(); } }
这样,我们就有了一个protocol的通用框架。
假设我们要同时得到多个列的sum和结果的count,我们通过实现这些接口和定义一些request和result类来实现。
public class AggrRequest implements Writable { private List<byte[]> families = new ArrayList<byte[]>(); private List<byte[]> qualifiers = new ArrayList<byte[]>(); public AggrRequest() { } public void add(String family, String qualifier) { if (family != null && qualifier != null) { this.families.add(Bytes.toBytes(family)); this.qualifiers.add(Bytes.toBytes(qualifier)); } } public int getColumnSize() { return families.size(); } public byte[] getFamily(int index) { return families.get(index); } public byte[] getQualifer(int index) { return qualifiers.get(index); } @Override public void readFields(DataInput dataInput) throws IOException { int size = dataInput.readInt(); for (int i = 0; i < size; i++) { families.add(Bytes.toBytes(dataInput.readUTF())); } for (int i = 0; i < size; i++) { qualifiers.add(Bytes.toBytes(dataInput.readUTF())); } } @Override public void write(DataOutput dataOutput) throws IOException { dataOutput.writeInt(getColumnSize()); for (byte[] b : families) { dataOutput.writeUTF(Bytes.toString(b)); } for (byte[] b : qualifiers) { dataOutput.writeUTF(Bytes.toString(b)); } } } public class AggrResult implements Writable { private AggrRequest aggrRequest; private long[] sum; private long count; public AggrResult() { } public AggrResult(AggrRequest aggrRequest) { this.aggrRequest = aggrRequest; sum = new long[aggrRequest.getColumnSize()]; } public int getColumnSize() { return aggrRequest.getColumnSize(); } public byte[] getFamily(int index) { return aggrRequest.getFamily(index); } public byte[] getQualifer(int index) { return aggrRequest.getQualifer(index); } public long getSum(int index) { return sum[index]; } public void setSum(int index, long value) { sum[index] = value; } // getter and setter. public long getCount() { return count; } public void setCount(long count) { this.count = count; } @Override public void readFields(DataInput dataInput) throws IOException { int columnSize = dataInput.readInt(); sum = new long[columnSize]; for (int i = 0; i < columnSize; i++) { sum[i] = dataInput.readLong(); } count = dataInput.readLong(); aggrRequest = new AggrRequest(); aggrRequest.readFields(dataInput); } @Override public void write(DataOutput dataOutput) throws IOException { dataOutput.writeInt(aggrRequest.getColumnSize()); for (long v : sum) { dataOutput.writeLong(v); } dataOutput.writeLong(count); aggrRequest.write(dataOutput); } } public class AggrHandler implements KeyValueListHandler<AggrResult> { private AggrRequest aggrRequest; public AggrHandler() { } public AggrHandler(AggrRequest aggrRequest) { this.aggrRequest = aggrRequest; } @Override public void readFields(DataInput dataInput) throws IOException { aggrRequest = new AggrRequest(); aggrRequest.readFields(dataInput); } @Override public void write(DataOutput dataOutput) throws IOException { aggrRequest.write(dataOutput); } @Override public AggrResult getInitValue() { AggrResult aggrResult = new AggrResult(aggrRequest); return aggrResult; } @Override public AggrResult handle(List<KeyValue> keyValues, AggrResult t) { if (keyValues.isEmpty()) { return t; } t.setCount(t.getCount() + 1); int columnSize = t.getColumnSize(); for (int i = 0; i < columnSize; i++) { byte[] family = t.getFamily(i); byte[] qualifer = t.getQualifer(i); for (KeyValue kv : keyValues) { if (kv != null) { if (Bytes.equals(qualifer, 0, qualifer.length, kv.getBuffer(), kv.getQualifierOffset(), kv.getQualifierLength()) && Bytes.equals(family, 0, family.length, kv.getBuffer(), kv.getFamilyOffset(), kv.getFamilyLength())) { if (kv.getValueLength() == Bytes.SIZEOF_LONG) { long tem = Bytes.toLong(kv.getBuffer(), kv.getValueOffset()); t.setSum(i, t.getSum(i) + tem); } } } } } return t; } } public class AggrReducer implements ClientReducer<AggrResult, AggrResult> { @Override public AggrResult getInitValue() { return null; } @Override public AggrResult reduce(AggrResult r, AggrResult t) { if (r == null) return t; if (t == null) return r; r.setCount(r.getCount() + t.getCount()); int columnSize = r.getColumnSize(); for (int i = 0; i < columnSize; i++) { r.setSum(i, r.getSum(i) + t.getSum(i)); } return r; } }
有了CoprocessorProtocol,可以扩展出来很多的功能,这个机制还是很强大的。
代码见https://github.com/zhang-xzhi/simplehbase
并且有测试代码。
发表评论
-
hbase分页功能的几种实现方案
2015-01-13 23:52 5473hbase分页功能的几种实现方案。 分页功能是线上系统的常用 ... -
simplehbase v0.98.1开始支持hbase0.98
2014-12-29 21:48 1130https://github.com/zhang-xzhi/s ... -
hbase轻量级中间件simplehbase v1.0简介
2014-12-13 18:55 1406https://github.com/zhang-xzhi/s ... -
hbase put UML图
2014-12-11 23:40 1312create Htable put hbase rpc ... -
hbase开发问题-PooledHTable多次close导致问题
2014-12-11 23:27 2078PooledHTable多次close导致问题 Pooled ... -
hbase 0.94.0 0.94.9 0.94.24 功能不兼容初步分析
2014-12-04 16:10 1127hbase 0.94.0 0.94.9 0.94.24 功能不 ... -
simplehbase对JOPO新增xml配置和无配置方式
2014-10-24 22:50 1004simplehbase介绍文章如下: https://gith ... -
hbase轻量级中间件simplehbase v0.9简介
2014-07-14 13:57 649https://github.com/zhang-xzhi/s ... -
hbase轻量级中间件simplehbase v0.8简介
2014-04-28 21:44 3780https://github.com/zhang-xzhi/s ... -
hbase开发问题-hbase版本号报错
2014-04-22 19:19 2782由于使用了自定义的classloader,导致报错。 p ... -
HBase Client使用注意点
2014-04-21 12:51 2565HBase Client使用注意点: 1 HTable线程 ... -
hbase开发问题-hbase-0.94.0的ServerCallable callTimeout处理有问题
2014-04-14 22:07 2272读hbase-0.94.0的ServerCallable时,发 ... -
Phoenix和simplehbase功能简单比较
2014-04-02 17:20 1644Phoenix和simplehbase功能简单比较 大数据应 ... -
hbase web console simplehbaseviewer
2014-03-12 19:11 1262https://github.com/zhang-xzhi/s ... -
hbase轻量级中间件simplehbase v0.2简介
2013-12-19 23:51 1709https://github.com/zhang-xzhi/s ... -
hbase轻量级中间件simplehbase v0.1简介
2013-10-09 19:29 1562simplehbase尝试简化基于hbase的java应用开发 ... -
hbase的CoprocessorProtocol及一个简单的通用扩展实现V1
2013-08-18 14:15 5313hbase的CoprocessorProtocol及一个简单的 ... -
hbase的基本操作
2013-08-18 14:02 4493本文列举一些hbase的基本操作代码。 package ... -
hadoop_hadoop的一次读取
2013-04-29 13:09 1919一次hadoop的read getFileSystem 代码 ... -
hadoop_hadoop的map reduce
2011-11-09 21:21 1266这个根据功能模块分为 ...
相关推荐
HBase作为一个NoSQL数据库,具有高性能、高可扩展性和高可靠性等特点,但是在查询方面却存在一些限制,例如不支持分页查询。这就使得开发者需要自己实现分页查询功能。本文将讲解如何使用Java语言实现HBase的分页...
在IT行业中,尤其是在大数据处理领域,HBase是一个广泛使用的分布式、高性能、列式存储的NoSQL数据库。HBase是建立在Hadoop文件系统(HDFS)之上,为处理大规模数据提供了一个高效的数据存储解决方案。而Spring Data...
HBase分页查询实现 HBase是一种基于分布式的NoSQL数据库,它提供了高效的数据存储和检索能力。然而,HBase本身不支持分页查询,...本文提供了一个简单的示例代码,旨在帮助开发者更好地理解HBase分页查询的实现机制。
6. **HBase Console**:这是HBase提供的一个简单的Web界面,用于查看表的信息、region分布和集群状态。它不支持复杂的查询,但对于快速检查和监控HBase实例非常有用。 7. **HBase MapReduce**:MapReduce是Hadoop...
Hbase是Apache的NoSQL分布式可扩展Hadoop数据库,可以很好地横向扩展。Hbase中的数据是面向列的数据库,其中结构化数据存储在键值对中。Hbase用Java编写。Hbase的灵感来自Google Paper-“大表:结构化数据的分布式...
根据给定文件的信息,本文将深入探讨"HBase_SI"这一理论框架,该理论旨在实现HBase中的ACID特性。文章将从多个角度分析...对于那些需要高度一致性和可靠性的大数据应用来说,HBase_SI无疑是一个非常有价值的解决方案。
本项目实现了在Eclipse环境下对HBase的批量存取操作,这对于理解HBase的工作原理以及如何在实际应用中使用HBase具有重要的参考价值。 首先,我们需要了解HBase的基本概念。HBase是建立在Hadoop文件系统(HDFS)之上...
接下来,编写一个简单的Java程序,如`ExampleForHBase`,它展示了如何连接到Hbase,创建表,插入数据,以及获取数据。代码示例中,我们创建了一个名为"student"的表,包含一个列族"score",并插入了张三的各科成绩...
- **HBase的历史**:HBase起源于一个叫做Hadoop的项目中的子项目,最初是为了实现一个类似于Bigtable的功能而创建的。 - **术语介绍**: - **背景层**(Backdrop):HBase运行于Hadoop之上,利用Hadoop提供的分布式...
HBase 是一个开源的、分布式的、版本化的 NoSQL 数据库(也即非关系型数据库),它利用 Hadoop 分布式文件系统(Hadoop Distributed File System,HDFS)提供分布式数据存储。与传统的关系型数据库类似,HBase 也以...
HBaseTemplate是SpringBoot提供的一个模板类,用于简化HBase的操作。下面是一个使用HBaseTemplate的示例: ```java @Service @Slf4j public class HBaseService { @Autowired private HbaseTemplate hbase...
从技术角度看,HBase分布式事务与SQL实现是一个复杂的话题,它涉及到分布式系统理论、事务处理机制、数据库设计和实际的应用场景等多个领域。理解和掌握这些知识点对于想要深入研究和使用HBase以及TiDB这类分布式...
- **第2章:入门指南**:通过一个简单的例子来展示如何安装配置HBase环境,以及如何使用命令行工具进行基本操作,如创建表、插入数据和查询数据。 - **第3章:分布式HBase、HDFS和MapReduce**:深入探讨HBase如何...
节制2013年12月23日最新的hadoop和hbase兼容版本搭建 hadoop-2.2.0 hbase-0.96.1.1 java Hbase java DBHelper CRUD等通用方法 花了两天时间整理的,含有lib包 & 源码
HBase是一个高性能的开源NoSQL数据库,属于BigTable的开源实现,其分布式、多版本、面向列的特点使其适合存储和处理大量的非结构化数据。随着大数据技术的发展,HBase面临着更复杂多样的数据格式和业务需求,因此...
以下是一个简单的Python示例,展示如何使用HappyBase库(一个Python HBase客户端)来实现这个过程: ```python import happybase # 连接到HBase connection = happybase.Connection('localhost') # 创建表 table ...
SpringBoot是Spring框架的一个扩展,旨在简化Spring应用的初始搭建以及开发过程。它集成了大量常用的第三方库配置,如JDBC、MongoDB、JPA、RabbitMQ、Quartz等,只需少量配置就能创建一个独立的、生产级别的基于...