HBase技术介绍 - fire's java space - ITeye博客

`

zhengxuezhou

浏览: 152929 次
性别:
来自: 北京

最近访客更多访客>>

mywjch

sudongyan01

xumiao900

zjy_369

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

pandengzhegt：好牛！正需要！谢谢了！
JPA 2.0 中的动态类型安全查询
yanlp：万分的感谢。
仿google 的输入提示框
huangwenji6111：可谓良师，在此拜谢！受益匪浅！
hibernate lazy
jwx0925：不错！mark！
hibernate对象状态
leftstick：大有裨益，谢了！
hibernate lazy

HBase技术介绍

博客分类：

行业应用
other

阅读更多

http://www.searchtb.com/2011/01/understanding-hbase.html
HBase简介

HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。

HBase是Google Bigtable的开源实现，类似Google Bigtable利用GFS作为其文件存储系统，HBase利用Hadoop HDFS作为其文件存储系统；Google运行MapReduce来处理Bigtable中的海量数据，HBase同样利用Hadoop MapReduce来处理HBase中的海量数据；Google Bigtable利用 Chubby作为协同服务，HBase利用Zookeeper作为对应。

上图描述了Hadoop EcoSystem中的各层系统，其中HBase位于结构化存储层，Hadoop HDFS为HBase提供了高可靠性的底层存储支持，Hadoop MapReduce为HBase提供了高性能的计算能力，Zookeeper为HBase提供了稳定服务和failover机制。

此外，Pig和Hive还为HBase提供了高层语言支持，使得在HBase上进行数据统计处理变的非常简单。 Sqoop则为HBase提供了方便的RDBMS数据导入功能，使得传统数据库数据向HBase中迁移变的非常方便。

HBase访问接口

1.       Native Java API，最常规和高效的访问方式，适合Hadoop MapReduce Job并行批处理HBase表数据

2.       HBase Shell，HBase的命令行工具，最简单的接口，适合HBase管理使用

3.       Thrift Gateway，利用Thrift序列化技术，支持C++，PHP，Python等多种语言，适合其他异构系统在线访问HBase表数据

4.       REST Gateway，支持REST 风格的Http API访问HBase, 解除了语言限制

5.       Pig，可以使用Pig Latin流式编程语言来操作HBase中的数据，和Hive类似，本质最终也是编译成MapReduce Job来处理HBase表数据，适合做数据统计

6.       Hive，当前Hive的Release版本尚没有加入对HBase的支持，但在下一个版本Hive 0.7.0中将会支持HBase，可以使用类似SQL语言来访问HBase

HBase数据模型

Table & Column Family

Row Key

Timestamp

Column Family

URI

Parser

r1

t3

url=http://www.taobao.com

title=天天特价

t2

host=taobao.com

t1

r2

t5

url=http://www.alibaba.com

content=每天…

t4

host=alibaba.com

Ø Row Key: 行键，Table的主键，Table中的记录按照Row Key排序

Ø Timestamp: 时间戳，每次数据操作对应的时间戳，可以看作是数据的version number

Ø Column Family：列簇，Table在水平方向有一个或者多个Column Family组成，一个Column Family中可以由任意多个Column组成，即Column Family支持动态扩展，无需预先定义Column的数量以及类型，所有Column均以二进制格式存储，用户需要自行进行类型转换。

Table & Region

当Table随着记录数不断增加而变大后，会逐渐分裂成多份splits，成为regions，一个region由[startkey,endkey)表示，不同的region会被Master分配给相应的RegionServer进行管理：

-ROOT- && .META. Table

HBase中有两张特殊的Table，-ROOT-和.META.

Ø .META.：记录了用户表的Region信息，.META.可以有多个regoin

Ø -ROOT-：记录了.META.表的Region信息，-ROOT-只有一个region

Ø Zookeeper中记录了-ROOT-表的location

Client访问用户数据之前需要首先访问zookeeper，然后访问-ROOT-表，接着访问.META.表，最后才能找到用户数据的位置去访问，中间需要多次网络操作，不过client端会做cache缓存。

MapReduce on HBase

在HBase系统上运行批处理运算，最方便和实用的模型依然是MapReduce，如下图：

HBase Table和Region的关系，比较类似HDFS File和Block的关系，HBase提供了配套的TableInputFormat和TableOutputFormat API，可以方便的将HBase Table作为Hadoop MapReduce的Source和Sink，对于MapReduce Job应用开发人员来说，基本不需要关注HBase系统自身的细节。

HBase系统架构

Client

HBase Client使用HBase的RPC机制与HMaster和HRegionServer进行通信，对于管理类操作，Client与HMaster进行RPC；对于数据读写类操作，Client与HRegionServer进行RPC

Zookeeper

Zookeeper Quorum中除了存储了-ROOT-表的地址和HMaster的地址，HRegionServer也会把自己以Ephemeral方式注册到Zookeeper中，使得HMaster可以随时感知到各个HRegionServer的健康状态。此外，Zookeeper也避免了HMaster的单点问题，见下文描述

HMaster

HMaster没有单点问题，HBase中可以启动多个HMaster，通过Zookeeper的Master Election机制保证总有一个Master运行，HMaster在功能上主要负责Table和Region的管理工作：

1.       管理用户对Table的增、删、改、查操作

2.       管理HRegionServer的负载均衡，调整Region分布

3.       在Region Split后，负责新Region的分配

4.       在HRegionServer停机后，负责失效HRegionServer 上的Regions迁移

HRegionServer

HRegionServer主要负责响应用户I/O请求，向HDFS文件系统中读写数据，是HBase中最核心的模块。

HRegionServer内部管理了一系列HRegion对象，每个HRegion对应了Table中的一个Region，HRegion中由多个HStore组成。每个HStore对应了Table中的一个Column Family的存储，可以看出每个Column Family其实就是一个集中的存储单元，因此最好将具备共同IO特性的column放在一个Column Family中，这样最高效。

HStore存储是HBase存储的核心了，其中由两部分组成，一部分是MemStore，一部分是StoreFiles。MemStore是Sorted Memory Buffer，用户写入的数据首先会放入MemStore，当MemStore满了以后会Flush成一个StoreFile（底层实现是HFile），当StoreFile文件数量增长到一定阈值，会触发Compact合并操作，将多个StoreFiles合并成一个StoreFile，合并过程中会进行版本合并和数据删除，因此可以看出HBase其实只有增加数据，所有的更新和删除操作都是在后续的compact过程中进行的，这使得用户的写操作只要进入内存中就可以立即返回，保证了HBase I/O的高性能。当StoreFiles Compact后，会逐步形成越来越大的StoreFile，当单个StoreFile大小超过一定阈值后，会触发Split操作，同时把当前Region Split成2个Region，父Region会下线，新Split出的2个孩子Region会被HMaster分配到相应的HRegionServer上，使得原先1个Region的压力得以分流到2个Region上。下图描述了Compaction和Split的过程：

在理解了上述HStore的基本原理后，还必须了解一下HLog的功能，因为上述的HStore在系统正常工作的前提下是没有问题的，但是在分布式系统环境中，无法避免系统出错或者宕机，因此一旦HRegionServer意外退出，MemStore中的内存数据将会丢失，这就需要引入HLog了。每个HRegionServer中都有一个HLog对象，HLog是一个实现Write Ahead Log的类，在每次用户操作写入MemStore的同时，也会写一份数据到HLog文件中（HLog文件格式见后续），HLog文件定期会滚动出新的，并删除旧的文件（已持久化到StoreFile中的数据）。当HRegionServer意外终止后，HMaster会通过Zookeeper感知到，HMaster首先会处理遗留的 HLog文件，将其中不同Region的Log数据进行拆分，分别放到相应region的目录下，然后再将失效的region重新分配，领取到这些region的HRegionServer在Load Region的过程中，会发现有历史HLog需要处理，因此会Replay HLog中的数据到MemStore中，然后flush到StoreFiles，完成数据恢复。

HBase存储格式

HBase中的所有数据文件都存储在Hadoop HDFS文件系统上，主要包括上述提出的两种文件类型：

1.       HFile， HBase中KeyValue数据的存储格式，HFile是Hadoop的二进制格式文件，实际上StoreFile就是对HFile做了轻量级包装，即StoreFile底层就是HFile

2.       HLog File，HBase中WAL（Write Ahead Log）的存储格式，物理上是Hadoop的Sequence File

HFile

下图是HFile的存储格式：

首先HFile文件是不定长的，长度固定的只有其中的两块：Trailer和FileInfo。正如图中所示的，Trailer中有指针指向其他数据块的起始点。File Info中记录了文件的一些Meta信息，例如：AVG_KEY_LEN, AVG_VALUE_LEN, LAST_KEY, COMPARATOR, MAX_SEQ_ID_KEY等。Data Index和Meta Index块记录了每个Data块和Meta块的起始点。

Data Block是HBase I/O的基本单元，为了提高效率，HRegionServer中有基于LRU的Block Cache机制。每个Data块的大小可以在创建一个Table的时候通过参数指定，大号的Block有利于顺序Scan，小号Block利于随机查询。每个Data块除了开头的Magic以外就是一个个KeyValue对拼接而成, Magic内容就是一些随机数字，目的是防止数据损坏。后面会详细介绍每个KeyValue对的内部构造。

HFile里面的每个KeyValue对就是一个简单的byte数组。但是这个byte数组里面包含了很多项，并且有固定的结构。我们来看看里面的具体结构：

开始是两个固定长度的数值，分别表示Key的长度和Value的长度。紧接着是Key，开始是固定长度的数值，表示RowKey的长度，紧接着是RowKey，然后是固定长度的数值，表示Family的长度，然后是Family，接着是Qualifier，然后是两个固定长度的数值，表示Time Stamp和Key Type（Put/Delete）。Value部分没有这么复杂的结构，就是纯粹的二进制数据了。

HLogFile

上图中示意了HLog文件的结构，其实HLog文件就是一个普通的Hadoop Sequence File，Sequence File 的Key是HLogKey对象，HLogKey中记录了写入数据的归属信息，除了table和region名字外，同时还包括 sequence number和timestamp，timestamp是“写入时间”，sequence number的起始值为0，或者是最近一次存入文件系统中sequence number。

HLog Sequece File的Value是HBase的KeyValue对象，即对应HFile中的KeyValue，可参见上文描述。

分享到：

JdbcTemplate与事务 | Java编程中“为了性能”尽量要做到的一些地 ...

2012-05-17 15:58
浏览 762
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

（转）HBase技术介绍: 【HBase技术介绍】 HBase，全称是Apache HBase，是一个分布式的、面向列的开源数据库，基于Google的Bigtable设计思想构建于Hadoop文件系统（HDFS）之上。它是Apache软件基金会Hadoop项目的一部分，专为处理大规模...

HBase技术介绍简介 NOSQL数据库入门: ### HBase技术介绍与NoSQL数据库入门 #### HBase概述 HBase，全称为Hadoop Database，是一款基于Apache Hadoop生态系统的开源、分布式、面向列的NoSQL数据库系统。它被设计用于提供高可靠性、高性能的数据存储解决...

HBase技术介绍.docx: ### HBase技术详解 #### 一、HBase概述 **HBase**，全称为Hadoop Database，是一款构建在Hadoop之上、面向列的分布式数据库系统。它具备高可靠性、高性能和可扩展性等特点，能够在成本相对低廉的硬件设备上构建大...

大数据技术基础培训-HBase技术介绍.pptx: 【大数据技术基础培训-HBase技术介绍】 HBase是一种开源的分布式NoSQL数据库，设计用于处理大规模数据集。它建立在Hadoop文件系统（HDFS）之上，为大数据环境提供了高效、可扩展的数据存储和访问解决方案。HBase的...

Hbase技术介绍: ### HBase技术深入解析 #### 引言 HBase，作为大数据领域中一款重要的分布式数据库系统，基于Hadoop生态系统构建，旨在提供高可靠、高性能的数据存储与查询服务。本文将全面解析HBase的核心概念、技术架构及应用...

Hadoop之Hbase从入门到精通.doc: 一、HBase技术介绍 HBase是Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。HBase利用Hadoop HDFS作为其文件存储系统，并利用Hadoop MapReduce来处理HBase中的海量数据。HBase还利用...

Hadoop之Hbase从入门到精通: #### HBase技术介绍与概述 HBase是一种分布式、高可靠性且高性能的列式存储系统，它基于Hadoop生态体系构建，并且能够支持大规模的数据存储需求。HBase的设计灵感来源于Google的Bigtable论文，通过模仿Bigtable的...

2018 Apache HBase 技术实战专刊: HBase作为一款高性能、支持无限水平扩展的在线...综上所述，2018 Apache HBase 技术实战专刊详细介绍了HBase的多个方面，包括其生态、组件、应用场景、技术细节、运维实践等，旨在为HBase爱好者提供全面的技术参考。

Hadoop之Hbase从入门到精通 .doc: HBase 技术介绍 ---------------- HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用 HBase 技术可在廉价 PC Server 上搭建起大规模结构化存储集群。HBase 是 Google Bigtable 的开源实现，类似...

HBASE技术架构及应用介绍.pptx: 【HBase概述】 HBase是一种基于Google BigTable模型的开源分布式列存储系统，它是Apache Hadoop生态系统的重要组成部分，专门用于海量结构化数据的存储。HBase利用了HDFS（Hadoop Distributed File System）作为...

Hbase从入门到精通: #### 一、HBase技术介绍 ##### 1. HBase简介 HBase（Hadoop Database）是一种分布式列族数据库，它具有高可靠性、高性能、可伸缩性等特点，适用于搭建大规模结构化存储集群。与传统的数据库相比，HBase更加适合...

HBase技术参考手册.docx: 《HBase技术参考手册》是深入理解这一分布式列式存储系统的宝贵资源。HBase源于Google的Bigtable论文，旨在为大规模结构化数据提供高吞吐量的随机读写能力。以下将详细介绍HBase的关键概念、特性及其在实际场景中的...

HBASE技术架构及应用介绍.pdf: HBase是一种分布式列存储系统，它是构建在Hadoop的分布式文件系统HDFS之上的，主要用于存储海量的结构化数据。作为Apache Hadoop生态系统的关键组成部分，HBase弥补了HDFS在实时随机读写上的不足，提供了高并发、低...

HBase官方文档: HBase是一个分布式的、面向列的数据库，构建在Apache Hadoop和Apache ZooKeeper之...综上所述，HBase的官方文档涵盖了从基础操作、集群配置到高级主题如性能优化和故障处理的广泛内容，这些都是掌握HBase技术的关键点。

Hbase技术原理详解及案例分析: 第二部分，对Hbase进行基本的概述，主要介绍其中基本原理，第三部分对Hbase的技术进行详解，包括关键成员和技术优化。第四部分，通过一个小的java api案例，介绍Hbase的开发使用，详细分析hbase的应用场景和优化方式...

hbase社区2018精选资料: 社区动态部分突出了中国HBase技术社区的重要性，这是HBase爱好者和专业人士交流技术经验、分享最佳实践的平台。社区成员积极贡献知识，共同推动HBase技术在中国的发展。在学习HBase的过程中，理解其生态系统的多个...

Global site tag (gtag.js) - Google Analytics