`

Hadoop白皮书(2):分布式数据库HBase简介

阅读更多

HBase 是一个面向列的分布式数据库。HBase 不是一个关系型数据库,其设计目标是用来解决关系型数据库在处理海量数据时的理论和实现上的局限性。传统关系型数据库在上世纪七十年代为交易系统设计,以满足数据一致性(ACID)为目标,并没有考虑数据规模扩大时的扩展性,以及单点系统失效时的可靠性。虽然经过多年的技术发展,产生了一些对关系性数据库的修补(并行数据库),然而受限于理论和实现上的约束,扩展性从来没有超过 40 个服务器节点。而 HBase 从一开始就是为 Terabyte 到Petabyte 级别的海量数据存储和高速读写而设计,这些数据要求能够被分布在数千台普通服务器上,并且能够被大量并发用户高速访问。

HBase 从 2008 年第一次商用开始,已经被越来越多的在线服务公司所采用。其中最大的是 Facebook 新上线的整合 Email, SNS, Chat 和短消息的在线即时消息系统。


分布式数据库 HBase 的特点和优势

高可扩展性


HBase 是真正意义上的线性水平扩展。数据量累计到一定程度(可配置),HBase系统会自动对数据进行水平切分,并分配不同的服务器来管理这些数据。这些数据可以被扩散到上千个普通服务器上。这样一方面可以由大量普通服务器组成大规模集群,来存放海量数据(从几个 TB 到几十 PB 的数据)。另一方面,当数据峰值接近系统设计容量时,可以简单通过增加服务器的方式来扩大容量。这个动态扩容过程无需停机,HBase系统可以照常运行并提供读写服务,完全实现动态无缝无宕机扩容。

高性能

HBase 的设计目的之一是支持高并发用户数的高速读写访问。这是通过两方面来实现的。首先数据行被水平切分并分布到多台服务器上,在大量用户访问时,访问请求也被分散到了不同的服务器上,虽然每个服务器的服务能力有限,但是数千台服务器汇总后可以提供极高性能的访问能力。其次,HBase 设计了高效的缓存机制,有效提高了访问的命中率,提高了访问性能。

高可用性

HBase 建立在 HDFS 之上。HDFS 提供了数据自动复制和容错的功能。HBase 的日志和数据都存放在 HDFS 上,即使在读写过程中当前服务器出现故障(硬盘、内存、网络等故障),日志也不会丢失,数据都可以从日志中自动恢复。HBase 系统会自动分配其他服务器接管并恢复这些数据。因此一旦成功写入数据,这些数据就保证被持久化并被冗余复制,整个系统的高可用性得到保证。

数据模型及其特点

HBase 是一个面向列的、稀疏的、分布式的、持久化存储的多维排序映射表(Map)。表的索引是行关键字、列簇名(Column Family)、列关键字以及时间戳;表中的每个值都是一个未经解析的字节数组。

面向列:指的是同一个列簇里所有数据都存放在一个文件中,从而在读写时有效降低磁盘I/O的开销,并且由于类似数据存放在一起,提高了压缩比。经过压缩后的数据容量通常达到原来的 1/3 到 1/5, 极大节省了存储空间。

多维表:这是对传统二维关系表的极大扩充。传统二维表有两维:行和列。列在设计表结构时必须预先固定,而行可以动态增加,也就是说有一个维度可动态改变。HBase的多维表有四维,列簇需要在设计表结构时事先确定,而行、列、时间维都可以动态增加。也就是说有三个维度可动态改变。这种结构非常适合用来表述有嵌套关系的数据。另外,动态增删列的能力也给很多业务带来便利,特别是这些业务在不停的演化,需要的列字段也在不停的增加,多维表结构可以随时进行改变以适应业务发展需求。

稀疏表:由于多维表的列可以动态增加,必然导致不同行相同列的数据大部分为空,也就是说这个表是稀疏的。不像传统关系型数据库,HBase 不存放空值,只存放有内容的表格单元(cell),因此可以支持超大稀疏表,而不会带来任何开销。这对传统的表结构设计也带来了观念上的大改变。


ref:http://cloud.watchstor.com/storage-139990.htm
  • 大小: 72.1 KB
分享到:
评论

相关推荐

    金融级分布式数据库白皮书1

    于是,分布式数据库逐渐兴起,如Google的Bigtable、Amazon的DynamoDB以及开源的Hadoop HBase等。近年来,随着微服务架构的普及,分布式数据库得到了更广泛的应用,如Apache Cassandra、MongoDB等,它们提供了高性能...

    阿里云 专有云企业版 V3.12.0 云数据库HBase版 技术白皮书 20200622.pdf

    - 分布式架构:云数据库HBase基于Hadoop生态系统的HBase构建,具有天然的水平扩展能力,支持PB级别的数据存储。 - 实时查询:HBase支持实时在线查询,能够在大数据量背景下提供亚秒级的查询响应,适合实时分析业务...

    阿里云 专有云企业版 V3.9.0 云数据库HBase版 技术白皮书 20191017.pdf

    阿里云专有云企业版V3.9.0的云数据库HBase版技术白皮书主要介绍了这款基于HBase的分布式数据库服务的核心特性和应用场景。HBase是一款针对大规模数据存储和实时查询设计的NoSQL数据库,特别适用于处理海量半结构化和...

    阿里云 专有云企业版 V3.6.1 云数据库HBase版 技术白皮书 - 20181105.pdf

    - **分布式架构**:云数据库HBase基于Hadoop生态系统,采用分布式存储和计算模型,可以水平扩展以支持PB级别的数据存储。 - **强一致性**:提供强一致性的读写能力,确保数据的准确性和完整性。 - **高性能**:...

    阿里云 专有云企业版 V3.7.1 云数据库 HBase 技术白皮书 20190124.pdf

    阿里云专有云企业版V3.7.1的云数据库HBase技术白皮书是针对阿里云HBase服务的一份详细技术文档,旨在提供关于该服务的核心特性和使用指导。HBase是一款基于Apache HBase的分布式列式存储系统,特别适合处理大规模...

    阿里云 专有云企业版 V3.8.0 云数据库 HBase 技术白皮书 20190621.pdf

    HBase是一款基于Apache HBase的分布式、列族式NoSQL数据库,特别适合处理大规模数据存储和实时查询的需求。 1. **应用场景**: - 实时大数据分析:HBase支持实时读写,适合实时数据分析和报表展示。 - 大规模数据...

    阿里云 专有云企业版 V3.6.2 云数据库HBase版 技术白皮书 - 20181228.pdf

    阿里云专有云企业版V3.6.2的云数据库HBase版是一款基于Apache HBase的分布式NoSQL数据库服务,特别为企业级大数据处理场景设计。这款产品在2018年12月28日的技术白皮书中详细介绍了其特性和功能。 1. **云数据库...

    中科曙光XData-Hadoop大数据软件白皮书v2.0.pdf

    - **HBase**:基于HDFS的分布式、面向列的数据库系统,适合处理大规模结构化数据。 - **Hive**:建立在Hadoop之上的数据仓库,提供了类似SQL的查询语言,方便用户操作结构化数据。 - **Spark**:一种高性能的数据...

    hbase分析报告白皮书

    《HBase分析报告白皮书》详述了HBase这一分布式开源数据库的特性与应用,其基于Hadoop分布式文件系统,旨在处理大规模数据。本文将深入解析HBase的关键概念、设计目标以及与Hadoop的关系。 首先,HBase是模仿Google...

    Hadoop、HBase、Hive、Pig、Zookeeper资料整理

    2. **HBase**:HBase是一个基于Hadoop的分布式、列式存储的NoSQL数据库。它提供实时读写访问,支持大规模数据,适用于半结构化和非结构化数据。HBase通过ZooKeeper进行协调和服务发现。 3. **Hive**:Hive是构建在...

    Hbase分析报告白皮书

    HBase是一款基于Hadoop分布式文件系统的开源数据库,它模仿并实现了Google的Bigtable数据库功能,专为处理大规模数据而设计。在本分析报告中,我们将深入探讨HBase的配置过程以及其与Hadoop结构的关系。 HBase的...

    华为FusionInsight HD技术白皮书.pdf

    HBase是一个基于Hadoop的分布式列式数据库,支持实时读写操作,适用于大数据的实时分析场景。HBase提供了高并发和强一致性的数据存储,是NoSQL数据库的一种实现。 2.6 分布式内存计算框架 Spark Spark作为快速、...

    FusionInsight HD技术白皮书.pdf

    - **分布式数据库HBase**:基于Hadoop的NoSQL数据库,提供随机读写和强一致性的分布式存储服务,适用于大规模结构化数据的实时查询。 - **数据仓库组件Hive**:构建在Hadoop之上,提供SQL-like接口进行大数据分析,...

    大数据技术之HBase.doc

    HBase,全称为Apache HBase,是一种分布式的、面向列的开源数据库,主要用于处理大规模的数据存储。它源自Google的BigTable论文,并作为Hadoop生态系统的一部分进行开发和维护。HBase的设计目标是提供高可靠性、高...

    Hadoop大数据

    HBase是另一个Hadoop生态系统中的组件,它是一个分布式数据库系统,类似于Google BigTable。HBase具有良好的读写特性,并支持对记录的插入、删除和修改操作。它能够在HDFS之上提供快速的数据存取能力,适合于快速...

    Transwarp Hyperbase技术白皮书1

    HBase,作为Hadoop生态系统中的分布式NoSQL数据库,因其设计理念源自Google的Bigtable而备受关注。HBase的核心组件包括HMaster和HRegionServer,它提供了表格型数据模型,将表按照主键范围划分成多个region。HMaster...

    FusionInsight HD技术白皮书.docx

    2.5 分布式数据库 HBase HBase是一个基于HDFS的NoSQL数据库,提供随机实时读写能力。它适合处理大规模稀疏数据,常用于日志分析、实时监控等领域。 2.6 数据仓库组件 Hive Hive是基于Hadoop的数据仓库工具,允许...

    浪潮云海白皮书.pdf

    它无缝集成Hadoop生态系统中的多种工具,如HBase、Hive、Storm、Zookeeper等,支持海量数据的存储、查询、分析和挖掘。HD具备超过4000节点的稳定集群规模,单节点数据加载速率超过2GB/分钟,并且遵循SQL 2003语法...

    数字中台技术白皮书(2022年)

    3. 分布式存储:采用分布式数据库和对象存储技术,如HBase、Cassandra等,实现数据的高可用性和容灾能力。 4. 服务网格:利用Istio、Linkerd等服务网格技术,实现服务间的通信和治理,提高服务发现和负载均衡的能力...

Global site tag (gtag.js) - Google Analytics