`
seandeng888
  • 浏览: 158117 次
  • 性别: Icon_minigender_1
  • 来自: 厦门
社区版块
存档分类
最新评论

分布式数据库HBase简介

阅读更多

  HBase 是一个面向列的分布式数据库。HBase 不是一个关系型数据库,其设计目标是用来解决关系型数据库在处理海量数据时的理论和实现上的局限性。传统关系型数据库在上世纪七十年代为交易系统设计,以满足数据一致性(ACID)为目标,并没有考虑数据规模扩大时的扩展性,以及单点系统失效时的可靠性。虽然经过多年的技术发展,产生了一些对关系性数据库的修补(并行数据库),然而受限于理论和实现上的约束,扩展性从来没有超过 40 个服务器节点。而 HBase 从一开始就是为 Terabyte 到Petabyte 级别的海量数据存储和高速读写而设计,这些数据要求能够被分布在数千台普通服务器上,并且能够被大量并发用户高速访问。

  HBase 从 2008 年第一次商用开始,已经被越来越多的在线服务公司所采用。其中最大的是 Facebook 新上线的整合 Email, SNS, Chat 和短消息的在线即时消息系统。

看看这个像不像中国移动的业务?

  分布式数据库 HBase 的特点和优势

  高可扩展性

  HBase 是真正意义上的线性水平扩展。数据量累计到一定程度(可配置),HBase系统会自动对数据进行水平切分,并分配不同的服务器来管理这些数据。这些数据可以被扩散到上千个普通服务器上。这样一方面可以由大量普通服务器组成大规模集群,来存放海量数据(从几个 TB 到几十 PB 的数据)。另一方面,当数据峰值接近系统设计容量时,可以简单通过增加服务器的方式来扩大容量。这个动态扩容过程无需停机,HBase系统可以照常运行并提供读写服务,完全实现动态无缝无宕机扩容。

  高性能

  HBase 的设计目的之一是支持高并发用户数的高速读写访问。这是通过两方面来实现的。首先数据行被水平切分并分布到多台服务器上,在大量用户访问时,访问请求也被分散到了不同的服务器上,虽然每个服务器的服务能力有限,但是数千台服务器汇总后可以提供极高性能的访问能力。其次,HBase 设计了高效的缓存机制,有效提高了访问的命中率,提高了访问性能。

  高可用性

  HBase 建立在 HDFS 之上。HDFS 提供了数据自动复制和容错的功能。HBase 的日志和数据都存放在 HDFS 上,即使在读写过程中当前服务器出现故障(硬盘、内存、网络等故障),日志也不会丢失,数据都可以从日志中自动恢复。HBase 系统会自动分配其他服务器接管并恢复这些数据。因此一旦成功写入数据,这些数据就保证被持久化并被冗余复制,整个系统的高可用性得到保证。

  数据模型及其特点

  HBase 是一个面向列的、稀疏的、分布式的、持久化存储的多维排序映射表(Map)。表的索引是行关键字、列簇名(Column Family)、列关键字以及时间戳;表中的每个值都是一个未经解析的字节数组。

  面向列:指的是同一个列簇里所有数据都存放在一个文件中,从而在读写时有效降低磁盘I/O的开销,并且由于类似数据存放在一起,提高了压缩比。经过压缩后的数据容量通常达到原来的 1/3 到 1/5, 极大节省了存储空间。

  多维表:这是对传统二维关系表的极大扩充。传统二维表有两维:行和列。列在设计表结构时必须预先固定,而行可以动态增加,也就是说有一个维度可动态改变。HBase的多维表有四维,列簇需要在设计表结构时事先确定,而行、列、时间维都可以动态增加。也就是说有三个维度可动态改变。这种结构非常适合用来表述有嵌套关系的数据。另外,动态增删列的能力也给很多业务带来便利,特别是这些业务在不停的演化,需要的列字段也在不停的增加,多维表结构可以随时进行改变以适应业务发展需求

  稀疏表:由于多维表的列可以动态增加,必然导致不同行相同列的数据大部分为空,也就是说这个表是稀疏的。不像传统关系型数据库,HBase 不存放空值,只存放有内容的表格单元(cell),因此可以支持超大稀疏表,而不会带来任何开销。这对传统的表结构设计也带来了观念上的大改变。

0
0
分享到:
评论

相关推荐

    分布式数据库HBase.pdf

    #资源达人分享计划#

    分布式数据库HBase安装配置与实践.doc

    【分布式数据库HBase安装配置与实践】 HBase是一款基于Google Bigtable理念设计的开源NoSQL数据库,它构建在Hadoop之上,适用于处理大规模数据。在本文档中,我们将详细介绍如何在Linux环境中安装、配置和实践HBase...

    博客《分布式数据库HBase实践指南》案例代码

    分布式数据库HBase是一种高度可扩展的NoSQL数据库,主要用于存储大量结构化和半结构化的数据。在本案例中,我们关注的是如何通过Java编程语言来实践HBase的应用。HBase是构建在Apache Hadoop文件系统(HDFS)之上的...

    分布式数据库HBase

    "分布式数据库HBase" HBase 是一个分布式的、面向列的开源数据库,源于 Google 的一篇论文《BigTable:一个结构化数据的分布式存储系统》。HBase 以表的形式存储数据,表有行和列组成,列划分为若干个列族/列簇...

    HBase分布式数据库.pdf

    第零章 大数据概述(2学时) 第一章 Hadoop概述(2学时) 第二章 Hadoop环境搭建(6学时) ...第五章 分布式数据库HBase(6学时) 第六章 分布式数据仓库Hive(8学时) 第七章 综合实例(8学时)

    hadoop大数据平台技术与应用---第5章分布式数据库HBase.pdf

    作为一个高可靠、高性能、面向列、可伸缩的分布式数据库,HBase的设计目标是处理非常庞大的表,通过水平扩展的方式,利用廉价计算机集群处理由超过10亿行数据和数百万列元素组成的数据表。HBase广泛用于大数据处理...

    分布式数据库HBase.ppt

    分布式数据库HBase.ppt

    Hadoop云计算框架中的分布式数据库HBase研究.pdf

    在深入分析Hadoop云计算框架中的分布式数据库HBase研究之前,我们先了解一下Hadoop的背景和其核心组件。Hadoop是一个开源框架,它允许使用简单的编程模型在计算机集群上进行海量数据的存储和处理。由于其用Java语言...

    分布式数据库HBase深入使用

    分布式数据库HBase深入使用 HBase能高速实现数据存储和访问源于Hbase数据存储 连接ZooKeeper,从ZooKeeper 中找要读的数据。我们需要知道表中的Rowkey在region的位置。 客户端查找HRegionServer,HRegionServer ...

    第5章-Hadoop分布式数据库HBASE.pptx

    第5章-Hadoop分布式数据库HBASE.pptx

    7-分布式数据库HBase.ppt

    【分布式数据库HBase详解】 HBase,全称为Hadoop Distributed File System Base,是一个基于Google BigTable设计理念的开源分布式列式数据库。它设计的目标是处理超大规模的数据,支持PB级别的数据量,并可在数千台...

    分布式数据库HBase安装配置与实践.docx

    《分布式数据库HBase安装配置与实践》 HBase是一款基于Google Bigtable设计思想的开源分布式数据库,属于Apache Hadoop项目的一部分。它是一个非关系型的、高性能、分布式的列式存储系统,适用于大规模数据集(跨TB...

    大数据技术原理与应用-第四章-分布式数据库HBase(2016年1月28日版本).ppt

    【大数据技术原理与应用-第四章-分布式数据库HBase(2016年1月28日版本)】 本章主要介绍了分布式数据库HBase的相关知识,包括其起源、概念、特性以及与传统关系数据库的差异。HBase是Google BigTable的开源实现,...

    第四章 分布式数据库 HBase.xmind

    HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,是谷歌BigTable的开源实现,主要用来存储非结构化和半结构化的松散数据。

    分布式数据库HBase安装配置与实践.pdf

    分布式数据库HBase是一种基于列族的NoSQL数据库,特别适合处理海量半结构化或非结构化数据。在互联网行业中,HBase常用于大数据存储和实时查询,尤其在日志分析、用户行为追踪、物联网(IoT)数据存储等领域广泛应用。...

    第4章-分布式数据库HBase.pdf

    HBase作为分布式数据库的核心概念和知识点可以详细阐述如下: 1. 分布式存储系统BigTable的概念和应用背景 BigTable是谷歌提出的一个分布式存储系统,它主要用于解决互联网搜索问题,特别是建立和维护互联网索引。...

Global site tag (gtag.js) - Google Analytics