1 已经提到过,Table中的所有行都按照row key的字典序排列。
2 Table 在行的方向上分割为多个Hregion。
3 region按大小分割的,每个表一开始只有一个region,随着数据不断插入表,region不断增大,当增大到一个阀值的时候,Hregion就会等分会两个新的Hregion。当table中的行不断增多,就会有越来越多的Hregion。
4 Hregion是Hbase中分布式存储和负载均衡的最小单元。最小单元就表示不同的Hregion可以分布在不同的HRegion server上。但一个Hregion是不会拆分到多个server上的。
5 HRegion虽然是分布式存储的最小单元,但并不是存储的最小单元。
事实上,HRegion由一个或者多个Store组成,每个store保存一个columns family。
每个Strore又由一个memStore和0至多个StoreFile组成。如图:
StoreFile以HFile格式保存在HDFS上。
HFile的格式为:
Trailer部分的格式:
HFile分为六个部分:
Data Block 段–保存表中的数据,这部分可以被压缩
Meta Block 段 (可选的)–保存用户自定义的kv对,可以被压缩。
File Info 段–Hfile的元信息,不被压缩,用户也可以在这一部分添加自己的元信息。
Data Block Index 段–Data Block的索引。每条索引的key是被索引的block的第一条记录的key。
Meta Block Index段 (可选的)–Meta Block的索引。
Trailer–这一段是定长的。保存了每一段的偏移量,读取一个HFile时,会首先读取Trailer,Trailer保存了每个段的起始位置(段的Magic Number用来做安全check),然后,DataBlock Index会被读取到内存中,这样,当检索某个key时,不需要扫描整个HFile,而只需从内存中找到key所在的block,通过一次磁盘io将整个 block读取到内存中,再找到需要的key。DataBlock Index采用LRU机制淘汰。
HFile的Data Block,Meta Block通常采用压缩方式存储,压缩之后可以大大减少网络IO和磁盘IO,随之而来的开销当然是需要花费cpu进行压缩和解压缩。
目标Hfile的压缩支持两种方式:Gzip,Lzo。
HLog(WAL log)
WAL 意为Write ahead log(http://en.wikipedia.org/wiki/Write-ahead_logging),类似mysql中的binlog,用来做灾难恢复只用,Hlog记录数据的所有变更,一旦数据修改,就可以从log中进行恢复。
每个Region Server维护一个Hlog,而不是每个Region一个。这样不同region(来自不同table)的日志会混在一起,这样做的目的是不断追加单个文件相对于同时写多个文件而言,可以减少磁盘寻址次数,因此可以提高对table的写性能。带来的麻烦是,如果一台region server下线,为了恢复其上的region,需要将region server上的log进行拆分,然后分发到其它region server上进行恢复。
HLog文件就是一个普通的Hadoop Sequence File,Sequence File 的Key是HLogKey对象,HLogKey中记录了写入数据的归属信息,除了table和region名字外,同时还包括 sequence number和timestamp,timestamp是”写入时间”,sequence number的起始值为0,或者是最近一次存入文件系统中sequence number。HLog Sequece File的Value是HBase的KeyValue对象,即对应HFile中的KeyValue,可参见上文描述。
转自:http://hi.baidu.com/kayin521/item/560631de636fbfe53cc2cb25
相关推荐
HBase采用了Google的Bigtable数据模型,底层物理存储采用了列存储的方式,是一种适用于大数据存储和处理的数据库。 在HBase中,可以通过shell命令行进行各种操作,如表的创建、数据的插入和查询等。下面是基于标题...
HBase的物理存储模型涉及到了数据在HDFS上的分布和存储方式。下面我们来看看HBase的一些核心概念及其在物理存储中的实现: 1. **Region**:Region是HBase中数据存储和负载均衡的基本单位。一个Region包含了一个或多...
├─01_讲义 │ Day15[Hbase 基本使用及存储设计].pdf │ ├─02_视频 │ Day1501_Hbase的介绍及其发展.mp4 │ Day1502_Hbase中的特殊概念.mp4 ...│ Day1511_Hbase的物理模型.mp4 │ Day1512_Hbase的存储模型.mp4
每个列簇都有自己的物理存储配置,比如是否压缩、是否缓存到内存等。表中的每一行都包含相同的列簇集合,即使某些列簇对于某行没有列,相应的列簇也会存在,但是其值为空。 3. 列限定符(Column Qualifier) 列限定...
在物理存储方面,HBase按照列存储的稀疏行/N矩阵,实际就是把概念模型中的一行分割,并按照列族存储。这种存储模型使得HBase能够高效地存储和管理大型空间矢量数据。 基于HBase的矢量空间数据存储模型可以分为三个...
本文首先简单介绍了HBase,然后重点讲述了HBase的高并发和实时处理数据 、HBase数据模型、HBase物理存储、HBase系统架构,HBase调优、HBase Shell访问等。
本文来自于csdn,主要为对HBase简介,HBase数据模型及物理模型,HBase架构及工作原理。HBase是一个构建在HDFS之上的,分布式的、面向列的开源数据库HBase是GoogleBigTable的开源实现,它主要用于存储海量数据个人...
1. 行:行由行键(Row Key)唯一标识,行键是字节序列,决定了行的物理存储位置。 2. 列族(Column Family):是数据的逻辑分组,列族内的列共享相同的存储配置。 3. 列限定符(Column Qualifier):在列族内部,...
hbase-1.2.3-bin.tar.gz 本文首先简单介绍了HBase,然后重点讲述了HBase的高并发和实时处理数据 、HBase数据模型、HBase物理存储、HBase系统架构,HBase调优、HBase Shell访问等
在物理存储层,HBase将逻辑模型的行分割成根据列族组织的多个部分。这意味着相同列族的数据会被存储在一起,以优化读写操作。例如,上例中的“com.cnn.www”行会被拆分为三部分,分别对应“contents:”、“anchor:”...
行键是唯一的,决定了数据在 Region 内的物理存储位置;列族是一组具有相似性质的列的集合,如用户信息、交易记录等;列限定符是列族内的具体列;时间戳用于区分同一单元格内的不同版本数据。 **HBase 客户端** 在...
HBase的物理模型将逻辑模型中的每个列簇分解成单独的表进行存储,而其架构则包括一个三级结构,确保了数据的高效存储和检索。 HBase的设计初衷和架构特点使其非常适合用作栅格GIS系统的分布式存储方案。通过搭建...
HBase的设计也涉及到数据的物理存储和内存管理,以及如何通过RegionServer和MasterServer来维护数据的水平扩展性和高可用性。 4. HBase的安全性(Security):为了确保存储在HBase中的数据安全,HBase支持多种安全...
每个表由行键(Row Key)唯一标识,行键决定了数据的物理存储位置。列族是逻辑上的数据分组,列族内可以有任意数量的列,列的命名是动态的。这种灵活的数据模型适应了大数据的多样性需求。 三、HRegion服务器与...
通过其独特的数据模型和物理存储方式,HBase能够在大规模数据场景下提供高效的读写性能和灵活的数据模型,是解决大数据挑战的有力工具。同时,其与HDFS的紧密集成和良好的扩展性,使得HBase成为应对海量结构化数据的...
HBase的数据模型主要包括概念视图、物理视图、表、行、列族、Cells等。HBase采用的是列族式存储模型,每个表由一个或多个列族组成,表中的数据都是以行的形式存储的。列族下面可以存储多个列。Cells是HBase数据存储...
HBase的物理存储模型涉及了几个核心概念,包括RowKey、ColumnFamily、Column和VersionNumber。RowKey是行的唯一标识,就像数据库中的主键一样,用于快速查找数据。ColumnFamily(列族)是一个或多个相关列的集合,每...
从数据模型、物理储存、架构等方面介绍,比较简介通俗
HBASE物理模型:HBASE物理模型由Hmaster主服务器、Region和Region服务器组成。Hmaster主服务器负责维护表和region的元数据,为Region server分配Region,负责Region server的负载均衡,发现失效的Region server并...
HBase的数据模型逻辑上与关系型数据库类似,但从物理存储结构来看,HBase更像是一个multi-dimensional map。 一、HBase基本概念 1.1 HBase定义 HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。它是...