1 已经提到过,Table中的所有行都按照row key的字典序排列。
2 Table 在行的方向上分割为多个Hregion。
3 region按大小分割的,每个表一开始只有一个region,随着数据不断插入表,region不断增大,当增大到一个阀值的时候,Hregion就会等分会两个新的Hregion。当table中的行不断增多,就会有越来越多的Hregion。
4 Hregion是Hbase中分布式存储和负载均衡的最小单元。最小单元就表示不同的Hregion可以分布在不同的HRegion server上。但一个Hregion是不会拆分到多个server上的。
5 HRegion虽然是分布式存储的最小单元,但并不是存储的最小单元。
事实上,HRegion由一个或者多个Store组成,每个store保存一个columns family。
每个Strore又由一个memStore和0至多个StoreFile组成。如图:
StoreFile以HFile格式保存在HDFS上。
HFile的格式为:
Trailer部分的格式:
HFile分为六个部分:
Data Block 段–保存表中的数据,这部分可以被压缩
Meta Block 段 (可选的)–保存用户自定义的kv对,可以被压缩。
File Info 段–Hfile的元信息,不被压缩,用户也可以在这一部分添加自己的元信息。
Data Block Index 段–Data Block的索引。每条索引的key是被索引的block的第一条记录的key。
Meta Block Index段 (可选的)–Meta Block的索引。
Trailer–这一段是定长的。保存了每一段的偏移量,读取一个HFile时,会首先读取Trailer,Trailer保存了每个段的起始位置(段的Magic Number用来做安全check),然后,DataBlock Index会被读取到内存中,这样,当检索某个key时,不需要扫描整个HFile,而只需从内存中找到key所在的block,通过一次磁盘io将整个 block读取到内存中,再找到需要的key。DataBlock Index采用LRU机制淘汰。
HFile的Data Block,Meta Block通常采用压缩方式存储,压缩之后可以大大减少网络IO和磁盘IO,随之而来的开销当然是需要花费cpu进行压缩和解压缩。
目标Hfile的压缩支持两种方式:Gzip,Lzo。
HLog(WAL log)
WAL 意为Write ahead log(http://en.wikipedia.org/wiki/Write-ahead_logging),类似mysql中的binlog,用来做灾难恢复只用,Hlog记录数据的所有变更,一旦数据修改,就可以从log中进行恢复。
每个Region Server维护一个Hlog,而不是每个Region一个。这样不同region(来自不同table)的日志会混在一起,这样做的目的是不断追加单个文件相对于同时写多个文件而言,可以减少磁盘寻址次数,因此可以提高对table的写性能。带来的麻烦是,如果一台region server下线,为了恢复其上的region,需要将region server上的log进行拆分,然后分发到其它region server上进行恢复。
HLog文件就是一个普通的Hadoop Sequence File,Sequence File 的Key是HLogKey对象,HLogKey中记录了写入数据的归属信息,除了table和region名字外,同时还包括 sequence number和timestamp,timestamp是”写入时间”,sequence number的起始值为0,或者是最近一次存入文件系统中sequence number。HLog Sequece File的Value是HBase的KeyValue对象,即对应HFile中的KeyValue,可参见上文描述。
分享到:
相关推荐
HBase采用了Google的Bigtable数据模型,底层物理存储采用了列存储的方式,是一种适用于大数据存储和处理的数据库。 在HBase中,可以通过shell命令行进行各种操作,如表的创建、数据的插入和查询等。下面是基于标题...
本文首先简单介绍了HBase,然后重点讲述了HBase的高并发和实时处理数据 、HBase数据模型、HBase物理存储、HBase系统架构,HBase调优、HBase Shell访问等。
├─01_讲义 │ Day15[Hbase 基本使用及存储设计].pdf │ ├─02_视频 │ Day1501_Hbase的介绍及其发展.mp4 │ Day1502_Hbase中的特殊概念.mp4 ...│ Day1511_Hbase的物理模型.mp4 │ Day1512_Hbase的存储模型.mp4
1.2.2 HBase物理存储结构 在物理层面,HBase将数据存储在Region中,每个Region由多个StoreFile组成,每个StoreFile对应一个特定的时间戳。对于删除操作,系统会记录一个Delete标记。数据是按照Row Key、Column ...
hbase-1.2.3-bin.tar.gz 本文首先简单介绍了HBase,然后重点讲述了HBase的高并发和实时处理数据 、HBase数据模型、HBase物理存储、HBase系统架构,HBase调优、HBase Shell访问等
#### 第3章 HBase物理存储 ##### 3.1 HTable - **概念**: HTable是HBase中的表的抽象表示。每个表在行方向上被分割为多个HRegion,以实现水平扩展。 ##### 3.2 HRegion - **功能**: HRegion是HBase中的数据分区...
##### 2.2 HBase物理存储 - 数据在物理层面上以HFile格式存储在HDFS中。 - MemStore:内存中的缓存区,用于暂存新写入的数据。 - StoreFile:从MemStore刷新到磁盘上的数据文件。 #### 三、HBase整体架构 HBase的...
重点讲述了hbase的高并发和实时处理数据 、HBase数据模型、HBase物理存储、HBase系统架构,HBase调优、HBase Shell访问等。
下面我们来看看HBase的一些核心概念及其在物理存储中的实现: 1. **Region**:Region是HBase中数据存储和负载均衡的基本单位。一个Region包含了一个或多个连续的行键区间。当一张表的数据量增长时,为了保证性能,...
在物理存储方面,HBase按照列存储的稀疏行/N矩阵,实际就是把概念模型中的一行分割,并按照列族存储。这种存储模型使得HBase能够高效地存储和管理大型空间矢量数据。 基于HBase的矢量空间数据存储模型可以分为三个...
4. 列族(Column Family):一组相关的列,数据存储的物理分区,列族内的列可以动态增加。 5. 列(Column):在列族内,由列限定符(Qualifier)定义,每个列族可以有多个列。 6. 时间戳(Timestamp):每个单元格都...
HBase的物理模型将逻辑模型中的每个列簇分解成单独的表进行存储,而其架构则包括一个三级结构,确保了数据的高效存储和检索。 HBase的设计初衷和架构特点使其非常适合用作栅格GIS系统的分布式存储方案。通过搭建...
HBase 的物理存储 HBase 表中的所有行都是按照行键的字典序排列的。因为一张表中包含的行的数量非常多,有时候会高达几亿行,所以需要分布存储到多台服务器上。 因此,当一张表的行太多的时候,HBase 就会根据行键的...
HBase的数据模型主要包括概念视图、物理视图、表、行、列族、Cells等。HBase采用的是列族式存储模型,每个表由一个或多个列族组成,表中的数据都是以行的形式存储的。列族下面可以存储多个列。Cells是HBase数据存储...
HBase的物理存储结构包括以下组成部分: 1. HTable:HBase表在行的方向上被分割为多个HRegion,它类似于传统数据库中的分区表。 2. HRegion:HRegion是HBase的分布式存储和负载均衡的最小单元,它可以水平切分以支持...
HBase的物理存储模型涉及了几个核心概念,包括RowKey、ColumnFamily、Column和VersionNumber。RowKey是行的唯一标识,就像数据库中的主键一样,用于快速查找数据。ColumnFamily(列族)是一个或多个相关列的集合,每...
每个表由行键(Row Key)唯一标识,行键决定了数据的物理存储位置。列族是逻辑上的数据分组,列族内可以有任意数量的列,列的命名是动态的。这种灵活的数据模型适应了大数据的多样性需求。 三、HRegion服务器与...
1. 行:行由行键(Row Key)唯一标识,行键是字节序列,决定了行的物理存储位置。 2. 列族(Column Family):是数据的逻辑分组,列族内的列共享相同的存储配置。 3. 列限定符(Column Qualifier):在列族内部,...
4. **列族(Column Family)**:列族是预定义的,所有属于同一列族的列在物理存储上被一起存放,可以设置不同的压缩策略和缓存策略。 5. **Region**:区域是表在物理上的分区,每个区域包含一定范围的行键。随着...