HBase与BigTable的比较(翻译)

浏览: 591960 次
来自: 北京

Hadoop

2011-04-01 13:41
浏览 2038
评论(0)
分类:非技术
查看更多

特性	BigTable	HBase	说明
读 / 写 / 修改的原子性	支持，每行	支持，每行	因为 BigTable 不像关系型数据库，所以不支持事务。最接近事务的就是让对每行数据访问具有原子性。 HBase 同样实现了”行锁”的 API ，让用户访问数据时给一行或者几行数据加锁。
词典顺序的行排序	支持	支持	所有行都按照词典顺序排序
数据块支持	支持	支持	在数据存储文件中，数据是由更小的数据块构成的。这使从大的存储文件读取数据更快。数据块的大小是可配置的，典型配置是 64K 。
数据块压缩	支持，按Column Family	支持，按Column Family	Google 使用 BMDiff 和 Zippy 做两步处理。 BMDiff 工作得很好是因为存储文件中相邻的 key-value 对的内容经常非常相似。因为数据支持多个版本，几个版本的内容会被排序然后被存在一起，它们之间有很多相同的内容。或者 row key 也会被用这样的方式处理，比如如果用 URL 来作为row key ，而这些 URL 来自统一个网站，那么 row key 也会有很多相似之处。 Zippy 使用的是改进的 LZW 算法。 HBase 使用的是 Java 支持的标准的 GZip ，以及一点点 GPL licensed LZO 格式支持。 Hadoop 也有想使用 BMDiff 和 Zippy 的征兆。
Column Family 数量限制	最多几百	小于 100	理论上行数和列数是无限的，可是列族（ column family ）却不是。这个只是设计上的一些折中考率 .
Column Famil命名格式	可打印	可打印	HBase 这样做的主要原因是 Column Famil 的名称会被作为文件系统中的目录名称
Qualifier 命名的格式	任意	任意	任意的字节数组
Key/Value 对的格式	任意	任意	任意的字节数组
访问控制	支持	无	BigTable 支持 column family 级别的访问控制。 HBase 暂不支持
Cell 多版本	支持	支持	多版本支持是基于时间戳。版本数目限制可以基于 cloumn family 级别自由配置
自定义时间戳	支持	支持	两个系统都支持用户设定时间戳，如果用户不指定，则使用当前时间作为时间戳。
数据 TTL	支持	支持	除了数据可以有多个版本，用户还可制定 TTL （ time-to-live ），当数据到期后会被清除
批量写入	支持	支持	都支持批量表操作
值计数器	支持	支持	两者都可使用特定的列作为原子计数器。 HBase 实现是：当计数器的值要增长时，它必须获得行锁。
行过滤器	支持	支持	两者都支持扫描行时支持行过滤器
客户端脚本执行	支持	不支持	BigTable 使用 Sawzall 使客户端可以处理存储的数据。
MapReduce支持	支持	支持	两者都有方便的工具类让 MapReduce Job 扫描表。
底层文件系统	GFS	HDFS,S3, S3N, EBS	BigTable 工作在 GFS 之上， HBase 可以使用任何文件系统，只要有该文件系统的代理或者驱动即可。
存储文件格式	SSTable	HFile
块索引	在文件最后	在文件最后	两者都有相似的块结构化的存储文件格式，并且块索引被放在文件的最后
内存映射	支持	不支持	BigTable 可以让存储文件直接映射到内存。
锁服务	Chubby	ZooKeeper	ZooKeeper 被 HBase 用来协调任务并非当成锁服务。总体说来， HBase使用 ZooKeeper 达到了 BigTable 使用 Chubby 的效果，只有语义有点细微区别。
单个 Master	是	不是	HBase 近来支持多个 Master 。多个 Master 是”热”待命模式工作，它们都侦听 ZooKeeper 上的 Master 节点。
Tablet/Region数目	10-1000	10-1000	两个系统都推荐每个 Region server 分配相同数目的 region 。当然这决定于很多因素，由于两个系统都使用普通电脑，出于负载考虑，它们推荐相同的数目
Tablet/Region大小	100-200MB	256MB	在两个系统中，单个 Region 大小是可配置的，在 HBase 中，默认大小为256MB
Root 位置	1st META / Chubby	-ROOT- / ZooKeeper	HBase 会使用一个只有单个 Region 的自身表来存储 Root 表。二者启动时都会把 Root region 所在机器的地址放到 ZooKeeper 或者 Chubby 中。
客户端Region 信息缓存	支持	不支持	二者客户端都支持 Region 位置信息缓存并且有相应的机制去除过时的缓存和更新缓存
Meta 预读	支持	不支持（？）	BigTable 的一个设计就是会预读超过 1 个 Meta Region 信息并将之放入客户端缓存。
Region 事件记录	支持	支持	Region 相关事件（切分，分配，再分配）都会记录在 Meta 表中
存储位置分组（ Locality Groups ）	支持	不支持	这不是很确定，但是看起来 BigTable 中的任何东西都有个位置分组的属相。如果多个列族的位置分组相同，那么它们将被存放在一起，并且拥有相同的配置参数。单个列族就可能是一个拥有一个成员的位置分组。HBase 不支持这种选项，并将不同的列族分开存储。
完全内存Column Family 存储	支持	支持	这是为需要高速存取小表准备的
KeyValue 缓存	支持	不支持	缓存热点 Cell 数据
数据块缓存	支持	支持	数据块从存储文件读入到在可配置的缓存中
布隆过滤器(Bloom Filters)	支持	支持	这些过滤器会消耗一些内存，但是可以快速检查一个指定的 cell 是否在一个 Region Server 上存在
Write-Ahead Log (WAL)	支持	支持	每个 Region Server 都会记录被它管理的所有 Region 上的数据改动
Secondary Log	支持	不支持	出于性能考虑，一旦 WAL 性能下降， BigTable 还有别的 log 可以使用
忽略 Write-Ahead Log	？	支持	在大量数据导入时， HBase 的客户端可以选择忽略 WAL
快速 Region切分	支持	支持	切分 region 是快速的，因为切分出来的子 region 暂时还会去读取原存储文件直到一个 compaction 将数据写入 region 的自有的存储文件

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

评论

发表评论

相关推荐

HDFS 抛出错误 (java.io.IOException: config())

HBase vs Cassandra: 我们迁移系统的原因

hbase 介绍

HBase技术介绍

Hadoop 状态分析系统Chukwa

Hadoop安装， Hive 安装。

Hive 的扩展特性

HIVE中map，array和structs使用

Hive 中UDF和UDAF简述

Hive 中 SerDe 概述

Hive 安装手册

Hive 日志

The Google File System中文版

最近访客更多访客>>