liuxinglanyue

浏览: 565311 次
性别:
来自: 杭州

最近访客更多访客>>

hui963966800

lhc98

guoshun0321

kidding87

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

2011-02 ( 10)
2011-01 ( 22)
2010-12 ( 165)
更多存档...

云计算背后的秘密（3）-BigTable（转）

博客分类：

分布式与海量数据

云计算 Google HBase 数据结构 Cassandra

由于在Google的数据中心存储PB级以上的非关系型数据时候，比如网页和地理数据等，为了更好地存储和利用这些数据，Google开发了一套数据库系统，名为“BigTable”。

技术概览

从技术来讲，BigTable不是一个传统的关系型的数据库，也不支持类似关联（join）这样高级的SQL操作，取而代之的是多级映射的数据结构，并支持大规模数据处理、高容错性和自我管理等特性，提供PB级的存储能力，使用结构化的文件来存储数据，并整个集群每秒可处理数百万的读写操作。

什么是多级映射的数据结构呢？就是一个稀疏的、多维的和排序的Map，每个Cell（单元格）由行关键字、列关键字和时间戳来进行三维定位．Cell的内容本身就是一个字符串，比如，存储每个网页的内容。在下图中，反向的URL “com.cnn.www”是这行的关键字，“contents”这列存储了多个版本的网页内容，每个版本都有一个时间戳。BigTable还提供一个用于将多个相似的列整合至一起的Column Family（列组）机制，比如，下面“anchor”这个Column Family就有“anchor: cnnsi.com”和“anchhor:my.look.ca”这个两个列。通过Column Family这个概念，使得表可以轻松地横向扩展。

图1. BigTable数据模型图

在结构上，BigTable基于GFS分布式文件系统和Chubby分布式锁服务。BigTable主要分为两部分：其一是Master节点，用来处理元数据相关的操作并支持负载均衡。其二是Tablet节点，主要用于存储数据库的分片tablet，并提供相应的数据访问，同时tablet是基于名为SSTable的格式，对压缩有很好的支持。下图为其具体的架构图：

图2. BigTable架构图

实际用例

BigTable正在为Google六十多种产品和项目提供存储和获取结构化数据的支撑平台，其中包括有Google Print， Orkut，Google Maps，Google Earth和Blogger等，而且在Google内部至少运行着500个BigTable集群。

下一代的BigTable

随着Google内部服务对需求的不断提高和技术的不断地发展，导致原先的BigTable已经无法满足用户的需求，而Google也正在开发下一代BigTable，名为“Spanner（扳手）”，它主要有下面这些BigTable所无法支持的特性：

1. 支持多种数据结构，比如table，familie，group和coprocessor等。
2. 基于分层目录和行的细粒度的复制和权限管理。
3. 支持跨数据中心的强一致性和弱一致性控制。
4. 基于Paxos算法的强一致性副本同步，并支持分布式事务。
5. 提供许多自动化操作。
6. 强大的扩展能力，能支持百万台服务器级别的集群。
7. 用户可以自定义诸如延迟和复制次数等重要参数以适应不同的需求。

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

云计算背后的秘密（3）-BigTable（转）

技术概览

相关产品

实际用例

下一代的BigTable

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

云计算背后的秘密（3）-BigTable（转）

技术概览

相关产品

实际用例

下一代的BigTable

评论

发表评论

相关推荐

Google新一代实时搜索系统的核心机制

为什么云计算是比较安全的？

北大的分布式系统在线教材（转）

云计算背后的秘密（5）-Google的数据中心优化技术（转）

云计算背后的秘密（4）-Chubby（转）

云计算背后的秘密（2）-GFS（转）

云计算背后的秘密（1）-MapReduce（转）

Bigtable：一个分布式的结构化数据存储系统(转载)

YunTable开发日记（3） – BigTable的数据模型和调用接口(转)

【google论文四】Bigtable:结构化数据的分布式存储系统(下)

【google论文四】Bigtable:结构化数据的分布式存储系统(上)

海量查询的数据优化（补充）

海量查询的数据优化

google 背后的分布式架构(三) 转载

google 背后的分布式架构(二) 转载

google背后的分布式架构(一) 转载

海量数据分析：Sawzall并行处理（中文版论文 二）

海量数据分析：Sawzall并行处理（中文版论文 一）

【google论文三】MapReduce:简化大集群上的数据处理(下)

【google论文三】MapReduce:简化大集群上的数据处理(上)

最近访客更多访客>>

海量数据分析：Sawzall并行处理（中文版论文二）

海量数据分析：Sawzall并行处理（中文版论文一）