liuxinglanyue

浏览: 571801 次
性别:
来自: 杭州

最近访客更多访客>>

hui963966800

lhc98

guoshun0321

kidding87

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

2011-02 ( 10)
2011-01 ( 22)
2010-12 ( 165)
更多存档...

YunTable开发日记（3） – BigTable的数据模型和调用接口(转)

博客分类：

分布式与海量数据

百度 Google 工作

本文将深入分析BigTable的数据模型，并介绍它是如何被调用的。

数据模型

就像向我之前所说的那样，其实BigTable顾名思义，是一个非常大的表，而且是一个能存储几十亿行（Row）和几千列（Column）的非常巨大的表。什么表会怎么大呢？接下来，举一些简单的例子，比如：用于中国所有公民的个人信息和Internet上所有网站内容的表，这些表的总体规模可以达到PB以上级别，而且这些表的规模都会与日增长，所以很显然需要使用分布式的方法，而不是使用一台机器来承载这个巨大且不断增长的Table。首先，会介绍一下BigTable最基本的数据模型，也就是table。

Table

图1. Table

这就是Table（表格），虽然上面截图只有三个Row和五个Column，但由于这个表会存储中国所有公民的个人信息，所以会有十三亿多Row和几百多Column，接下来，将介绍为了提高访问效率和伸缩性的两个特性：Colunm Family（列组）和Tablet（片）。

Column Family

图2. Column Family

由于每个表格都会有成百上千的Column，而大多数查询只需得到其中少数几个Column，所以如果每次查询都将所有的Column取出来的话，这样会得不偿失，所以Google在BigTable的设计中引入了Column Family这个特性，通过这个特性能将多个Column并为一个小组，比如上图的“家庭地址”和“工作地址”都隶属于“地址”这个Column Family，这样做的最大的好处是能将这些Column放在一起存储，这样不仅能提高存取效率，而且能避免读取过多的Column，比如可以选择只读取一个Column Family。

Tablet

图3 Tablet

这个非常容易理解，就是BigTable系统会自动根据Row Name的范围，来将数据复制到不同的服务器上。

Timestamp

为了帮助数据的同步和备份，可以为每个Cell（单元格）设置相应的Timestamp，而且系统可以根据Timestamp来做GC（Garbage Collection）。

调用接口

Google的BigTable的调用接口主要以API为主，下面是一些示例代码，主要参考自BigTable的Paper。

//打开Table

Table *T = OpenOrDie(“/peopletable”);

//找到相应的Row，并做相应的更新

RowMutation r1(T,”310101”);

r1.Set(“地址:家庭地址”,”SH88”);

//执行更新

Operation op;

Apply(&op, &r1);

//创建用于查询的Scanner

Scanner scanner(T);

ScanStream *stream;

//查询相关的代码：1. 锁定“地址”这个Cloumn Family；2.返回所有版本；3. 查找Row Name是”310101”的列。

stream = scanner.FetchColumnFamily(“地址”);

stream->SetReturnAllVersion();

scanner.Lookup(“310101”);

//打印

for(;!stream->Done();stream->Next()){

printf(“%s %s %lld %s\n”,Scanner.RowName(), stream->ColumnName,

stream->TimeStamp, stream->Value);

}

下篇开发日记将关注BigTable的存储模型。

参考资料：

1. BigTable的Paper。
2. 百度 – 大规模数据处理。

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

YunTable开发日记（3） – BigTable的数据模型和调用接口(转)

数据模型

调用接口

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

YunTable开发日记（3） – BigTable的数据模型和调用接口(转)

数据模型

调用接口

评论

发表评论

相关推荐

Google新一代实时搜索系统的核心机制

为什么云计算是比较安全的？

北大的分布式系统在线教材（转）

云计算背后的秘密（5）-Google的数据中心优化技术（转）

云计算背后的秘密（4）-Chubby（转）

云计算背后的秘密（3）-BigTable（转）

云计算背后的秘密（2）-GFS（转）

云计算背后的秘密（1）-MapReduce（转）

Bigtable：一个分布式的结构化数据存储系统(转载)

【google论文四】Bigtable:结构化数据的分布式存储系统(下)

【google论文四】Bigtable:结构化数据的分布式存储系统(上)

海量查询的数据优化（补充）

海量查询的数据优化

google 背后的分布式架构(三) 转载

google 背后的分布式架构(二) 转载

google背后的分布式架构(一) 转载

海量数据分析：Sawzall并行处理（中文版论文 二）

海量数据分析：Sawzall并行处理（中文版论文 一）

【google论文三】MapReduce:简化大集群上的数据处理(下)

【google论文三】MapReduce:简化大集群上的数据处理(上)

最近访客更多访客>>

海量数据分析：Sawzall并行处理（中文版论文二）

海量数据分析：Sawzall并行处理（中文版论文一）