AVRO1.4.1规范－Schema的定义和声明

guibin

浏览: 366570 次
性别:
来自: 北京

最近访客更多访客>>

zhang_sun

yflwz

leizeonban

快了的男孩

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

AVRO

json Gmail Apache

AVRO1.4.1规范－Schema的定义和声明（参考自http://avro.apache.org/docs/current/spec.html）
guibin.beijing@gmail.com

Avro 1.4.1规范定义了Avro序列化系统，它即将成为官方规范，Avro的各种实现方式必须遵循该规范。2

Schema定义
AVRO的Schema是用JSON的格式表示的，Schema可以用

JSON String 来命名一个定义的类型
JSON 对象，形式如：

引用

{"type": "typeName" ...attributes...}

JSON 数组，代表内嵌类型的并集（union）。

原生类型
原生类型如下所示：

null: 表示没有值
boolean: 表示一个二进制布尔值
int: 表示32位有符号整数
long: 表示64位有符号整数
float: 表示32位的单精度浮点数（IEEE 754）
double: 表示64位双精度浮点数（IEEE 754）
bytes: 表示8位的无符号字节序列
string: Unicode 编码的字符序列

原生数据类型也可以使用JSON定义类型名称，比如schema "string"和{"type": "string"}是同义且相等的。

复杂类型
AVRO支持6种类型的复杂类型，分别是：records, enums, arrays, maps, unions and fixed.
Records
Records使用类型名称“record”，并且支持三个必选属性。

type: 必有属性。
name: 必有属性，是一个JSON string，提供了记录的名字。
doc: 可选属性，是一个JSON string，为使用这个Schema的用户提供文档。
aliases: 可选属性，是JSON的一个string数组，为这条记录提供别名。
fields: 必选属性，是一个JSON数组，数组中列举了所有的field。每一个field都是一个JSON对象，并且具有如下属性：

field default values

avro type	json type	example
null	null	null
boolean	boolean	true
int, long	integer	1
float, double	number	1.1
bytes	string	"\u00ff"
string	string	"foo"
record	object	{"a":1}
enum	string	"FOO"
array	array	[1]
map	object	{"a":1}
fixed	string	"\u00ff"

引用

{
"type": "record",
"name": "LongList",
"aliases": ["LinkedLongs"],                      // old name for this
"fields" : [
    {"name": "value", "type": "long"},             // each element has a long
    {"name": "next", "type": ["LongList", "null"]} // optional next element
]
}

Enums
Enums使用的名为“enum”的type并且支持如下的属性：

name: 必有属性，是一个JSON string，提供了enum的名字。
aliases: 可选属性，是JSON的一个string数组，为这个enum提供别名。
doc: 可选属性，是一个JSON string，为使用这个Schema的用户提供文档。
symbols: 必有属性，是一个JSON string数组，列举了所有的symbol，在enum中的所有symbol都必须是唯一的，不允许重复。比如下面的例子：

引用

{ "type": "enum",
"name": "Suit",
"symbols" : ["SPADES", "HEARTS", "DIAMONDS", "CLUBS"]
}

Arrays
Array使用名为"array"的type，并且支持一个属性

items: array中元素的Schema

引用

{"type": "array", "items": "string"}

Maps
Map使用名为"map"的type，并且支持一个属性

values: 用来定义map的值的Schema。Maps的key都是string。比如一个key为string，value为long的maps定义为：

引用

{"type": "map", "values": "long"}

Unions
Unions就像上面提到的，使用JSON的数组表示。比如

引用

["string", "null"]

声明了一个union的Schema，其元素即可以是string，也可以是null。
Unions不能包含多个相同类型的Schema，除非是命名的record类型、命名的fixed类型和命名的enum类型。比如，如果unions中包含两个array类型，或者包含两个map类型都不允许；但是两个具有不同name的相同类型却可以。由此可见，union是通过Schema的name来区分元素Schema的，因为array和map没有name属性，当然只能存在一个array或者map。（使用name作为解析的原因是这样做会使得读写unions更加高效）。unions不能紧接着包含其他的union。

Fixed
Fixed类型使用"fixed"的type name，并且支持三个属性：

name: 必有属性，表示这个fixed的名称，JSON string。
aliases: 可选属性，同上
size: 必选属性，一个整数，志明每个值的字节数。

引用

{"type": "fixed", "size": 16, "name": "md5"}

Names
Record, enums 和 fixed都是命名的类型，这三种类型都各有一个全名，全名有两部分组成：名称和命名空间。名称的相等是定义在全名基础上的。
全名的名字部分和record的field名字必须：

以[A-Za-z_]开头
接下来的名字中只能包含[A-Za-z0-9_]

同时指定name和namespace，比如使用 "name": "X", "namespace": "org.foo"来表示全名org.foo.X。
指定全名。如果name中包含点号，则认为是全名。比如用 "name": "org.foo.X" 表示全名org.foo.X。
仅仅指定name，name中没有点号。在这种情况下命名空间取自距离最近的父亲的Schema或者protocol。比如声明了"name": "X"，这段声明在一条记录“org.foo.Y”的field中，那么X的全名就是org.foo.X。

0
顶

6
踩

分享到：

AVRO文件结构分析 | AVRO介绍及同其他序列化系统的比较

2011-05-02 20:45
浏览 3037
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论