XML 模式:了解数据类型
作者:Rahul Srivastava
了解在 XML 模式 1.0 版中支持的数据类型以及如何使用它们
W3C XML 模式数据类型规范为验证元素内容和属性值定义了许多数据类型。这些数据类型可以只用于验证元素的标量内容,而不验证非标量或混合内容。通常将 <opening> 和 </closing> 元素标记之间包含的文本以及属性的值称为标量数据,但它也可以是标量数据的列表。这些数据类型计划用于 XML 模式定义和其他与 XML 相关的文档。
最初,文档类型定义 (DTD) 是验证 XML 实例的唯一语法。但 DTD 仅具有几种数据类型,用以确保通过熟悉的 PCDATA、CDATA 等对 XML 中的标量数据进行粗略验证。相比而言,XML 模式通过提供 44 种内置数据类型克服了这一局限。可以进一步定制这些数据类型中的每一种来确保标量数据的精细验证。例如,可以定制内置数据类型字符串来成功验证字符串,确保它们的长度为 4。
在本文中,您将了解:
- 支持的数据类型的值空间、词法空间和规范词法表示之间的差别
- XML 模式中支持的数据类型,它们的类别,以及它们彼此的关系
- 使用约束、列表和联合结构从内置数据类型创建新的数据类型
- 用于限制数据类型的各种约束面
- 如何使用 Oracle XDK 通过编程的方式创建和使用 XML 模式数据类型。
数据类型基础
在我们钻研各种数据类型、它们的用法和它们之间的关系之前,我们需要先了解数据类型的一般性概念。虽然 XML 模式规范说明了有关数据类型的下列基本概念,但这些概念并非 XML 模式所特有。相反,它们是一般性的数学概念。我们来更详细地介绍一下它们。
值空间和词法空间
值空间包含了给定数据类型的最大值集合。数据类型的值空间中的每一个值都由该数据类型的词法空间中的一个或多个文字来表示。词法空间是数据类型的有效文字的集合。
打个比方说:在英语(实际上在所有语言)中,我们有很多单词具有相同的意义。值可以看作是单词的意义,而相应的文字可以看作是具有相同意义的不同单词。
例如:100.0、200.0 等是数据类型 float 的值空间中的值。值 100.0 可以使用多种文字(如 10.0E+1、1.0E2、1.0E+2 等)来表示。同样,值 200.0 也可以用多种文字(如 2.0E2、2.0E+2 等)来表示。float 的值空间中的每个值的所有这些文字都属于数据类型 float 的词法空间。(请参见图 1。)
|
图 1:值空间中的值可以与词法空间中的多个文字对应。
|
规范词法表示
规范词法表示是数据类型的有效文字集中的一组文字,因而规范词法表示中的文字与值空间中的值之间存在一对一的映射关系。(参见图 2 和图 3。)
|
图 2:词法空间中的多个文字仅与规范词法表示中的一个文字对应。
|
|
图 3:从值空间到规范词法表示始终存在一对一的映射关系。
|
规范表示在 XML 模式中没有任何用途,但在使用 XML 模式数据类型的其他规范中非常有用。例如,XQuery/XPath 数据模型使用 XML 模式类型以及规范词法表示来序列化一个值。因此,当序列化一个值(如 100.0)时,将使用相应的规范词法表示 — 在这种情况下为 1.0E2。
XML 模式中的数据类型
现在我们了解了关于数据类型的一般性的基本概念,下面我们来深入介绍 XML 模式中提供的数据类型。一般而言,XML 模式中的数据类型可以分为 ur-Type、built-in 和 user-derived(参见下面的表 1),并且它们彼此关联(如图 4 所示)。
ur-Type |
anyType
|
anySimpleType |
Built-in (Atomic) |
Primitive |
Derived |
User-Derived |
Restriction |
List |
Union |
表 1:XML 模式数据类型分类
|
图 4:XML 模式支持的 数据类型之间的关系
|
现在,我们来更详细地介绍一下主要的类别 — ur-Type、built-in 和 user-derived。
ur-Type
ur-Type 类别表示在 XML 模式数据类型中存在整个类型系统层次结构的一个基或根。XML 模式中的任何数据类型都将 ur-Type 作为其父亲或祖先。ur-Type 的角色类似于 Java 中的 java.lang.Object,后者是 Java 中所有内置和用户定义类的基类。类似地,ur-type 是 XML 模式中的所有数据类型的基。anyType 和 anySimpleType 是在 XML 模式中提供的两种 ur-type。
anyType
anyType 数据类型是一种具体的 ur-Type,根据上下文,它可以作为复杂类型(非标量数据,即元素)或作为简单类型(标量数据)来使用。例如,下面是一个使用 anyType 数据类型的 XML 模式:
<?xml version="1.0" encoding="US-ASCII"?>
<schema xmlns="http://www.w3.org/2001/XMLSchema"
targetNamespace="http://mydatatypes.edu"
elementFormDefault="qualified">
attributeFormDefault="unqualified">
<element name="Currency" type="anyType" />
</schema>
下面是使用标量数据的相应有效实例:
<Currency xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://mydatatypes.edu ex2.xsd"
xmlns="http://mydatatypes.edu">USD</Currency>
下面是相应的使用非标量数据的有效实例:
<Currency xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://mydatatypes.edu ex2.xsd"
xmlns="http://mydatatypes.edu">
<dollars>100</dollars>
</Currency>
anySimpleType
anySimpleType 数据类型也是一种具体的 ur-Type,并且是所有内置数据类型的父亲和所有用户派生标量数据类型的祖先。它不同于 anyType,这是因为它只可以存放任意标量数据类型对应的标量数据,而 anyType 可以存放标量和非标量数据。例如,下面是使用一个 anySimpleType 数据类型的 XML 模式:
<?xml version="1.0" encoding="US-ASCII"?>
<schema xmlns="http://www.w3.org/2001/XMLSchema"
targetNamespace="http://mydatatypes.edu"
elementFormDefault="qualified">
attributeFormDefault="unqualified">
<element name="Currency" type="anySimpleType" />
</schema>
下面是使用标量数据的相应有效实例:
<Currency xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://mydatatypes.edu ex3.xsd"
xmlns="http://mydatatypes.edu">USD</Currency>
下面是相应的使用非标量数据的无效实例:
<Currency xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://mydatatypes.edu ex3.xsd"
xmlns="http://mydatatypes.edu">
<dollars>100</dollars>
</Currency>
事实上,如果您不为元素声明指定任何类型,那么它的类型默认为 anyType;如果您不为属性声明指定任何类型,那么它的类型默认为 anySimpleType。在下面的例子中,元素 Currency 的类型默认为 anyType,属性 MoreCurrency 的类型默认为 anySimpleType。
<?xml version="1.0" encoding="US-ASCII"?>
<schema xmlns="http://www.w3.org/2001/XMLSchema"
targetNamespace="http://mydatatypes.edu"
elementFormDefault="qualified">
attributeFormDefault="unqualified">
<element name="Currency" />
<attribute name="MoreCurrency" />
</schema>
内置数据类型
在 W3C XML 模式数据类型规范中定义的内置数据类型必须被所有遵循 W3C XML 模式规范的分析器所支持。有两种类别的内置数据类型:primitive 和 derived。两者之间的差别与用户关系不大,但我们还是要在此介绍它们,以演示数据类型创建的机制和实用工具。(在此查看 W3C 的内置数据类型继承图。)
内置的基本数据类型
基本数据类型是不可分的。它们的定义不依赖其他数据类型;它们是独立存在的。例如,decimal 是一种严格定义的数学概念,它的定义不能依赖其他任何数据类型。XML 模式数据类型规范支持 19 种内置基本数据类型:
string
boolean
decimal
float
double
duration
dateTime
time
date
gYearMonth
gYear
gMonthDay
gDay
gMonth
hexBinary
base64Binary
anyURI
QName
NOTATION
有关详细信息,请查看 XML 模式第 2 部分的 3.2 节。
内置的派生数据类型
相比而言,由于派生数据类型是从内置基本数据类型中派生的,因此是可分的 — 换句话说,派生数据类型的定义依赖于其他数据类型。例如,integer 是一种严格定义的数学概念,它可以使用 decimal 并限制不使用小数点来定义。XML 模式数据类型支持 25 种内置派生数据类型:
normalizedString
token
language
NMTOKEN
NMTOKENS
Name
NCName
ID
IDREF
IDREFS
ENTITY
ENTITIES
integer
nonPositiveInteger
negativeInteger
long
int
short
byte
nonNegativeInteger
unsignedLong
unsignedInt
unsignedShort
unsignedByte
positiveInteger
有关详细信息,请查看 XML 模式规范第 2 部分的 3.3 节。
用户派生的数据类型
用户派生的数据类型是用户在 XML 模式定义中指定的、并通过 restriction、list 或 union 创建的数据类型。XML 模式结构 <simpleType> 用来创建用户派生的数据类型。这种数据类型可以有具体的名称(如果用户要重用它)或者可以是匿名的(如果它只使用一次)。
因为规范目前将 list 和 union 归为用户派生的数据类型,所以还存在一些混乱。为清晰起见,应将它们归为用户定义的数据类型。这种混乱在 XML 模式的下一个版本中有望得到解决。
通过 Restriction 创建的用户派生数据类型
每种内置数据类型都有一组允许的约束面,可以使用它们来约束或限制这种数据类型,从而创建属于用户派生数据类型的一种新数据类型。约束面是可用在数据类型上来约束其“值空间”的一种可选属性。约束“值空间”会最终约束“词法空间”。请记住,只能限制而无法扩展数据类型的值空间。XML 模式结构 <restriction> 用于通过用允许的约束面限制现有数据类型来创建用户派生数据类型。例如,长度为 3 的字符串可以表示为:
<?xml version="1.0" encoding="US-ASCII"?>
<schema xmlns="http://www.w3.org/2001/XMLSchema"
targetNamespace="http://mydatatypes.edu"
elementFormDefault="qualified">
attributeFormDefault="unqualified">
<element name="Currency">
<simpleType>
<restriction base="string">
<length value="3" />
</restriction>
</simpleType>
</element>
</schema>
在上面的例子中,用约束面 length 定义了一种匿名的用户派生数据类型 — 基数据类型为 string。可以用命名的用户派生数据类型来写相同的例子,以实现可重用性:
<?xml version="1.0" encoding="US-ASCII"?>
<schema xmlns="http://www.w3.org/2001/XMLSchema"
targetNamespace="http://mydatatypes.edu"
xmlns:tns="http://mydatatypes.edu"
elementFormDefault="qualified">
attributeFormDefault="unqualified">
<element name="Currency" type="tns:currency_type" />
<element name="MoreCurrency" type="tns:currency_type" />
<simpleType name="currency_type">
<restriction base="string">
<length value="3" />
</restriction>
</simpleType>
</schema>
下面是 XML 模式中的 12 种约束面,可以使用它们来从其他可用内置数据类型创建用户派生数据类型。不过这些约束面可能根据基数据类型而改变:
length
minLength
maxLength
pattern
enumeration
whiteSpace
maxInclusive
maxExclusive
minExclusive
minInclusive
totalDigits
fractionDigits
用户定义的列表数据类型
在 XML 模式中,列表 是用空白(空格、制表符、回车符、换行符)分隔的一系列相似项,其中列表中的所有项都具有相同的数据类型。它与 Java 中的数组类似,后者是自描述的。
XML 模式结构 <list> 用来创建列表数据类型。例如,可以用以下方式创建一个 float 列表:
<?xml version="1.0" encoding="US-ASCII"?>
<schema xmlns="http://www.w3.org/2001/XMLSchema"
targetNamespace="http://mydatatypes.edu"
elementFormDefault="qualified">
attributeFormDefault="unqualified">
<element name="Currency">
<simpleType>
<list itemType="float" />
</simpleType>
</element>
</schema>
列表不一定始终是内置数据类型,它也可以是用户派生数据类型的列表。例如,基于 float 的用户派生数据类型(其值限制在 10.0 到 20.0 之间)的列表可以表示为:
<?xml version="1.0" encoding="US-ASCII"?>
<schema xmlns="http://www.w3.org/2001/XMLSchema"
targetNamespace="http://mydatatypes.edu"
elementFormDefault="qualified">
attributeFormDefault="unqualified">
<element name="Currency">
<simpleType>
<list>
<simpleType>
<restriction base="float">
<minInclusive value="10.0" />
<maxInclusive value="20.0" />
</restriction>
</simpleType>
</list>
</simpleType>
</element>
</schema>
要重用上面定义的列表数据类型,我们必须按如下方式命名列表数据类型:
<?xml version="1.0" encoding="US-ASCII"?>
<schema xmlns="http://www.w3.org/2001/XMLSchema"
targetNamespace="http://mydatatypes.edu"
xmlns:tns="http://mydatatypes.edu"
elementFormDefault="qualified">
attributeFormDefault="unqualified">
<element name="Currency" type="tns:listOfFloat" />
<simpleType name="listOfFloat">
<list>
<simpleType>
<restriction base="float">
<minInclusive value="10.0" />
<maxInclusive value="20.0" />
</restriction>
</simpleType>
</list>
</simpleType>
</schema>
遵循上述模式的有效实例可以包含范围在 10.0 和 20.0 之间的 float 数据类型的列表,两者都包含:
<Currency xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://mydatatypes.edu ex5.xsd"
xmlns="http://mydatatypes.edu">10.0 12.4
15.0</Currency>
在上面的例子中,限制列表中的项仅能具有 10.0 到 20.0 之间的值,但对列表中的项数没有限制。如果我们想将列表中的项数限制在比如说 3 个,那么我们可以采用以下方式:
<?xml version="1.0" encoding="US-ASCII"?>
<schema xmlns="http://www.w3.org/2001/XMLSchema"
targetNamespace="http://mydatatypes.edu"
xmlns:tns="http://mydatatypes.edu"
elementFormDefault="qualified">
attributeFormDefault="unqualified">
<element name="Currency">
<simpleType>
<restriction base="tns:listOfFloat">
<length value="3" />
</restriction>
</simpleType>
</element>
<simpleType name="listOfFloat">
<list>
<simpleType>
<restriction base="float">
<minInclusive value="10.0" />
<maxInclusive value="20.0" />
</restriction>
</simpleType>
</list>
</simpleType>
</schema>
下面我们使用一个约束面 — length — 来限制上面例子中列表的项数。对于从 list 数据类型中派生的数据类型而言,无论 list 的各个 itemType 的数据类型是什么,只允许使用以下这些约束面:
Length
MinLength
MaxLength
Pattern
Enumeration
WhiteSpace
用户派生的联合数据类型
联合数据类型是通过联合一个或多个其他数据类型创建的。XML 模式结构 <union> 用来创建联合数据类型。例如,int 和 float 数据类型的联合可以表示为:
<?xml version="1.0" encoding="US-ASCII"?>
<schema xmlns="http://www.w3.org/2001/XMLSchema"
targetNamespace="http://mydatatypes.edu"
elementFormDefault="qualified">
attributeFormDefault="unqualified">
<element name="Currency">
<simpleType>
<union memberTypes="int float" />
</simpleType>
</element>
</schema>
当在实例中验证货币的值时,它首先对照数据类型 int 进行匹配。如果它不是有效的 int,那么它将对照数据类型 float 进行匹配。如果它也不是一个有效的 float,那么将出现错误。正如您所看到的那样,声明 memberTypes 的顺序确实很重要,但这只是从数据类型验证器的角度来看。从用户的角度来看,memberTypes 的顺序是根本就不重要。
与 list 类似,union 可以是基本数据类型和用户派生的数据类型。例如,基于 int 和 float 的用户派生数据类型的联合可以表示如下:
<?xml version="1.0" encoding="US-ASCII"?>
<schema xmlns="http://www.w3.org/2001/XMLSchema"
targetNamespace="http://mydatatypes.edu"
xmlns:tns="http://mydatatypes.edu"
elementFormDefault="qualified">
attributeFormDefault="unqualified">
<element name="Currency" type="tns:UnionOfIntFloat" />
<simpleType name="UnionOfIntFloat">
<union>
<simpleType>
<restriction base="int">
<minInclusive value="10" />
<maxInclusive value="20" />
</restriction>
</simpleType>
<simpleType>
<restriction base="float">
<minInclusive value="30.0" />
<maxInclusive value="40.0" />
</restriction>
</simpleType>
</union>
</simpleType>
</schema>
遵循上述模式的有效实例可以包含范围介于 10 和 20 之间的单个 int 或范围在 30.0 和 40.0 之间的单个 float,两者都包含:
<Currency xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://mydatatypes.edu ex7.xsd"
xmlns="http://mydatatypes.edu">35.0</Currency>
当限制联合数据类型时,无论各个 memberTypes 的数据类型是什么,只允许使用以下约束面:
Pattern
Enumeration
可以混合和匹配 list、union 和 atomic 数据类型,并使用约束来根据特定需求定义数据类型。有关约束面的更多详细信息,请参见 XML 模式第 2 部分的 4.1.5 节以及 XML 模式第 0 部分的附录 B。
数据类型命名空间
我们迄今为止看到的数据类型是与 XML 模式命名空间 http://www.w3.org/2001/XMLSchema 关联的,后者还具有其他 XML 模式结构(如 complexType、complexContent、group 等)。
由于编写 W3C XML 模式数据类型规范的目的不仅是专门在 XML 模式定义语言内部使用,而且还可以被其他与 XML 相关的语言使用,因此它提供了 http://www.w3.org/2001/XMLSchema — http://www.w3.org/2001/XMLSchema-datatypes — 的一个子集命名空间,该命名空间只包含了简化在其他语言中使用 XML 模式数据类型所需的数据类型、约束面等。
这种分离的优点影响了 XML 模式数据类型验证器的实施,即独立实施 XML 模式数据类型是可能的,而不是实施整个 XML 模式结构加上 XML 模式数据类型规范。
使用 Oracle XDK
除了根据 XML 模式语法验证 XML 实例外,Oracle XML 开发工具包 (XDK) 还提供了 API 来以编程的方式使用内置数据类型,使用约束面来限制它们,并根据模式来验证值。例如:
import oracle.xml.parser.schema.*;
. . .
XSDSimpleType st = XSDSimpleType.getPrimitiveType(XSDSimpleType.iSTRING);
try {
//set a constraining facet on the simpleType
st.setFacet(XSDSimpleType.LENGTH, "5");
}
catch(XSDException ex1) {
System.out.println("[ERROR] Facet not supported.
"+ex1.getMessage());
}
try {
//validate value
st.validateValue("hello");
System.out.println("[SUCCESS] The value is valid.");
}
catch(XSDException ex2) {
System.out.println("[ERROR] Invalid Value."+ex2.getMessage());
创建 string 类型的匿名数据类型,并限制它仅成功验证长度为 5 的字符串。您可以使用 XDK 模式 API 来通过编程的方式创建数据类型并限制它们。有关更多详细信息,请查看 XDK javadoc。
结论
现在您了解了 XML 模式中的数据类型以及它们的用途,这样转到定义复杂元素内容的其他 XML 模式结构上将更容易。
原文链接:http://www.oracle.com/technology/global/cn/pub/articles/srivastava_datatypes.html
分享到:
相关推荐
本教程“XML模式权威教程”将深入探讨XML模式(XML Schema),这是XML的一个关键部分,用于定义XML文档的结构和数据类型。 XML模式提供了比早期的DTD(Document Type Definition)更强大、更灵活的方式来验证XML...
- 数据类型:XML Schema提供了更丰富的内置数据类型,如整型、浮点型、日期时间等。 - 元素和属性约束:可以设置必须、可选或禁止出现,以及数量限制。 - 组合模式:定义元素的顺序或选择。 - 引用:通过`ref`...
接下来,工具会根据这些信息生成一个符合模式的XML文档,这个文档可能包含所有可能的数据类型和结构,以便用户了解或测试与XSD兼容的XML数据应如何构造。 这个工具的源代码开放给用户,对于学习XML Schema和XML处理...
首先,让我们了解XML数据类型。SQL Server 2005及更高版本引入了XML数据类型,它允许直接在数据库中存储XML文档,并提供了内置函数和方法来解析和操作XML数据。`a.xml`文件可能包含如下结构的XML数据: ```xml ...
本文详细介绍了XML Schema结构中的关键概念和元素,包括名称空间的定义、schema声明的结构、简单数据类型和复杂数据类型的定义。通过理解这些基本概念,开发人员可以更有效地设计和实现符合标准的XML文档结构。此外...
标签是自定义的,用于描述数据的类型或功能,如`<employee>`表示员工信息;属性用于提供额外的信息,如`<employee id="123">`;内容则是在标签之间存储的实际数据,如`<name>John Doe</name>`;注释用于对代码进行...
- 定义数据类型:学习如何使用XML Schema定义复杂的数据类型,如日期、数字等。 - 架构约束:掌握XML Schema的复杂性,如元素和属性的使用规则、序列化和选择等。 4. **第4章《XPath》** - XPath简介:了解XPath...
本实验的主要目的是让学生了解并掌握XML Schema的定义方法及其用途、基本结构、数据类型、元素声明、属性声明,并了解如何使用Schema对XML文件进行验证。 XML Schema是基于XML的模式语言,用于定义XML文档的结构和...
1. **分析已有XML文档**:首先需要仔细阅读并理解给定的XML文档(schoolmatelist.xml),了解其结构及包含的数据类型。 2. **创建Schema模式文档**:基于对XML文档的理解,使用适当的元素、属性等定义一个Schema模式...
同时,文章也讨论了使用XML数据类型进行数据建模的模式,例如在同一个表中创建关系列和XML类型列,或者在有外键关系的独立表中创建XML类型列。 在实际应用中,存储XML数据时需根据数据的特性选择合适的方法。例如,...
5. XML Schema:深入学习XML Schema,它是XML文档结构的规范,提供了比DTD更强大的类型系统和数据验证能力。掌握定义复杂类型的技巧,以及使用约束和默认值。 6. DOM和SAX解析器:理解这两种XML解析方式的区别,DOM...
7. **模式(Schema)**:XML Schema文档,定义了一个XML文档的结构和数据类型。 了解并熟练掌握XML DTD和XML Schema对于编写和解析符合规范的XML文档至关重要。在实际开发中,根据项目需求和团队习惯选择合适的约束...
在IT领域,XML(eXtensible Markup Language)是一种用于标记数据的标准格式,它具有自我描述性和灵活性,广泛应用于数据交换、配置文件以及文档存储等场景。libxml2是Linux基金会的一个项目,提供了一个功能丰富的...
它不仅提供了强大的功能来规范XML文档,还允许开发者通过一系列复杂的规则来描述文档的数据类型、元素结构等内容,确保XML文档的一致性和准确性。 - **XML Schema的重要性**: - **数据一致性**:通过XML Schema,...
XML架构定义语言(XML Schema Definition,简称XSD)为XML文档提供了一种类型系统,用于定义XML文档中的元素、属性和其他组成部分的数据类型。这有助于确保XML文档的一致性和准确性。 #### 二、XML架构的重要性 ...
10. XML技术架构:XML的技术架构包括了XML本身、一套用于定义数据内容和结构的模式语言,比如DTD(文档类型定义)或XML Schema,以及用于描述数据之间关系的XLink和XPointer等标准。 通过上述知识点的学习,我们...