`
chinamming
  • 浏览: 151311 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

libxml2剖析(4):XML技术概览

 
阅读更多
本文整理自w3school上的内容http://www.w3school.com.cn/x.asp
1、XML简介
当 XML(扩展标记语言)于1998年2月被引入软件工业界时,它给整个行业带来了一场风暴。有史以来第一次,这个世界拥有了一种用来结构化文档和数据的通用且适应性强的格式,它不仅仅可以用于 WEB,而且可以被用于任何地方。XML被设计用来传输和存储数据。这与HTML不同,HTML被设计用来显示数据。
(1)什么是XML
* XML指可扩展标记语言(EXtensible Markup Language……
* XML是一种标记语言,很类似HTML。
* XML的设计宗旨是传输数据,而非显示数据。
* XML标签没有被预定义。您需要自行定义标签。
* XML被设计为具有自我描述性。
* XML是W3C的推荐标准。
(2)XML与HTML的主要差异
* XML不是HTML的替代。
* XML和HTML为不同的目的而设计:
* XML被设计为传输和存储数据,其焦点是数据的内容。
* HTML被设计用来显示数据,其焦点是数据的外观。
* HTML旨在显示信息,而XML旨在传输信息。
(3)没有任何行为的XML

XML是不作为的。也许这有点难以理解,但是XML不会做任何事情。XML被设计用来结构化、存储以及传输信息。下面是John写给George的便签,存储为XML:

  1. <note>
  2. <to>George</to>
  3. <from>John</from>
  4. <heading>Reminder</heading>
  5. <body>Don'tforgetthemeeting!</body>
  6. </note>
上面的这条便签具有自我描述性。它拥有标题以及留言,同时包含了发送者和接受者的信息。但是,这个XML文档仍然没有做任何事情。它仅仅是包装在XML标签中的纯粹的信息。我们需要编写软件或者程序,才能传送、接收和显示出这个文档。
(4)XML仅仅是纯文本
XML没什么特别的。它仅仅是纯文本而已。有能力处理纯文本的软件都可以处理XML。不过,能够读懂XML的应用程序可以有针对性地处理XML的标签。标签的功能性意义依赖于应用程序的特性。通过XML您可以发明自己的标签。上例中的标签没有在任何XML标准中定义过(比如<to>和<from>)。这些标签是由文档的创作者发明的。这是因为XML没有预定义的标签。在HTML中使用的标签(以及HTML的结构)是预定义的。HTML文档只使用在HTML标准中定义过的标签(比如 <p> 、<h1> 等等)。XML允许创作者定义自己的标签和自己的文档结构。
XML不是对HTML的替代。XML是对HTML的补充。XML不会替代HTML,理解这一点很重要。在大多数web应用程序中,XML用于传输数据,而HTML用于格式化并显示数据。
对XML最好的描述是:XML是独立于软件和硬件的信息传输工具。
(5)XML无所不在
当我们看到XML标准突飞猛进的开发进度,以及大批的软件开发商采用这个标准的日新月异的速度时,真的是不禁感叹这真是令人叹为观止。目前,XML在Web中起到的作用不会亚于一直作为Web基石的HTML。XML无所不在。XML是各种应用程序之间进行数据传输的最常用的工具,并且在信息存储和描述领域变得越来越流行。
2、XML的用途
XML用于简化数据的存储和共享。
(1)XML把数据从HTML分离
如果你需要在HTML文档中显示动态数据,那么每当数据改变时将花费大量的时间来编辑HTML。通过XML,数据能够存储在独立的XML文件中。这样你就可以专注于使用HTML 进行布局和显示,并确保修改底层数据不再需要对HTML进行任何的改变。
通过使用几行JavaScript,你就可以读取一个外部XML文件,然后更新HTML中的数据内容。
(2)XML简化数据共享
在真实的世界中,计算机系统和数据使用不兼容的格式来存储数据。XML数据以纯文本格式进行存储,因此提供了一种独立于软件和硬件的数据存储方法。这让创建不同应用程序可以共享的数据变得更加容易。
(3)XML简化数据传输
通过XML,可以在不兼容的系统之间轻松地交换数据。对开发人员来说,其中一项最费时的挑战一直是在因特网上的不兼容系统之间交换数据。由于可以通过各种不兼容的应用程序来读取数据,以XML交换数据降低了这种复杂性。
(4)XML简化平台的变更
升级到新的系统(硬件或软件平台),总是非常费时的。必须转换大量的数据,不兼容的数据经常会丢失。XML数据以文本格式存储。这使得XML在不损失数据的情况下,更容易扩展或升级到新的操作系统、新应用程序或新的浏览器。
(5)XML使您的数据更有用
由于XML独立于硬件、软件以及应用程序,XML使您的数据更可用,也更有用。不同的应用程序都能够访问您的数据,不仅仅在HTML页中,也可以从XML数据源中进行访问。通过XML,您的数据可供各种阅读设备使用(手持的计算机、语音设备、新闻阅读器等),还可以供盲人或其他残障人士使用。
(6)XML用于创建新的Internet语言
很多新的Internet语言是通过XML创建的。其中的例子包括:
XHTML - 最新的HTML版本
WSDL - 用于描述可用的web service
WAP和WML - 用于手持设备的标记语言
RSS - 用于RSS feed的语言
RDF和OWL - 用于描述资源和本体
SMIL - 用于描述针针对web的多媒体
当今,XML是非常重要的技术,并且开发项目正在使用这些基于XML的技术:
* 用XML Schema定义XML的结构和数据类型
* 用XSLT来转换XML数据
* 用SOAP来交换应用程序之间的XML数据
* 用WSDL来描述网络服务
* 用RDF来描述网络资源
* 用XPath和XQuery来访问XML数据
* 用SMIL来定义图形
(7)假如开发人员都是理性的
假如他们都是理性的,就让未来的应用程序使用XML来交换数据吧。未来也许会出现某种字处理软件、电子表格程序以及数据库,它们可以使用纯文本格式读取彼此的数据,而不需要使用任何的转换程序。
3、XML树结构
XML文档形成了一种树结构,它从“根部”开始,然后扩展到“枝叶”。XML使用简单的具有自我描述性的语法。下面是一个XML文档实例:
  1. <?xmlversion="1.0"encoding="ISO-8859-1"?>
  2. <note>
  3. <to>George</to>
  4. <from>John</from>
  5. <heading>Reminder</heading>
  6. <body>Don'tforgetthemeeting!</body>
  7. </note>
第一行是XML声明。它定义XML的版本(1.0)和所使用的编码(ISO-8859-1 = Latin-1/西欧字符集)。下一行描述文档的根元素(像在说:“本文档是一个便签”)。接下来4行描述根的4个子元素(to, from, heading 以及 body)。最后一行定义根元素的结构。从本例可以设想,该XML文档包含了John给George的一张便签。
XML文档必须包含根元素。该元素是所有其他元素的父元素。XML文档中的元素形成了一棵文档树。这棵树从根部开始,并扩展到树的最底端。所有元素均可拥有子元素,所有元素均可拥有文本内容和属性(类似HTML中)。
下面的XML表示一个书店的数据:
  1. <bookstore>
  2. <bookcategory="COOKING">
  3. <titlelang="en">EverydayItalian</title>
  4. <author>GiadaDeLaurentiis</author>
  5. <year>2005</year>
  6. <price>30.00</price>
  7. </book>
  8. <bookcategory="CHILDREN">
  9. <titlelang="en">HarryPotter</title>
  10. <author>JK.Rowling</author>
  11. <year>2005</year>
  12. <price>29.99</price>
  13. </book>
  14. <bookcategory="WEB">
  15. <titlelang="en">LearningXML</title>
  16. <author>ErikT.Ray</author>
  17. <year>2003</year>
  18. <price>39.95</price>
  19. </book>
  20. </bookstore>
例子中的根元素是<bookstore>。文档中的所有<book>元素都被包含在<bookstore>中。<book>元素有4个子元素<title>、<author>、<year>、<price>。
4、XML语法规则
XML的语法规则很简单,且很有逻辑。这些规则很容易学习,也很容易使用。
(1)所有XML元素都须有关闭标签。这不同于HTML。注意您也许已经注意到XML声明没有关闭标签,这不是错误。声明不属于XML本身的组成部分。它不是XML元素,也不需要关闭标签。
(2)XML标签对大小写敏感。
(3)XML必须正确地嵌套。
(4)XML文档必须有根元素。
(5)XML的属性值须加引号。双引号或单引号都可以。如果属性值内部有双引号作为数据一部分,则属性值要用单引号括起。例如:
  1. <notedate="08/08/2008">
  2. <to>George</to>
  3. <from>John</from>
  4. </note>
(6)实体引用(Entity Reference)。在XML中,一些字符拥有特殊的意义。如果你把字符 "<" 放在 XML 元素中,会发生错误,这是因为解析器会把它当作新元素的开始。
这样会产生XML错误:<message>if salary < 1000 then</message>
为了避免这个错误,请用实体引用来代替 "<" 字符:<message>if salary &lt; 1000 then</message>
在XML中,有5个预定义的实体引用:
&lt; < 小于
&gt; > 大于
&amp; & 和号
&apos; ' 单引号
&quot; " 引号
注意在XML中,严格来说只有字符 "<" 和 "&" 确实是非法的。大于号是合法的,但是用实体引用来代替它是一个好习惯。
(7)XML中的注释。在XML中编写注释的语法与HTML的语法很相似。如<!-- This is a comment -->
(8)XML中的空格会被保留。HTML 会把多个连续的空格字符裁减(合并)为一个,而在XML中,文档中的空格不会被删节。
(9)XML以LF存储换行。在Windows应用程序中,换行通常以一对字符来存储:回车符(CR)和换行符(LF)。这对字符与打字机设置新行的动作有相似之处。在Unix应用程序中,新行以LF字符存储。而Macintosh应用程序使用CR来存储新行。
5、XML命名规则
XML元素必须遵循以下命名规则:
* 名称可以含字母、数字以及其他的字符
* 名称不能以数字或者标点符号开始
* 名称不能以字符 “xml”(或者 XML、Xml)开始
* 名称不能包含空格
可使用任何名称,没有保留的字词。下面是一些最佳命名习惯。
使名称具有描述性。使用下划线的名称也很不错。名称应当比较简短,比如<book_title>,而不是<the_title_of_the_book>。
避免"-"字符。如果您按照这样的方式进行命名"first-name",一些软件会认为你需要提取第一个单词。
避免"."字符。如果您按照这样的方式进行命名"first.name",一些软件会认为"name"是对象"first" 的属性。
避免":"字符。冒号会被转换为命名空间来使用(稍后介绍)。
XML文档经常有一个对应的数据库,其中的字段会对应XML文档中的元素。有一个实用的经验,即使用数据库的名称规则来命名XML文档中的元素。非英语的字母比如éòá也是合法的XML 元素名,不过需要留意当软件开发商不支持这些字符时可能出现的问题。
6、XML元素是可扩展的
XML元素是可扩展,以携带更多的信息。请看下面这个XML例子:
  1. <note>
  2. <to>George</to>
  3. <from>John</from>
  4. <body>Don'tforgetthemeeting!</body>
  5. </note>
让我们设想一下,我们创建了一个应用程序,可将<to>、<from>以及<body>元素提取出来,并产生以下的输出:
  1. MESSAGE
  2. To:George
  3. From:John
  4. Don'tforgetthemeeting!
想象一下,之后这个XML文档作者又向这个文档添加了一些额外的信息:
  1. <note>
  2. <date>2008-08-08</date>
  3. <to>George</to>
  4. <from>John</from>
  5. <heading>Reminder</heading>
  6. <body>Don'tforgetthemeeting!</body>
  7. </note>
那么这个应用程序会中断或崩溃吗?不会。这个应用程序仍然可以找到XML文档中的<to>、<from>以及<body>元素,并产生同样的输出。XML的优势之一,就是可以经常在不中断应用程序的情况进行扩展。
7、尽量使用XML元素而不是属性
下面的三个XML文档包含完全相同的信息。
第一个例子中使用了date属性:
  1. <notedate="08/08/2008">
  2. <to>George</to>
  3. <from>John</from>
  4. <heading>Reminder</heading>
  5. <body>Don'tforgetthemeeting!</body>
  6. </note>
第二个例子中使用了date元素:
  1. <note>
  2. <date>08/08/2008</date>
  3. <to>George</to>
  4. <from>John</from>
  5. <heading>Reminder</heading>
  6. <body>Don'tforgetthemeeting!</body>
  7. </note>
第三个例子中使用了扩展的date元素(这是我的最爱):
  1. <note>
  2. <date>
  3. <day>08</day>
  4. <month>08</month>
  5. <year>2008</year>
  6. </date>
  7. <to>George</to>
  8. <from>John</from>
  9. <heading>Reminder</heading>
  10. <body>Don'tforgetthemeeting!</body>
  11. </note>
没有什么规矩可以告诉我们什么时候该使用属性,而什么时候该使用子元素。我的经验是在HTML中,属性用起来很便利,但是在XML中,您应该尽量避免使用属性。如果信息感觉起来很像数据,那么请使用子元素吧。
因为使用属性而引起的一些问题:
* 属性无法包含多重的值(元素可以)
* 属性无法描述树结构(元素可以)
* 属性不易扩展(为未来的变化)
* 属性难以阅读和维护
请尽量使用元素来描述数据,而仅仅使用属性来提供与数据无关的信息。
不要做这样的蠢事(这不是XML应该被使用的方式):
  1. <noteday="08"month="08"year="2008"
  2. to="George"from="John"heading="Reminder"
  3. body="Don'tforgetthemeeting!">
  4. </note>
8、针对元数据的XML属性
有时候会向元素分配ID引用。这些ID索引可用于标识XML元素,它起作用的方式与HTML中ID属性是一样的。这个例子向我们演示了这种情况:
  1. <messages>
  2. <noteid="501">
  3. <to>George</to>
  4. <from>John</from>
  5. <heading>Reminder</heading>
  6. <body>Don'tforgetthemeeting!</body>
  7. </note>
  8. <noteid="502">
  9. <to>John</to>
  10. <from>George</from>
  11. <heading>Re:Reminder</heading>
  12. <body>Iwillnot</body>
  13. </note>
  14. </messages>
上面的ID仅仅是一个标识符,用于标识不同的便签。它并不是便签数据的组成部分。
在此我们极力向您传递的理念是:元数据(有关数据的数据)应当存储为属性,而数据本身应当存储为元素。
9、XML验证

拥有正确语法的XML被称为“形式良好”的 XML。通过DTD(文档类型定义)验证的XML是“合法”的XML。下面是一个例子:
  1. <?xmlversion="1.0"encoding="ISO-8859-1"?>
  2. <!DOCTYPEnoteSYSTEM"Note.dtd">
  3. <note>
  4. <to>George</to>
  5. <from>John</from>
  6. <heading>Reminder</heading>
  7. <body>Don'tforgetthemeeting!</body>
  8. </note>
在上例中,DOCTYPE声明是对外部DTD文件的引用(内容参看下面介绍)。
DTD的作用是定义XML文档的结构。它使用一系列合法的元素来定义文档结构:
  1. <!DOCTYPEnote[
  2. <!ELEMENTnote(to,from,heading,body)>
  3. <!ELEMENTto(#PCDATA)>
  4. <!ELEMENTfrom(#PCDATA)>
  5. <!ELEMENTheading(#PCDATA)>
  6. <!ELEMENTbody(#PCDATA)>
  7. ]>
10、XML Schema
W3C支持一种基于XML的DTD代替者,它名为XML Schema:
  1. <xs:elementname="note">
  2. <xs:complexType>
  3. <xs:sequence>
  4. <xs:elementname="to"type="xs:string"/>
  5. <xs:elementname="from"type="xs:string"/>
  6. <xs:elementname="heading"type="xs:string"/>
  7. <xs:elementname="body"type="xs:string"/>
  8. </xs:sequence>
  9. </xs:complexType>
  10. </xs:element>
XML Schema描述XML文档的结构。XML Schema语言也称作XML Schema定义(XML Schema Definition,XSD)。XML Schema比DTD更加强大,但语法也更复杂。
11、使用CSS显示XML
使用CSS来格式化XML文档是有可能的。下面是一个表示CD目录的XML文档,这个例子就是关于如何使用CSS样式表来格式化XML文档。
下面是此XML文件的一个片断。第二行<?xml-stylesheet type="text/css" href="cd_catalog.css"?>把这个XML文件链接到CSS文件:
  1. <?xmlversion="1.0"encoding="ISO-8859-1"?>
  2. <?xml-stylesheettype="text/css"href="cd_catalog.css"?>
  3. <CATALOG>
  4. <CD>
  5. <TITLE>EmpireBurlesque</TITLE>
  6. <ARTIST>BobDylan</ARTIST>
  7. <COUNTRY>USA</COUNTRY>
  8. <COMPANY>Columbia</COMPANY>
  9. <PRICE>10.90</PRICE>
  10. <YEAR>1985</YEAR>
  11. </CD>
  12. <CD>
  13. <TITLE>Hideyourheart</TITLE>
  14. <ARTIST>BonnieTyler</ARTIST>
  15. <COUNTRY>UK</COUNTRY>
  16. <COMPANY>CBSRecords</COMPANY>
  17. <PRICE>9.90</PRICE>
  18. <YEAR>1988</YEAR>
  19. </CD>
  20. .
  21. .
  22. .
  23. .
  24. </CATALOG>
CSS文件cd_catalog.css的内容如下:
  1. CATALOG
  2. {
  3. background-color:#ffffff;
  4. width:100%;
  5. }
  6. CD
  7. {
  8. display:block;
  9. margin-bottom:30pt;
  10. margin-left:0;
  11. }
  12. TITLE
  13. {
  14. color:#FF0000;
  15. font-size:20pt;
  16. }
  17. ARTIST
  18. {
  19. color:#0000FF;
  20. font-size:20pt;
  21. }
  22. COUNTRY,PRICE,YEAR,COMPANY
  23. {
  24. display:block;
  25. color:#000000;
  26. margin-left:20pt;
  27. }
注意使用CSS格式化XML不是常用的方法,更不能代表XML文档样式化的未来。W3C推荐使用XSLT。
12、使用XSLT显示XML
XSLT是首选的XML样式表语言。XSLT(eXtensible Stylesheet Language Transformations)远比CSS更加完善。
使用XSLT的方法之一是在浏览器显示XML文件之前,先把它转换为HTML,下面是一个表示餐饮菜单的XML数据,它使用XSLT来显示。下面是此XML文件的一个片断。 第二行<?xml-stylesheet type="text/xsl" href="simple.xsl"?>把这个XML文件链接到XSL文件:
  1. <?xmlversion="1.0"encoding="ISO-8859-1"?>
  2. <?xml-stylesheettype="text/xsl"href="simple.xsl"?>
  3. <breakfast_menu>
  4. <food>
  5. <name>BelgianWaffles</name>
  6. <price>$5.95</price>
  7. <description>
  8. twoofourfamousBelgianWaffles
  9. </description>
  10. <calories>650</calories>
  11. </food>
  12. </breakfast_menu>
样式表simple.xsl的内容如下:
  1. <?xmlversion="1.0"encoding="ISO-8859-1"?>
  2. <!--EditedwithXMLSpyv2007(http://www.altova.com)-->
  3. <htmlxsl:version="1.0"xmlns:xsl="http://www.w3.org/1999/XSL/Transform"xmlns="http://www.w3.org/1999/xhtml">
  4. <bodystyle="font-family:Arial,helvetica,sans-serif;font-size:12pt;
  5. background-color:#EEEEEE">
  6. <xsl:for-eachselect="breakfast_menu/food">
  7. <divstyle="background-color:teal;color:white;padding:4px">
  8. <spanstyle="font-weight:bold;color:white">
  9. <xsl:value-ofselect="name"/></span>
  10. -<xsl:value-ofselect="price"/>
  11. </div>
  12. <divstyle="margin-left:20px;margin-bottom:1em;font-size:10pt">
  13. <xsl:value-ofselect="description"/>
  14. <spanstyle="font-style:italic">
  15. (<xsl:value-ofselect="calories"/>caloriesperserving)
  16. </span>
  17. </div>
  18. </xsl:for-each>
  19. </body>
  20. </html>
在这个例子中,XSLT转换是由浏览器完成的,浏览器读取的是XML文件。在使用XSLT来转换XML时,不同的浏览器可能会产生不同结果。为了减少这种问题,可以在服务器上进行XSLT转换(如PHP, JSP, ASP.NET服务器)。
13、XML命名空间(XML Namespaces)
XML命名空间提供避免元素命名冲突的方法。
在XML中,元素名称是由开发者定义的,当两个不同的文档使用相同的元素名时,就会发生命名冲突。
这个XML文档携带着某个表格中的信息:
  1. <table>
  2. <tr>
  3. <td>Apples</td>
  4. <td>Bananas</td>
  5. </tr>
  6. </table>
这个XML文档携带有关桌子的信息(一件家具):
  1. <table>
  2. <name>AfricanCoffeeTable</name>
  3. <width>80</width>
  4. <length>120</length>
  5. </table>
假如这两个XML文档被一起使用,由于两个文档都包含带有不同内容和定义的<table>元素,就会发生命名冲突。XML解析器无法确定如何处理这类冲突。
我们可以使用前缀来避免命名冲突。此文档带有某个表格中的信息:
  1. <h:table>
  2. <h:tr>
  3. <h:td>Apples</h:td>
  4. <h:td>Bananas</h:td>
  5. </h:tr>
  6. </h:table>
此XML文档携带着有关一件家具的信息:
  1. <f:table>
  2. <f:name>AfricanCoffeeTable</f:name>
  3. <f:width>80</f:width>
  4. <f:length>120</f:length>
  5. </f:table>
现在,命名冲突不存在了,这是由于两个文档都使用了不同的名称来命名它们的<table>元素(<h:table>和<f:table>)。通过使用前缀,我们创建了两种不同类型的<table>元素。这就是命名空间的思想。
下面使用命名空间(Namespaces)来定义XML文档。这个XML文档携带着某个表格中的信息:
  1. <h:tablexmlns:h="http://www.w3.org/TR/html4/">
  2. <h:tr>
  3. <h:td>Apples</h:td>
  4. <h:td>Bananas</h:td>
  5. </h:tr>
  6. </h:table>
此XML文档携带着有关一件家具的信息:
  1. <f:tablexmlns:f="http://www.w3school.com.cn/furniture">
  2. <f:name>AfricanCoffeeTable</f:name>
  3. <f:width>80</f:width>
  4. <f:length>120</f:length>
  5. </f:table>
与仅仅使用前缀不同,我们为<table>标签添加了一个xmlns属性,这样就为前缀赋予了一个与某个命名空间相关联的限定名称。
XML命名空间属性被放置于元素的开始标签之中,并使用以下的语法:
xmlns:namespace-prefix="namespaceURI"
当命名空间被定义在元素的开始标签中时,所有带有相同前缀的子元素都会与同一个命名空间相关联。
注意用于标示命名空间的地址不会被解析器用于查找信息。其惟一的作用是赋予命名空间一个惟一的名称。不过,很多公司常常会作为指针来使用命名空间指向实际存在的网页,这个网页包含关于命名空间的信息。
为元素定义默认的命名空间可以让我们省去在所有的子元素中使用前缀的工作。请使用下面的语法:
xmlns="namespaceURI"
这个XML文档携带着某个表格中的信息:
  1. <tablexmlns="http://www.w3.org/TR/html4/">
  2. <tr>
  3. <td>Apples</td>
  4. <td>Bananas</td>
  5. </tr>
  6. </table>
此XML文档携带着有关一件家具的信息:
  1. <tablexmlns="http://www.w3school.com.cn/furniture">
  2. <name>AfricanCoffeeTable</name>
  3. <width>80</width>
  4. <length>120</length>
  5. </table>
当开始使用XSL时,您不久就会看到实际使用中的命名空间。XSL样式表用于将XML文档转换为其他格式,比如HTML。
如果您仔细观察下面的这个XSL文档,就会看到大多数的标签是HTML标签。非HTML的标签都有前缀xsl,并由此命名空间标示"http://www.w3.org/1999/XSL/Transform":
  1. <?xmlversion="1.0"encoding="ISO-8859-1"?>
  2. <xsl:stylesheetversion="1.0"xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
  3. <xsl:templatematch="/">
  4. <html>
  5. <body>
  6. <h2>MyCDCollection</h2>
  7. <tableborder="1">
  8. <tr>
  9. <thalign="left">Title</th>
  10. <thalign="left">Artist</th>
  11. </tr>
  12. <xsl:for-eachselect="catalog/cd">
  13. <tr>
  14. <td><xsl:value-ofselect="title"/></td>
  15. <td><xsl:value-ofselect="artist"/></td>
  16. </tr>
  17. </xsl:for-each>
  18. </table>
  19. </body>
  20. </html>
  21. </xsl:template>
  22. </xsl:stylesheet>
14、XML CDATA
所有XML文档中的文本均会被解析器解析。只有CDATA区段(CDATA section)中的文本会被解析器忽略。
(1)PCDATA
PCDATA指的是被解析的字符数据(Parsed Character Data)。
XML解析器通常会解析XML文档中所有的文本。当某个XML元素被解析时,其标签之间的文本也会被解析:
<message>此文本也会被解析</message>
解析器之所以这么做是因为XML元素可包含其他元素,就像这个例子中,其中的<name>元素包含着另外的两个元素(first和last):
<name><first>Bill</first><last>Gates</last></name>
而解析器会把它分解为像这样的子元素:
  1. <name>
  2. <first>Bill</first>
  3. <last>Gates</last>
  4. </name>
(2)CDATA
术语CDATA指的是不应由XML解析器进行解析的文本数据(Unparsed Character Data)。
在XML元素中,"<"和"&"是非法的。"<"会产生错误,因为解析器会把该字符解释为新元素的开始。"&"也会产生错误,因为解析器会把该字符解释为字符实体的开始。某些文本,比如JavaScript代码,包含大量"<"或"&"字符。为了避免错误,可以将脚本代码定义为CDATA。CDATA部分中的所有内容都会被解析器忽略。
CDATA 部分由"<![CDATA["开始,由"]]>"结束:
[javascript] view plaincopyprint?
  1. <script>
  2. <![CDATA[
  3. functionmatchwo(a,b)
  4. {
  5. if(a<b&&a<0)then
  6. {
  7. return1;
  8. }
  9. else
  10. {
  11. return0;
  12. }
  13. }
  14. ]]>
  15. </script>
在上面的例子中,解析器会忽略CDATA部分中的所有内容。
注意CDATA部分不能包含字符串"]]>"。也不允许嵌套的CDATA部分。标记CDATA部分结尾的"]]>"不能包含空格或折行。
15、XML现实案例
(1)XML新闻
XMLNews是用于交换新闻和其他信息的规范。对新闻的供求双方来说,通过使用这种标准,可以使各种类型的新闻信息通过不同软硬件以及编程语言进行的制作、接收和存档更加容易。
一个XMLNews文档实例:
  1. <?xmlversion="1.0"encoding="ISO-8859-1"?>
  2. <nitf>
  3. <head>
  4. <title>ColombiaEarthquake</title>
  5. </head>
  6. <body>
  7. <headline>
  8. <hl1>143DeadinColombiaEarthquake</hl1>
  9. </headline>
  10. <byline>
  11. <bytag>ByJaredKotler,AssociatedPressWriter</bytag>
  12. </byline>
  13. <dateline>
  14. <location>Bogota,Colombia</location>
  15. <date>MondayJanuary2519997:28ET</date>
  16. </dateline>
  17. </body>
  18. </nitf>
(2)XML Weather Service
国家气象服务案例,来自NOAA(National Oceanic and Atmospheric Administration):
  1. <?xmlversion="1.0"encoding="ISO-8859-1"?>
  2. <current_observation>
  3. <credit>NOAA'sNationalWeatherService</credit>
  4. <credit_URL>http://weather.gov/</credit_URL>
  5. <image>
  6. <url>http://weather.gov/images/xml_logo.gif</url>
  7. <title>NOAA'sNationalWeatherService</title>
  8. <link>http://weather.gov</link>
  9. </image>
  10. <location>NewYork/JohnF.KennedyIntlAirport,NY</location>
  11. <station_id>KJFK</station_id>
  12. <latitude>40.66</latitude>
  13. <longitude>-73.78</longitude>
  14. <observation_time_rfc822>
  15. Mon,11Feb200806:51:00-0500EST
  16. </observation_time_rfc822>
  17. <weather>AFewClouds</weather>
  18. <temp_f>11</temp_f>
  19. <temp_c>-12</temp_c>
  20. <relative_humidity>36</relative_humidity>
  21. <wind_dir>West</wind_dir>
  22. <wind_degrees>280</wind_degrees>
  23. <wind_mph>18.4</wind_mph>
  24. <wind_gust_mph>29</wind_gust_mph>
  25. <pressure_mb>1023.6</pressure_mb>
  26. <pressure_in>30.23</pressure_in>
  27. <dewpoint_f>-11</dewpoint_f>
  28. <dewpoint_c>-24</dewpoint_c>
  29. <windchill_f>-7</windchill_f>
  30. <windchill_c>-22</windchill_c>
  31. <visibility_mi>10.00</visibility_mi>
  32. <icon_url_base>
  33. http://weather.gov/weather/images/fcicons/
  34. </icon_url_base>
  35. <icon_url_name>nfew.jpg</icon_url_name>
  36. <two_day_history_url>
  37. http://www.weather.gov/data/obhistory/KJFK.html
  38. </two_day_history_url>
  39. <disclaimer_url>
  40. http://weather.gov/disclaimer.html
  41. </disclaimer_url>
  42. <copyright_url>
  43. http://weather.gov/disclaimer.html
  44. </copyright_url>
  45. </current_observation>
16、XML标准概览
XML是一门庞大的技术,涉及大量不同的标准,而且还在不断增长。可参考IBM developerWorks上的XML技术专题,特别是XML标准概览系列(http://www.ibm.com/developerworks/cn/xml/x-stand4/index.html)。该系列把XML标准分成核心XML标准、XML处理标准、XML应用标准三大类。
(1)核心XML标准:XML 1.0/1.1, XML Catalogs, URI, XML Namespaces, Unicode, XML Base, XInclude, XML Infoset, Canonical XML("c14n"), XPath, XPointer, XLink, RRLAX NG, W3C XML Schema(WXS),
Schematron。
(2)XML处理标准:XSLT, Stylesheet Associations, SAX, DOM, XAPI, XUpdate, XQuery, SQL/XML, CSS, XForms, SOAP, XML-RPC, WSDL。
(3)XML应用标准:XHTML, Docbook, TEI, XSL-FO, SVG, VoiceXML, MathXML, SMIL, RDF, XML Topic Maps(XTM)。

更多 0
分享到:
评论

相关推荐

    libxml2-2.9.0+64位+lib

    - 数据交换:XML作为一种结构化数据格式,广泛应用于网络通信、配置文件等,libxml2是处理这些场景的重要工具。 - Web服务:在开发SOAP或RESTful Web服务时,libxml2可以帮助解析和生成XML消息。 - 数据存储:...

    libxml2-解析xml格式文件

    3. **命名空间处理**:XML命名空间用于区分具有相同标签但来自不同来源的元素,libxml2库提供了处理命名空间的API。 4. **内存管理和错误处理**:库包含了内存管理函数,如`xmlFree`,用于释放分配的内存。同时,...

    libxml2-2.9.14源码

    **libxml2库详解** Libxml2是XML处理的一个强大且高效的开源库,它由Gnome...通过学习和使用libxml2-2.9.14源码,开发者不仅可以掌握XML处理的基础知识,还能深入了解XML技术在实际项目中的应用,提升自己的编程技能。

    Ubuntu11.10 libxml2-dev

    libxml2_2.7.8.dfsg-4_i386.deb libxml2-dev_2.7.8.dfsg-4_i386.deb python-libxml2_2.7.8.dfsg-4_i386.deb zlib1g_1.2.3.4.dfsg-3ubuntu3_i386.deb zlib1g-dev_1.2.3.4.dfsg-3ubuntu3_i386.deb 此包还需要依赖...

    libxml2-2.9.1

    **libxml2-2.9.1:XML处理的核心库** Libxml2是XML处理的基石,它是一个功能强大、高效且广泛使用的C语言库。这个版本2.9.1代表了该库的一个稳定更新,提供了对XML文档的全面支持,包括解析、验证、编码、查询和...

    对libxml2封装的简单C++ xml操作类,libxml入门经典

    4. **解析XML**:解释如何使用libxml2解析XML文档,包括DOM(文档对象模型)和SAX(简单API for XML)两种方式,并可能提供示例代码。 5. **创建和修改XML**:介绍如何通过libxml2库创建新的XML文档,以及如何添加、...

    c++中使用libxml2读取xml文件

    ### C++中使用libxml2读取XML文件详解 #### 一、引言 随着XML(可扩展标记语言)在数据交换与存储领域的广泛应用,掌握如何有效地读取和解析XML文件成为了开发人员的一项必备技能。在C++环境中,libxml2库因其功能...

    windows下安装 libxml2 安装包 64位

    在Windows操作系统中,开发和运行某些程序,特别是涉及到XML处理的Ruby应用时,可能需要依赖于像libxml2这样的库。libxml2是用于解析、处理和操作XML文档的一个开源库,广泛应用于各种编程语言,包括Ruby。在这个...

    libxml2源码文件

    Libxml2是一款强大的XML解析库,主要由法国的Daniel Veillard开发,最初是为Gnome项目设计的,但它的跨平台性使其在各种操作系统和环境中都得到了广泛的应用,包括Linux、Windows以及Mac OS X等。作为C语言编写的库...

    libxml2-2.9.1-git

    《深入解析libxml2-2.9.1:XML处理的基石》 libxml2是全球最广泛使用的XML解析库之一,它为开发者提供了一系列强大的工具来处理XML文档。这个库由Gnome项目开发,其最新版本2.9.1在功能和性能上都有着显著的提升。...

    libxml2生成,解析,修改xml文件

    利用libxml2生成,解析,修改xml文件示例,安装libxml2库, sudo apt-get install libxml2-dev。使用libxml2库进行xml文件的操作,取出了平台差异化,便于在不同的平台都可以进行文件的操作,不受平台系统的限制,...

    libxml2test_xml_文本解析_capturedetv_

    总结起来,libxml2库为XML处理提供了强大的工具,无论是生成新的XML文档,还是解析和修改已有的XML文件,都提供了简洁且高效的API。在"libxml2test_xml_文本解析_capturedetv_"项目中,开发者通过实践掌握了这些技能...

    libxml2开源库 libxml2开源库 libxml2开源库

    libxml2是一个广泛使用的开源XML解析库,它由Gnome项目维护,并在GNU Lesser General Public License(LGPL)下发布。这个库的主要目标是提供高效、灵活且易于使用的XML处理功能,使得开发人员能够轻松地在各种应用...

    xml.tar.gz_libxml2_linux c xml_linux xml

    libxml2是 GNOME 项目开发的一个强大的开源XML处理库,它提供了多种功能,包括XML文档的解析、验证、序列化以及XPath、XInclude、XPointer和XML Schema支持。本教程将深入讲解如何利用libxml2库在C++环境中进行XML...

    C语言基于cjson库libxml2库的xmljson互转

    本程序是用C语言基于cjson库libxml2库编写的XML与JSON互转

    LIBXML2 X64位

    4. **XML编码转换**:libxml2库包含各种字符编码的转换函数,确保XML文档在不同编码环境中的兼容性。 5. **内存管理**:libxml2提供了一套完善的内存管理机制,自动处理内存分配和释放,防止内存泄漏。 6. **HTTP...

    perl-XML-LibXML-2.0132-2.el8.aarch64.rpm

    官方离线安装包,亲测可用

    perl-XML-LibXML-2.0132-2.el8.x86_64.rpm

    官方离线安装包,亲测可用。使用rpm -ivh [rpm完整包名] 进行安装

    Ubuntu下C语言使用libxml2库创建、解析xml文件

    为了在C语言环境中方便地操作XML文件,我们可以利用libxml2库,这是一个功能强大且高效的开源库,提供了XML的解析、创建、修改等功能。 libxml2库由GNOME项目开发,不仅支持XML,还支持HTML、XHTML、SVG等多种格式...

    libxml2-2.9.3.tar.gz

    《libxml2-2.9.3:XML解析与处理的核心库》 libxml2是开源社区中的一个著名项目,其2.9.3版本是一个重要的里程碑,它为开发者提供了强大的XML(eXtensible Markup Language)处理能力。XML作为一种标记语言,广泛...

Global site tag (gtag.js) - Google Analytics