五、DOM 初步
DOM 是 document Object Model 的缩写,即文档对象模型。前面说过,XML 将数据组织为一颗树,所以DOM 就是对这颗树的一个对象描叙。通俗的说,就是通过解析 XML 文档,为 XML 文档在逻辑上建立一个树模型,树的节点是一个个对象。我们通过存取这些对象就能够存取 XML 文档的内容。
下面我们来看一个简单的例子,看看在 DOM 中,我们是如何来操作一个 XML 文档的。
这是一个XML文档,也是我们要操作的对象:
Good-bye serialization, hello Java!
下面,我们需要把这个文档的内容解析到一个个的 Java 对象中去供程序使用,利用 JAXP,我们只需几行代码就能做到这一点。首先,我们需要建立一个解析器工厂,以利用这个工厂来获得一个具体的解析器对象:
documentBuilderFactory dbf = documentBuilderFactory.newInstance();
我们在这里使用 documentBuilderFacotry 的目的是为了创建与具体解析器无关的程序,当documentBuilderFactory 类的静态方法 newInstance() 被调用时,它根据一个系统变量来决定具体使用哪一个解析器。又因为所有的解析器都服从于 JAXP 所定义的接口,所以无论具体使用哪一个解析器,代码都是一样的。所以当在不同的解析器之间进行切换时,只需要更改系统变量的值,而不用更改任何代码。这就是工厂所带来的好处。这个工厂模式的具体实现,可以参看下面的类图。
documentBuilder db = dbf.newdocumentBuilder();
当获得一个工厂对象后,使用它的静态方法 newdocumentBuilder() 方法可以获得一个 documentBuilder 对象,这个对象代表了具体的 DOM 解析器。但具体是哪一种解析器,微软的或者 IBM 的,对于程序而言并不重要。
然后,我们就可以利用这个解析器来对 XML 文档进行解析了:
document doc = db.parse("c:/xml/message.xml");
documentBuilder 的 parse() 方法接受一个 XML 文档名作为输入参数,返回一个 document 对象,这个document 对象就代表了一个XML文档的树模型。以后所有的对 XML 文档的操作,都与解析器无关,直接在这个document 对象上进行操作就可以了。而具体对 document 操作的方法,就是由 DOM 所定义的了。
Jaxp 支持 W3C 所推荐的 DOM 2。如果你对 DOM 很熟悉,那么下面的内容就很简单了:只需要按照 DOM 的规范来进行方法调用就可以。当然,如果你对 DOM 不清楚,也不用着急,后面我们会有详细的介绍。在这儿,你所要知道并牢记的是:DOM 是用来描叙 XML 文档中的数据的模型,引入 DOM 的全部原因就是为了用这个模型来操作 XML 文档的中的数据。DOM 规范中定义有节点(即对象)、属性和方法,我们通过这些节点的存取来存取XML的数据。
从上面得到的 document对象开始,我们就可以开始我们的DOM之旅了。使用document对象的getElementsByTagName()方法,我们可以得到一个NodeList对象,一个Node对象代表了一个XML文档中的一个标签元素,而NodeList对象,观其名而知其意,所代表的是一个 Node对象的列表:
NodeList nl = doc.getElementsByTagName("message");
我们通过这样一条语句所得到的是 XML 文档中所有标签对应的 Node 对象的一个列表。然后,我们可以使用 NodeList 对象的 item() 方法来得到列表中的每一个 Node 对象:
Node my_node = nl.item(0);
当一个 Node 对象被建立之后,保存在 XML 文档中的数据就被提取出来并封装在这个 Node 中了。在这个例子中,要提取 Message 标签内的内容,我们通常会使用 Node 对象的 getNodevalue() 方法:
String message = my_node.getFirstChild().getNodevalue();
请注意,这里还使用了一个 getFirstChild() 方法来获得 message 下面的第一个子 Node 对象。虽然在message 标签下面除了文本外并没有其它子标签或者属性,但是我们坚持在这里使用 getFirseChild() 方法,这主要和 W3C 对 DOM 的定义有关。W3C 把标签内的文本部分也定义成一个 Node,所以先要得到代表文本的那个 Node,我们才能够使用 getNodevalue() 来获取文本的内容。
现在,既然我们已经能够从 XML 文件中提取出数据了,我们就可以把这些数据用在合适的地方,来构筑应用程序。
下面的内容,我们将更多的关注 DOM,为 DOM 作一个较为详细的解析,使我们使用起来更为得心应手。
六、DOM 详解
6.1.基本的 DOM 对象
DOM 的基本对象有 5 个:document,Node,NodeList,Element 和 Attr。下面就这些对象的功能和实现的方法作一个大致的介绍。
document 对象代表了整个 XML 的文档,所有其它的 Node,都以一定的顺序包含在 document 对象之内,排列成一个树形的结构,程序员可以通过遍历这颗树来得到 XML 文档的所有的内容,这也是对 XML 文档操作的起点。我们总是先通过解析 XML 源文件而得到一个 document 对象,然后再来执行后续的操作。此外,document 还包含了创建其它节点的方法,比如 createAttribut() 用来创建一个 Attr 对象。它所包含的主要的方法有:
createAttribute(String):用给定的属性名创建一个 Attr 对象,并可在其后使用 setAttributeNode 方法来放置在某一个 Element 对象上面。
createElement(String):用给定的标签名创建一个 Element 对象,代表 XML 文档中的一个标签,然后就可以在这个 Element 对象上添加属性或进行其它的操作。
createTextNode(String):用给定的字符串创建一个 Text 对象,Text 对象代表了标签或者属性中所包含的纯文本字符串。如果在一个标签内没有其它的标签,那么标签内的文本所代表的 Text 对象是这个Element 对象的唯一子对象。
getElementsByTagName(String):返回一个 NodeList 对象,它包含了所有给定标签名字的标签。
getdocumentElement():返回一个代表这个 DOM 树的根节点的 Element 对象,也就是代表 XML 文档根元素的那个对象。
Node 对象是 DOM 结构中最为基本的对象,代表了文档树中的一个抽象的节点。在实际使用的时候,很少会真正的用到 Node 这个对象,而是用到诸如 Element、Attr、Text 等 Node 对象的子对象来操作文档。Node 对象为这些对象提供了一个抽象的、公共的根。虽然在Node对象中定义了对其子节点进行存取的方法,但是有一些 Node 子对象,比如 Text 对象,它并不存在子节点,这一点是要注意的。Node 对象所包含的主要的方法有:
appendChild(org.w3c.dom.Node):为这个节点添加一个子节点,并放在所有子节点的最后,如果这个子节点已经存在,则先把它删掉再添加进去。
getFirstChild():如果节点存在子节点,则返回第一个子节点,对等的,还有 getLastChild() 方法返回最后一个子节点。
getNextSibling():返回在 DOM 树中这个节点的下一个兄弟节点,对等的,还有 getPreviousSibling() 方法返回其前一个兄弟节点。
getNodeName():根据节点的类型返回节点的名称。
getNodeType():返回节点的类型。
getNodevalue():返回节点的值。
hasChildNodes():判断是不是存在有子节点。
hasAttributes():判断这个节点是否存在有属性。
getOwnerdocument():返回节点所处的 document 对象。
insertBefore(org.w3c.dom.Node new,org.w3c.dom.Node ref):在给定的一个子对象前再插入一个子对象。
removeChild(org.w3c.dom.Node):删除给定的子节点对象。
replaceChild(org.w3c.dom.Node new,org.w3c.dom.Node old):用一个新的 Node 对象代替给定的子节点对象。
NodeList 对象,顾名思义,就是代表了一个包含了一个或者多个 Node 的列表。可以简单的把它看成一个Node的数组,我们可以通过方法来获得列表中的元素:
GetLength():返回列表的长度。
Item(int):返回指定位置的 Node 对象。
Element 对象代表的是 XML 文档中的标签元素,继承于 Node,亦是 Node 的最主要的子对象。在标签中可以包含有属性,因而 Element 对象中有存取其属性的方法,而任何 Node 中定义的方法,也可以用在Element 对象上面。
getElementsByTagName(String):返回一个 NodeList 对象,它包含了在这个标签中其下的子孙节点中具有给定标签名字的标签。
getTagName():返回一个代表这个标签名字的字符串。
getAttribute (String):返回标签中给定属性名称的属性的值。在这儿需要主要的是,应为 XML 文档中允许有实体属性出现,而这个方法对这些实体属性并不适用。这时候需要用到 getAttributeNodes() 方法来得到一个 Attr 对象来进行进一步的操作。
getAttributeNode(String):返回一个代表给定属性名称的 Attr 对象。
Attr 对象代表了某个标签中的属性。Attr 继承于 Node,但是因为 Attr 实际上是包含在 Element 中的,它并不能被看作是Element的子对象,因而在 DOM 中 Attr 并不是 DOM 树的一部分,所以 Node 中的getparentNode(),getpreviousSibling() 和 getnextSibling()返回的都将是 null。也就是说,Attr 其实是被看作包含它的 Element 对象的一部分,它并不作为DOM树中单独的一个节点出现。这一点在使用的时候要同其它的 Node 子对象相区别。
需要说明的是,上面所说的 DOM 对象在 DOM 中都是用接口定义的,在定义的时候使用的是与具体语言无关的 IDL 语言来定义的。因而,DOM 其实可以在任何面向对象的语言中实现,只要它实现了 DOM 所定义的接口和功能就可以了。同时,有些方法在 DOM 中并没有定义,是用 IDL 的属性来表达的,当被映射到具体的语言时,这些属性被映射为相应的方法。
6.2.DOM 实例
有了上面的介绍,相信你对 DOM 理解的更多了吧。下面的例子将让你对DOM更加熟悉起来。
先说说这个例子到底要做的是什么吧,我们希望在一个名为 link.xml 文件中保存了一些 URL 地址,通过一个简单的程序,我们可以通过 DOM 把这些 URL 读出并显示出来,也可以反过来向这个 XML 文件中写入加入的 URL 地址。很简单,却很实用,也足够来例示DOM的绝大部分用法了。
XML 文件本身不复杂,就不给出它的 DTD 了。link.xml:
JSP Insider
http://www.jspinsider.com/ JSP Insider
2
1
2001
A JSP information site.
The makers of Java
http://java.sun.com/ Sun Microsystems
3
1
2001
Sun Microsystem's website.
The standard JSP container
http://jakarta.apache.org/ Apache Group
4
1
2001
Some great software.
第一个程序我们称为 xmldisplay.java,具体的程序清单可以在附件中找到。主要的功能就是读取这个XML文件中各个节点的内容,然后在格式化输出在 System.out 上,我们来看看这个程序:
import javax.xml.parsers.*;
import org.w3c.dom.*;
这是引入必要的类,因为在这里使用的是Sun所提供的XML解析器,因而需要引入 java.xml.parsers 包,其中包含了有 DOM 解析器和 SAX 解析器的具体实现。org.w3c.dom 包中定义了 w3c 所制定的 DOM 接口。
documentBuilderFactory factory = documentBuilderFactory.newInstance();
documentBuilder builder=factory.newdocumentBuilder();
document doc=builder.parse("links.xml");
doc.normalize();
除了上面讲到的,还有一个小技巧,对 document 对象调用 normalize(),可以去掉XML文档中作为格式化内容的空白而映射在 DOM 树中的不必要的 Text Node 对象。否则你得到的 DOM 树可能并不如你所想象的那样。特别是在输出的时候,这个 normalize() 更为有用。
NodeList links =doc.getElementsByTagName("link");
刚才说过,XML 文档中的空白符也会被作为对象映射在 DOM 树中。因而,直接调用 Node 方法的getChildNodes 方法有时候会有些问题,有时不能够返回所期望的 NodeList 对象。解决的办法是使用 Element 的 getElementByTagName(String),返回的 NodeLise 就是所期待的对象了。然后,可以用 item() 方法提取想要的元素。
for (int i=0;i
Element link=(Element) links.item(i);
System.out.print("Content: ");
System.out.println(link.getElementsByTagName("text").item(0).getFirstChild().getNodevalue());
System.out.print("URL: ");
System.out.println(link.getElementsByTagName("url").item(0).getFirstChild().getNodevalue());
System.out.print("Author: ");
System.out.println(link.getElementsByTagName("author").
item(0).getFirstChild().getNodevalue());
System.out.print("Date: ");
Element linkdate=(Element) link.getElementsByTagName("date").item(0);
String day=linkdate.getElementsByTagName("day").item(0).getFirstChild().getNodevalue();
String month=linkdate.getElementsByTagName("month").item(0).getFirstChild().getNodevalue();
String year=linkdate.getElementsByTagName("year").item(0).getFirstChild().getNodevalue();
System.out.println(day+"-"+month+"-"+year);
System.out.print("Description: ");
System.out.println(link.getElementsByTagName("description").
item(0).getFirstChild().getNodevalue());
System.out.println();
}
上面的代码片断就完成了对 XML 文档内容的格式化输出。只要注意到一些细节的问题,比如getFirstChile() 方法和 getElementsByTagName() 方法的使用,这些还是比较容易的。
下面的内容,就是在修改了 DOM 树后重新写入到 XML 文档中去的问题了。这个程序名为 xmlwrite.java。在 JAXP1.0 版本中,并没有直接的类和方法能够处理 XML 文档的写入问题,需要借助其它包中的一些辅助类。而在 JAXP1.1 版本中,引入了对 XSLT 的支持,所谓 XSLT,就是对 XML 文档进行变换(Translation)后,得到一个新的文档结构。利用这个新加入的功能,我们就能够很方便的把新生成或者修改后的 DOM 树从新写回到 XML 文件中去了,下面我们来看看代码的实现,这段代码的主要功能是向 links.xml 文件中加入一个新的 link 节点:
import javax.xml.parsers.*;
import javax.xml.transform.*;
import javax.xml.transform.dom.DOMSource;
import javax.xml.transform.stream.StreamResult;
import org.w3c.dom.*;
新引入的 java.xml.transform 包中的几个类,就是用来处理 XSLT 变换的。
我们希望在上面的 XML 文件中加入一个新的 link 节点,因而首先还是要读入 links.xml 文件,构建一个 DOM 树,然后再对这个 DOM 树进行修改(添加节点),最后把修改后的 DOM 写回到 links.xml 文件中:
documentBuilderFactory factory = documentBuilderFactory.newInstance();
documentBuilder builder=factory.newdocumentBuilder();
document doc=builder.parse("links.xml");
doc.normalize();
//---取得变量----
String text="Hanzhong's Homepage";
String url="
www.hzliu.com";
String author="Hzliu Liu";
String discription="A site from Hanzhong Liu, give u lots of suprise!!!";
为了看清重点,简化程序,我们把要加入的内容硬编码到记忆 String 对象中,而实际操作中,往往利用一个界面来提取用户输入,或者通过 JDBC 从数据库中提取想要的内容。
Text textseg;
Element link=doc.createElement("link");
首先应该明了的是,无论什么类型的 Node,Text 型的也好,Attr 型的也好,Element 型的也好,它们的创建都是通过 document 对象中的 createXXX() 方法来创建的(XXX 代表具体要创建的类型),因此,我们要向 XML 文档中添加一个 link 项目,首先要创建一个 link 对象:
Element linktext=doc.createElement("text");
textseg=doc.createTextNode(text);
linktext.appendChild(textseg);
link.appendChild(linktext);
Element linkurl=doc.createElement("url");
textseg=doc.createTextNode(url);
linkurl.appendChild(textseg);
link.appendChild(linkurl);
Element linkauthor=doc.createElement("author");
textseg=doc.createTextNode(author);
linkauthor.appendChild(textseg);
link.appendChild(linkauthor);
java.util.Calendar rightNow = java.util.Calendar.getInstance();
String day=Integer.toString(rightNow.get(java.util.Calendar.DAY_OF_MONTH));
String month=Integer.toString(rightNow.get(java.util.Calendar.MONTH));
String year=Integer.toString(rightNow.get(java.util.Calendar.YEAR));
Element linkdate=doc.createElement("date");
Element linkdateday=doc.createElement("day");
textseg=doc.createTextNode(day);
linkdateday.appendChild(textseg);
Element linkdatemonth=doc.createElement("month");
textseg=doc.createTextNode(month);
linkdatemonth.appendChild(textseg);
Element linkdateyear=doc.createElement("year");
textseg=doc.createTextNode(year);
linkdateyear.appendChild(textseg);
linkdate.appendChild(linkdateday);
linkdate.appendChild(linkdatemonth);
linkdate.appendChild(linkdateyear);
link.appendChild(linkdate);
Element linkdiscription=doc.createElement("description");
textseg=doc.createTextNode(discription);
linkdiscription.appendChild(textseg);
link.appendChild(linkdiscription);
创建节点的过程可能有些千篇一律,但需要注意的地方是,对 Element 中所包含的 text(在 DOM 中,这些text 也是代表了一个 Node 的,因此也必须为它们创建相应的 node),不能直接用 Element 对象的setNodevalue() 方法来设置这些 text 的内容,而需要用创建的 Text 对象的 setNodevalue() 方法来设置文本,这样才能够把创建的 Element 和其文本内容添加到 DOM 树中。看看前面的代码,你会更好的理解这一点:
doc.getdocumentElement().appendChild(link);
最后,不要忘记把创建好的节点添加到 DOM 树中。document 类的 getdocumentElement() 方法,返回代表文档根节点的 Element 对象。在XML文档中,根节点一定是唯一的。
TransformerFactory tFactory =TransformerFactory.newInstance();
Transformer transformer = tFactory.newTransformer();
DOMSource source = new DOMSource(doc);
StreamResult result = new StreamResult(new java.io.File("links.xml"));
transformer.transform(source, result);
然后就是用 XSLT 把 DOM 树输出了。这里的 TransformerFactory 也同样应用了工厂模式,使得具体的代码同具体的变换器无关。实现的方法和 documentBuilderFactory 相同,这儿就不赘述了。Transformer 类的 transfrom 方法接受两个参数、一个数据源 Source 和一个输出目标 Result。这里分别使用的是DOMSource 和 StreamResult,这样就能够把 DOM 的内容输出到一个输出流中,当这个输出流是一个文件的时候,DOM 的内容就被写入到文件中去了。
分享到:
相关推荐
本篇文档《JDOM使用详解及实例(解析xml).pdf》将对JDOM的使用方法进行详细介绍,并提供实例来指导用户如何解析XML。 首先,JDOM提供了一种基于对象的XML表示方式。与DOM(文档对象模型)不同,JDOM不需要将XML文档...
JDOM 是一个专门为Java设计的XML处理库,它结合了SAX和DOM的优点,提供了一种高效且易于使用的API来创建、解析和操作XML文档。JDOM的主要目标是简化XML处理,通过利用Java语言的强大特性,如方法重载、集合和映射,...
**三、主要JDOM类** 1. `org.jdom`: 包含各种XML元素,如`Attribute`、`Element`、`Comment`、`Document`等。 2. `org.jdom.transform`: 包含`JDOMSource`和`JDOMResult`,用于XSLT转换。 3. `org.jdom.input`: 提供...
### 三、JDOM核心类 1. **org.jdom.Element**: 表示XML文档的元素,是XML结构的基本构建块。 2. **org.jdom.Document**: 表示整个XML文档,包含根元素和其他元素、属性等。 3. **org.jdom.transform**: 提供JDOM与...
org.jdom.xpath 包含了对xml文档xpath操作的类三、JDOM 类说明 1、org.JDOM这个包里的类是你J解析xml文件后所要用到的所有数据类型。 Attribute CDATA Coment DocType Document Element EntityRef ...
**三、使用JDOM解析XML** 1. **创建XML文档**:通过`DocumentBuilder`创建一个新的`Document`实例,然后添加元素和属性。 ```java DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance(); ...
**三、实例应用** 以下是一个简单的示例,展示如何使用JDOM创建和写入XML: ```java import org.jdom2.Document; import org.jdom2.Element; import org.jdom2.output.Format; import org.jdom2.output....
**JDom详解** 1. **JDom简介** JDom是Java Document Object Model的简称,它是基于Java语言的一个XML处理库。相比于DOM(Document Object Model)API,JDom更专注于Java平台,提供了更加直观和高效的API设计,减少...
6.2.3 实例三:outputinfo 216 6.2.4 实例四:loginservlet 220 6.3 servlet异常 223 6.3.1 servletexception类 224 6.3.2 unavailableexception类 224 6.4 servlet生命周期 224 6.5 servlet上下文 226 6.5.1...
6.2.3 实例三:outputinfo 216 6.2.4 实例四:loginservlet 220 6.3 servlet异常 223 6.3.1 servletexception类 224 6.3.2 unavailableexception类 224 6.4 servlet生命周期 224 6.5 servlet上下文 226 6.5.1...
例如,可以使用`DocumentBuilderFactory`和`DocumentBuilder`创建一个`Document`实例,然后添加`Element`,再添加子元素和属性。 4. **解析XML文档**:JDOM提供了`SAXBuilder`类来解析XML文件,将其转换为JDOM对象...
**JDOM API中文详解** JDOM,全称Java Document Object Model,是一个专为Java设计的XML处理库。它提供了一种高效、灵活且方便的方式来创建、读取、修改和保存XML文档。JDOM API是Java程序员操作XML文档的核心工具...
### DOM、JDOM、DOM4J解析XML实例详解 #### DOM 方式解析 XML 实例解析 ##### 一、DOM 概述与应用实例 DOM(Document Object Model)是一种树状结构的标准,用于表示 XML 文档的数据结构。它将 XML 文档视为节点...
6.2.3 实例三:outputinfo 216 6.2.4 实例四:loginservlet 220 6.3 servlet异常 223 6.3.1 servletexception类 224 6.3.2 unavailableexception类 224 6.4 servlet生命周期 224 6.5 servlet上下文 226 6.5.1...
**JDOM SAXBuilder详解** JDOM,全称Java Document Object Model,是一个用于处理XML文档的Java库。它提供了一个纯Java的解决方案来创建、修改和读取XML文档,旨在提高性能和易用性。SAXBuilder是JDOM库中的一个...
### jdom4j解析XML实例详解 #### 生成XML文档 在示例代码中,`generateXML`方法用于创建一个XML文档。首先,通过`DocumentHelper.createDocument()`调用创建了一个空白的`Document`对象,这相当于创建了一个XML文件...
6.2.3 实例三:outputinfo 216 6.2.4 实例四:loginservlet 220 6.3 servlet异常 223 6.3.1 servletexception类 224 6.3.2 unavailableexception类 224 6.4 servlet生命周期 224 6.5 servlet上下文 226 6.5.1...
**JDOM解析模型详解** Java开发中,XML(Extensible Markup Language)作为一种数据交换和存储格式,被广泛应用在各种系统间的数据传输与配置文件中。为了处理XML文档,Java提供了多种解析器,其中之一就是JDOM。...
《JDOM与SAX解析XML文件详解》 在Java编程领域,处理XML文件是一项常见的任务。XML(eXtensible Markup Language)作为一种可扩展标记语言,广泛用于数据交换、配置存储以及文档结构化等场景。本文将深入探讨如何...
**JDOM 操作 XML 文档详解** XML (eXtensible Markup Language) 是一种用于标记数据的语言,广泛应用于数据交换、配置文件等场景。而 JDOM(Java Document Object Model)是一个专门为 Java 设计的 XML 处理库,它...