sax与Dom区别

shellfj

浏览: 48538 次
性别:

最近访客更多访客>>

liufengfan666

必逍遥

woshimingzi

cwu8465

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

XML IBM 设计模式领域模型数据结构

SAX与DOM的比较

每一个进行XML开发的编程人员都知道DOM，那为什么在有了DOM这个功能强大的文档对象模型之后，我们还需要SAX？这就要从它们根本不同的实现方法上来分析。DOM解析器是通过将XML文档解析成树状模型并将其放入内存来完成解析工作的，而后对文档的操作都是在这个树状模型上完成的。这个在内存中的文档树将是文档实际大小的几倍。这样做的好处是结构清除、操作方便，而带来的麻烦就是极其耗费系统资源。而SAX正好克服了DOM的缺点。SAX解析器的处理过程是通读整个文档，根据文档内容产生事件，而把对这些事件的处理交由事件处理器处理。SAX不需要在内存中保存整个文档，它对系统资源的节省是显而易见的。这样在一些需要处理大型XML文档和性能要求比较高的场合就要用SAX了。

下面的表格列出了SAX和DOM在一些方面的对照：

SAX	DOM
顺序读入文档并产生相应事件，可以处理任何大小的XML文档	在内存中创建文档树，不适于处理大型XML文档。
只能对文档按顺序解析一遍，不支持对文档的随意访问。	可以随意访问文档树的任何部分，没有次数限制。
只能读取XML文档内容，而不能修改	可以随意修改文档树，从而修改XML文档。
开发上比较复杂，需要自己来实现事件处理器。	易于理解，易于开发。
对开发人员而言更灵活，可以用SAX创建自己的XML对象模型。	已经在DOM基础之上创建好了文档树。

通过对SAX和DOM的分析，它们各有自己的不同应用领域：

    SAX适于处理下面的问题：
    对大型文档进行处理。
    只需要文档的部分内容，或者只需要从文档中得到特定信息。
    想创建自己的对象模型的时候。

DOM适于处理下面的问题：

    需要对文档进行修改
    需要随机对文档进行访问，例如XSLT解析器。

一些值得注意的问题

首先是有关元素内容的问题，在SAX API定义中元素内容可以在一次事件（由characters()方法处理）中返回，也可以在多次事件中返回，这样我们就应该考虑不能一次得到所有内容数据的情况。一般的解决办法是定义一个StringBuffer由它来保存内容数据，在元素结束或者新元素开始的时候清空这个StringBuffer从而可以保存新的内容数据。请参考上面的相应的源代码。

还有在SAX API中特意提到从 characters(char[] ch,int start,int length)方法中提取数据时一定不要从返回的字符数组范围之外读取，这一点我们也要切记。

另一个值得注意的问题是，在 startElement()方法中返回的Attributes属性列表中的属性顺序并没有被特意规定，在不同的SAX实现中也各不相同。所以我们在编写程序时不要把属性顺序想成一定的。

使用过滤器

在SAX API中还提供了一个过滤器接口org.xml.sax.XMLFilter，以及对它的缺省实现org.xml.sax.helper.XMLFilterImpl。使用它们可以很容易的开发出复杂的SAX应用。这里要先介绍一下过滤器设计模式。这个设计模式很好理解，就像一个净化水的过程。自然界中的水流过一个个的过滤器得到最后的饮用水。这些过滤器，有的是清除水中的泥沙，有的是杀灭水中的细菌，总之不同的过滤器完成不同的任务。在应用开发中，我们让被改造的对象（这里是事件流）通过这些过滤器对象从而得到改造后符合要求的对象。这样，在过滤器的帮助之下，我们可以非常方便的在每个过滤器中实现一个特定功能，从而创建结构复杂的应用程序。在应用程序中你可以构造任意多个过滤器，将它们串接起来完成任务。

在SAX API中org.xml.sax.XMLFilter接口继承了org.xml.sax.XMLReader接口。它与XMLReader不同的是它不像XMLReader那样通过解析文档来获取事件，而是从其他XMLReader中获取事件，当然这也包括从其他的XMLFilter中获取事件。

XmlFilter是一个非常好用的方法，以后在工作中尽量使用。下面是我实现的例子：

package test.corejava.xml;

import java.io.IOException;

import javax.xml.parsers.ParserConfigurationException;

import org.xml.sax.InputSource;
import org.xml.sax.SAXException;
import org.xml.sax.XMLFilter;
import org.xml.sax.XMLReader;
import org.xml.sax.helpers.DefaultHandler;
import org.xml.sax.helpers.XMLReaderFactory;

public class MySAXApp {

	public static void main(String[] args) throws ParserConfigurationException {

		try {
			// 初始化reader
			XMLReader reader = XMLReaderFactory
					.createXMLReader("org.apache.xerces.parsers.SAXParser");
			// 初始化过滤器
			XMLFilter myFilter = new MyFilter(reader);
			// 创建DefaultHandler的实例
//			DefaultHandler defaultHandler = new MyDefaultHandler();
			
			XMLFilter myFilter2 = new MyFilter2(myFilter);
			// 为过滤后的事件流设置ContentHandler
			myFilter2.setContentHandler(new DefaultHandler());
			// 为过滤后的事件流设置ErrorHandler
			myFilter2.setErrorHandler(new DefaultHandler());
			// 开始解析文档
			myFilter2.parse(new InputSource(MySAXApp.class
					.getResourceAsStream("book.xml")));
		} catch (IOException e) {
			System.out.println("读入文档时错: " + e.getMessage());
		} catch (SAXException e) {
			System.out.println("解析文档时错: " + e.getMessage());
		}
	}

}

可以利用Filter去取自己想要的元素！

原文出处：http://www.ibm.com/developerworks/cn/xml/x-saxhandle/
另外几个不错的Jaxp的基础知识介绍：
http://www.ibm.com/developerworks/cn/xml/x-jaxp/
http://www.ibm.com/developerworks/cn/xml/x-jaxp2/
http://www.w3school.com.cn/xpath/xpath_syntax.asp
http://hi.baidu.com/peiwenlin/blog/item/ac6baa509adaa16e8535241c.html
http://www.xml.com/pub/a/2005/07/06/jaxp.html

分享到：