`
hanyi366
  • 浏览: 290386 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

DOM和SAX解析器的比较和选择

    博客分类:
  • Xml
 
阅读更多

当解析一个XML时我们有很多选择方案,如SAX、DOM、JDOM、JAXP、数据绑定等等,必须根据实际情况来选择一个或几个。在此仅谈论SAX和DOM,可以从以上四点考虑,选择合适的解析器。

1. SAX提供的模型不允许对XML文件随机存取
如:当前解析到第3个Element,此时程序无法得到第5个Element的信息,因为还没有解析到第5个Element;同样也无法得到第1个 Element的信息,因为已经丢失了。当然可以通过声明变量保存解析过的数据,但这如同手动在内存中构造了某种数据结构,一般都是树型结构,这相当麻烦且没有必要,因为DOM恰恰提供了这样一个内存中的模型。

2.SAX模型中元素之间的横向移动困难
SAX提供的是层次型的解析,便利所有第1个Element的子节点(一直到叶子节点)后,才可能开始解析下一个兄弟Element。而且很难知道某一时刻,解析到了哪个层次节点了。DOM则可以很好的解决这个问题,可以方便的找到任何兄弟节点。

3.SAX是熊瞎子劈苞米
SAX是解析一个节点后回调一个方法,把该节点相关信息传送个调用者,然后丢弃这些信息,继续解析下一个节点。正是这样一个机制,使得SAX占用内存很少,它不会预存储整个XML文档,也不会在解析后保存任何解析结果。而DOM则正好相反,把整个XML加载进内存中,即使是延迟加载策略,也会浪费额外的性能为代价。所以当XML非常庞大的时候,还是需要首选SAX。

4.SAX的修改XML能力差
尽管SAX2.0提供了XMLWriter,但是大量的修改XML,还是不建议采用它来完成。XMLWriter更适合记录解析过程的日志。而DOM则具有强大的修改模型的能力,进而保存更新后的XML。

下面分别详细介绍DOM和SAX:

XML的DOM解析器
DOM(Document Object Model)是W3C指定的,它不是专门为Java或其他语言而制定的,所以有些地方不大符合Java的风格,如使用NodeList和NameNodeMap而没有使用Java的集合框架类。
DOM把XML在内存中生成一个树结构,了解其结构也就基本了解了DOM。基本结构的主要接口为:
Node <- Document
<- DocumentType
<- Element
<- Entity
<- CharacterData <- Comment
<- Text <- CDATA
所有接口都是扩展Node的,也就是说树中的任何东西都是Node,所以Node是很重要的接口。通过Node的getNodeType()和getNodeValue()分别可以得到节点的类型和节点的值。

节点类型有:
Node.DOCUMENT_NODE
Node.ELEMENT_NODE
Node.TEXT_NODE
Node.CDATA_SECTION_NODE
Node.PROCESSING_INSTRUCTION_NODE
Node.ENTITY_REFERENCE_NODE
Node.DOCUMENT_TYPE_NODE
可以通过以下方式判断
switch(node.getNodeType()){
case Node.Document_NODE:
//...
case Node.ELEMENT_NODE:
//...
}

开始解析:
URI xmlUri=new URI("xml file address");
DOMParser parser = new DOMParser();
parser.parse(xmlUri);
Document doc = parser.getDocument();
不同的解析器的构造方式不同,有的解析器会直接返回Document对象,如下:
Document doc = parser.parse(xmlUri);
Element rootElement = doc.getDocumentElement();
NodeList childrenNodes=rootElement.getChildNodes();
依次类推就可以遍历所有节点,分别处理每个节点即可。值得注意的是文本也是一个节点Text,但是属性则不是一个节点,可以通过Elemenet.getAttributes()获得。其他的也没什么了,参考一下DOM的JavaDoc就OK了。

------值得注意的细节------
1.性能与内存
DOM解析器会把所有的XML文档全部加载到内存中,如果XML文件非常庞大,那么这样的解析器会耗尽内存,导致内存益处异常;当前,很多解析器已经采用了延迟加载设计模式(类似于Hibernate的lazy策略),即只有当具体用刀某个节点数据的时候再去加载该节点,不用的就不加载,这种策略节省了内存的浪费,但是对性能有一定影响。这是有得必有失,需要根据实际情况而定采用什么策略。

2.Node的属性
因为所有节点都是继承Node的,所以任何节点都可以调用getNodeType(),getNodeValue(),getNodeName()之类的方法,但是并不是这些方法对任何节点都有效,比如说对于Element来说,getNodeValue()就无效,因为Element下的文本是Text 类表示的,而不是一个String。

3.SAXException
当使用DOM解析器时,如果出现了SAXException,不用惊讶。

XML的SAX解析器
SAX解析器是通过回调的方式来执行XML的解析工作的。对于基本的解析操作还是比较简单的,就是实现SAX2.0定义的四个核心接口,并注册进解析器即可。具体的操作都在四个接口中的回调方法中。所谓回调,我理解它与.Net中的事件类似。

这四个核心接口是为:
org.xml.sax.ContentHander
org.xml.sax.ErrorHandler
org.xml.sax.DTDHandler
org.xml.sax.EntityResolver
对应的注册进解析器的方法分别是
parser.setContentHandler(ContentHander handler)
parser.setErrorHandler(ErrorHandler handler)
parser.setDTDHandler(DTDHandler handler)
parser.setEntityResolver(EntityResolver handler)

分别看一下这几个核心接口中的回调方法:
1. ContentHandler
//除setDocumentLocator()外,其他回调方法均抛出SAXException。
public interface ContentHandler{
/*Locator中有用方法如getLineNumber(),getColumnNumber()等,所以可以考虑把locator作为ContentHandler实现类的实例变量,然后传播到其他回调方法。*/
public void setDocumentLocator(Locator locator);
/*startDocument()是开始解析后第一个被调用的方法,endDocument()是最后一个。回调方法没有参数可以使用。*/
public void startDocument();
public void endDocument();
/*当解析器到达前缀影射的开头和结尾时,分别回调这两个方法。如ora:copyright,其中ora为前缀(prefix), 整个ora:copyright为URI*/
public void startPrefixMapping(String prefix, String uri);
public void endPrefexMapping(String prefix);
/*当解析器到达一个Element和结束时,分别回调这两个方法。关于参数:namespaceURI,localName,qName表示Element名字的各个部分,atts表示该Element的所有属性的引用。*/
public void startElement(String namespaceURI,
String localName, String qName, Attribute atts);
public void endElement(String namespaceURI, String localName, String qName);
/*对于<Book>XML Instroduction<Book>,当解析器解析完文本内容后,回调此方法。一般来说我们可以通过三个参数构造一个String对象来使用。如:
String text= new String(ch,start,length)*/
public void characters(char ch[], int start, int length);
/*忽略空白后回调此方法*/
public void ignorableWhitespace(char ch[],
int start, int length);
/*处理指令*/
public void processingInstruction(String target,String data);
/*一般不会用到,因为大部分解析器是不会跳过实体的。暂且不用管它*/
pubilc void skippedEntity(String name);
}

2. ErrorHandler
/*故名思义,解析过程中分别是出现警告,错误,致命错误时,回调这三个方法。SAXParserException中包含错误信息和行号。*/
public interface ErrorHandler{
public void warning(SAXParseException ex) throw SAXException;
public void error(SAXParseException ex) throw SAXException;
public void fatalError(SAXParseException ex) throw SAXException;
}

3. DTDHandler
基本用不上,不做详细讨论了。
public interface DTDHandler{
public void notationDecl(String name, String publicID,
String systemID) throw SAXException;
pulic void unparserdEntityDecl(String name, String publicID,
String systemID, String notationName)
throw SAXException
}

4. EntityResolver
用于解析实体的,只有一个回调方法。
public interface EntityResolver{
/*如果返回值是null,解析的执行过程就不会改变。否则将开始执行返回的被引用的内容XML。*/
public InputSource resolveEntity(String publicID,
String systemID) throw SAXException
}

解析编码例子:
String parserClass = "org.apache.xerces.parsers.SAXParser";
//如果采用的不是Xerces解析器,只需要更改“parserClass”的值即可。
XMLReader reader=XMLReaderFactory.createXMLReader(parserClass);
//注册ContentHandler
reader.setContentHander(new ContentHandlerImpl());
//注册ErrorHandler
reader.setErrorHandler(new ErrorHandlerImpl());
//注册DTDHandler

//注册EntityResolver

//开始解析XML
URI xmlURI = new URI("xml file address");
InputSource src = new InputSource(xmlURI);
reader.parser(src);

---------几个需要注意的地方---------
1.解析器不支持SAX2.0怎么办?
采用ParserAdapter辅助类来使SAX1.0解析器像SAX2.0那样工作,唯一缺憾就是不能报告那些被忽略的实体,对大多数应用来说这也不所谓。
String parserClass = "org.apache.xerces.parsers.SAXParser";
Parser parser=ParserFactory.makeParser(parserClass);
ParserAdpter myParser=new ParserAdpter(parser);
myParser.setContentHandler(new ContentHandlerImpl());
myParser.setErrorHandler(new ErrorHanlderImpl());
myParser.parser(xmlUri);

2.XMLReader不能同时解析多个XML
一旦XMLReader开始解析一个XML,在解析过程中如果试图再使用阅读器,就会得到SAXException,如果需要同时解析多个XML,只能顺序一个一个解析。或者声明多个XMLReader实例。

3.characters()中的注意
public void characters(char[] ch, int start, int length){
//容易出现Bug的使用方法
for(int i=0; i<ch.length; i++){
System.out.pringln(ch)
}
//不会出现问题的使用方法
String str= new String(ch,start,length);
}

分享到:
评论

相关推荐

    dom解析和sax解析

    例如,对于上述XML,SAX解析器会依次调用startElement、characters、endElement等方法来处理元素和文本。 SAX解析的主要优点是内存效率高和解析速度快,因为它不需要一次性加载整个文档。然而,SAX解析器不支持直接...

    XML的四种解析器(dom,sax,jdom,dom4j)原理及性能比较,超详细

    常见的 XML 解析器有 DOM、SAX、JDOM 和 DOM4J 等。每种解析器都有其特点和优缺,选择合适的解析器对应用程序的性能和开发效率有很大影响。 1. DOM 解析器 DOM(Document Object Model)是 W3C 官方标准,用于表示...

    DOM和SAX解析XML文档

    DOM解析器将整个XML文档加载到内存中,创建一个树形结构的文档对象模型,允许开发者通过节点层级遍历和操作XML数据。DOM解析的特点包括: 1. 完整性:DOM解析器一次性加载整个XML文档,因此可以随时访问任何部分的...

    dom4j下sax解析xml

    在提供的“analysis_xml”项目中,很可能包含了一个示例,演示了如何使用dom4j的SAX解析器解析XML文件。这样的测试项目有助于理解SAX解析的工作原理,并在实际开发中应用。 总结起来,dom4j库提供了DOM和SAX两种XML...

    jsp操作xml源码,解析器为DOM和SAX

    2. SAX解析器:SAX是一种事件驱动的解析方式,它不会将整个XML文档加载到内存,而是逐行读取并触发相应的事件处理器,如开始元素、结束元素等。这种方式节省了内存,适合处理大型XML文件,但操作起来相对复杂,不...

    JDK自带xml解析器dom+sax

    代码示例中没有给出完整的SAX解析器实现,但通常会包括`SAXParserFactory`创建`SAXParser`,然后使用`parse`方法解析XML文件,并传入自定义的`DefaultHandler`子类实例。 总结: DOM解析器适合对XML文档进行随机...

    DOM,SAX解析xml文件

    DOM,SAX程序.rar则包含了完成上述任务的源代码,可能包括DOM解析器和SAX解析器的实现,可以作为学习和参考的资源。 理解DOM和SAX解析是XML处理的关键,它们提供了处理XML数据的不同途径,开发者可以根据实际需求...

    dom和sax对xml的解析

    本篇文章将详细介绍DOM和SAX解析XML的方法,并通过提供的`DomDemo.java`和`SaxDemo.java`示例代码进行阐述。 1. DOM解析: DOM是一种将整个XML文档加载到内存中,构建一个树形结构的解析方式。这种方式允许开发者...

    dom+dom4J+SAX 解析

    SAX解析器在读取XML时,程序员需要注册事件处理器来响应这些事件。这种方式适用于处理大型XML文件,因为它占用的内存较小。但是,由于是基于事件的,处理复杂的XML结构可能较为困难,需要编写更多的代码。 在...

    Dom与Sax解析XML

    学习DOM和SAX解析XML,不仅可以提高你处理XML数据的能力,还能够帮助你更好地理解和利用XML在各种IT应用中的潜力,例如Web服务、配置文件管理、数据交换等。无论你是前端开发者、后端开发者还是系统管理员,掌握这两...

    XML文件c语言 dom和sax模式解析

    通过Xerces-C++,你可以创建解析器,解析XML文件,然后遍历和操作DOM树。例如,你可以找到特定的元素,获取其属性值,或者修改文档内容。 以下是一个简单的Xerces-C++ DOM解析示例: ```c #include &lt;xercesc/dom/...

    DOM和SAX比较和选择

    与DOM不同,SAX是一种基于事件驱动的解析器。它不需要将整个文档加载到内存中,而是逐行读取并解析XML文档,每当遇到特定的事件(如开始元素、结束元素等)时,就会触发相应的事件处理器(EventHandler)。这种方式...

    Dom4J与SAX解析实例

    - 当处理大型XML文件,或者只需要按顺序读取数据时,SAX解析器是更好的选择,因为它只占用少量内存。 通过实践这两个解析实例,开发者可以更好地理解它们的工作原理,根据项目需求选择合适的解析方式。在实际应用中...

    xml_DOM_SAX.rar_DOM_dom xml saxxml_java dom_sax

    在Java中,处理XML文件主要有两种解析器:DOM(Document Object Model)和SAX(Simple API for XML)。这两种解析方式各有特点,适用于不同的场景。 1. DOM解析: DOM解析器将整个XML文档加载到内存中,构建一个树...

    Java解析XML文件的DOM和SAX方式.doc

    Java 中使用 DOM 和 SAX 方式的选择 在 Java 中,选择使用 DOM 或 SAX 方式解析 XML 文件取决于具体的情况。如果需要随机访问 XML 文档的任何部分,或者需要修改 XML 文档的内容,应该选择使用 DOM 方式。如果需要...

    XML解析实践之DOM解析和SAX解析.rar

    1. 选择解析器:Java中,有如DOM4J、JAXB、Apache Xerces等库支持DOM解析;SAX解析则可以使用Java内置的SAXParserFactory。Python中,有ElementTree库支持DOM和SAX解析。 2. 错误处理:在解析过程中,要捕获并处理...

    XML_DOM_SAX.rar_ XML_DOM_SAX_c# sax_dom解析xml_xml parser csharp_x

    在这个"XML_DOM_SAX.rar"压缩包中,包含了可能的C#代码示例,用于演示如何使用DOM和SAX解析XML。`www.pudn.com.txt`可能是包含相关资源链接的文本文件,而`XML_DOM&SAX`可能是包含C#代码的文件,可以解压后查看具体...

    DOM和SAX概念的总结

    JDOM是一个尝试结合DOM和SAX优点的库,它使用SAX解析器来实现DOM的部分功能,以满足大部分常见需求,同时减少资源消耗。而Java API for XML Parsing (JAXP)提供了一个统一的接口,可以处理DOM和SAX解析,使得在不同...

    java解析xml数据---sax解析器

    2. 实例化SAX解析器,通常通过SAXParserFactory类的newInstance()方法获取,然后调用其newSAXParser()方法创建SAXParser对象。 3. 调用SAXParser对象的parse()方法,传入XML文件的输入流和之前创建的事件处理器对象...

Global site tag (gtag.js) - Google Analytics