`
zhanglfat
  • 浏览: 91438 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

<转>Java解析xml的主要解析器: SAX和DOM的选择(附上新方法--Pull解析)

阅读更多
http://android.blog.51cto.com/268543/393309
Java的xml解析器库有很多,总的来说,万变不离其宗的就是SAX和DOM解析器。
SAX的包是org.xml.sax
DOM的包是org.w3c.dom

1) DOM
     DOM 是用与平台和语言无关的方式表示 XML 文档的官方 W3C 标准。DOM 是以层次结构组织的节点或信息片断的集合。这个层次结构允许开发人员在树中寻找特定信息。分析该结构通常需要加载整个文档和构造层次结构,然后才能做任何工作。由于它是基于信息层次的,因而 DOM 被认为是基于树或基于对象的。DOM 以及广义的基于树的处理具有几个优点。首先,由于树在内存中是持久的,因此可以修改它以便应用程序能对数据和结构作出更改。它还可以在任何时候在树中上下导航,而不是像 SAX 那样是一次性的处理。DOM 使用起来也要简单得多。
     另一方面,对于特别大的文档,解析和加载整个文档可能很慢且很耗资源,因此使用其他手段来处理这样的数据会更好。这些基于事件的模型,比如 SAX。

2) SAX
     这种处理的优点非常类似于流媒体的优点。分析能够立即开始,而不是等待所有的数据被处理。而且,由于应用程序只是在读取数据时检查数据,因此不需要将数据存储在内存中。这对于大型文档来说是个巨大的优点。事实上,应用程序甚至不必解析整个文档;它可以在某个条件得到满足时停止解析。一般来说,SAX 还比它的替代者 DOM 快许多。

3) 选择 DOM 还是选择 SAX ?
     对于需要自己编写代码来处理 XML 文档的开发人员来说,选择 DOM 还是 SAX 解析模型是一个非常重要的设计决策。
     DOM 采用建立树形结构的方式访问 XML 文档,而 SAX 采用的事件模型。
     DOM 解析器把 XML 文档转化为一个包含其内容的树,并可以对树进行遍历。用 DOM 解析模型的优点是编程容易,开发人员只需要调用建树的指令,然后利用navigation APIs访问所需的树节点来完成任务。可以很容易的添加和修改树中的元素。然而由于使用 DOM 解析器的时候需要处理整个 XML 文档,所以对性能和内存的要求比较高,尤其是遇到很大的 XML 文件的时候。由于它的遍历能力,DOM 解析器常用于 XML 文档需要频繁的改变的服务中。
  SAX 解析器采用了基于事件的模型,它在解析 XML 文档的时候可以触发一系列的事件,当发现给定的tag的时候,它可以激活一个回调方法,告诉该方法制定的标签已经找到。SAX 对内存的要求通常会比较低,因为它让开发人员自己来决定所要处理的tag。特别是当开发人员只需要处理文档中所包含的部分数据时,SAX 这种扩展能力得到了更好的体现。但用 SAX 解析器的时候编码工作会比较困难,而且很难同时访问同一个文档中的多处不同数据。

个人总结
*******************
DOM:
       解析器读入整个文档,然后构建一个驻留内存的树结构,然后代码就可以使用 DOM 接口来操作这个树结构。
       优点:整个文档树在内存中,便于操作;支持删除、修改、重新排列等多种功能;
       缺点:将整个文档调入内存(包括无用的节点),浪费时间和空间;
       使用场合:一旦解析了文档还需多次访问这些数据;硬件资源充足(内存、CPU)

SAX:
       事件驱动。当解析器发现元素开始、元素结束、文本、文档的开始或结束等时,发送事件,程序员编写响应这些事件的代码,保存数据。
       优点:不用事先调入整个文档,占用资源少
       缺点:不是持久的;事件过后,若没保存数据,那么数据就丢了;无状态性;从事件中只能得到文本,但不知该文本属于哪个元素;
       使用场合:只需XML文档的少量内容,很少回头访问;一次性读取;机器内存少;
       注意:SAX 解析器不创建任何对象。

***********************
DOM和SAX的使用例子 (http://sinye.javaeye.com/blog/763926 / http://www.javaeye.com/topic/763895)
Xml文件内容
<?xml version="1.0" encoding="UTF-8"?>
<books>
    <book id="12">
        <name>thinking in java</name>
        <price>85.5</price>
    </book>
    <book id="15">
        <name>Spring in Action</name>
        <price>39.0</price>
    </book>
</books>
Book.java如下:主要是用来组装数据
public class Book {
    private int id;
    private String name;
    private float price;

    public int getId() {
        return id;
    }

    public void setId(int id) {
        this.id = id;
    }

    public String getName() {
        return name;
    }

    public void setName(String name) {
        this.name = name;
    }

    public float getPrice() {
        return price;
    }

    public void setPrice(float price) {
        this.price = price;
    }
    
    @Override
    public String toString(){
        return this.id+":"+this.name+":"+this.price;
    }
}
1. Dom解析是将xml文件全部载入,组装成一颗dom树,然后通过节点以及节点之间的关系来解析xml文件,结合一张图来发现dom解析时需要注意的地方

在这里当我们得到节点book时,也就是图中1所画的地方,如果我们调用它的getChildNodes()方法,大家猜猜它的子节点有几个?不包括它的孙子节点,thinking in java这种的除外,因为它是孙子节点。它总共有5个子节点,分别是图中2、3、4、5、6所示的那样。所以在解析时,一定要小心,不要忽略空白的地方。
然后看代码来解析book.xml文件 DomParseService.java
import java.io.InputStream;
import java.util.ArrayList;
import java.util.List;

import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;

import org.w3c.dom.Document;
import org.w3c.dom.Element;
import org.w3c.dom.NodeList;
import org.w3c.dom.Node;

import com.xtlh.cn.entity.Book;

public class DomParseService {
    public List<Book> getBooks(InputStream inputStream) throws Exception{
        List<Book> list = new ArrayList<Book>();
        DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
        DocumentBuilder builder = factory.newDocumentBuilder();
        Document document = builder.parse(inputStream);
        Element element = document.getDocumentElement();

        NodeList bookNodes = element.getElementsByTagName("book");
        for(int i=0;i<bookNodes.getLength();i++){
            Element bookElement = (Element) bookNodes.item(i);
            Book book = new Book();
            book.setId(Integer.parseInt(bookElement.getAttribute("id")));
            NodeList childNodes = bookElement.getChildNodes();
//          System.out.println("*****"+childNodes.getLength());
            for(int j=0;j<childNodes.getLength();j++){
                if(childNodes.item(j).getNodeType()==Node.ELEMENT_NODE){
                    if("name".equals(childNodes.item(j).getNodeName())){
                        book.setName(childNodes.item(j).getFirstChild().getNodeValue());
                    }else if("price".equals(childNodes.item(j).getNodeName())){
                        book.setPrice(Float.parseFloat(childNodes.item(j).getFirstChild().getNodeValue()));
                    }
                }
            }//end for j
            list.add(book);
        }//end for i
        return list;
    }
}
测试使用单元测试如下ParseTest.java
public class ParseTest extends TestCase{

    public void testDom() throws Exception{
        InputStream input = this.getClass().getClassLoader().getResourceAsStream("book.xml");
        DomParseService dom = new DomParseService();
        List<Book> books = dom.getBooks(input);
        for(Book book : books){
            System.out.println(book.toString());
        }
    }
}

2. Sax解析是按照xml文件的顺序一步一步的来解析,在解析xml文件之前,我们要先了解xml文件的节点的种类,一种是ElementNode,一种是TextNode。
    其中,像<books>、<book>这种节点就属于ElementNode,而thinking in java、85.5这种就属于TextNode。
下面结合一张图来详细讲解Sax解析。

    xml文件被Sax解析器载入,由于Sax解析是按照xml文件的顺序来解析,当读入<?xml.....>时,会调用startDocument()方法,当读入<books>的时候,由于它是个ElementNode,所以会调用startElement(String uri, String localName, String qName, Attributes attributes) 方法,其中第二个参数就是节点的名称,注意:由于有些环境不一样,有时候第二个参数有可能为空,所以可以使用第三个参数,因此在解析前,先调用一下看哪个参数能用,第4个参数是这个节点的属性。这里我们不需要这个节点,所以从<book>这个节点开始,也就是图中1的位置,当读入时,调用startElement(....)方法,由于只有一个属性id,可以通过attributes.getValue(0)来得到,然后在图中标明2的地方会调用characters(char[] ch, int start, int length)方法,不要以为那里是空白,Sax解析器可不那么认为,Sax解析器会把它认为是一个TextNode。但是这个空白不是我们想要的数据,我们是想要<name>节点下的文本信息。这就要定义一个记录当上一节点的名称的TAG,在characters(.....)方法中,判断当前节点是不是name,是再取值,才能取到thinking in java。具体见代码:SaxParseService.java
import java.io.InputStream;
import java.util.ArrayList;
import java.util.List;

import javax.xml.parsers.SAXParser;
import javax.xml.parsers.SAXParserFactory;

import org.xml.sax.Attributes;
import org.xml.sax.SAXException;
import org.xml.sax.helpers.DefaultHandler;

import com.xtlh.cn.entity.Book;

public class SaxParseService extends DefaultHandler{
    private List<Book> books = null;
    private Book book = null;
    private String preTag = null;//作用是记录解析时的上一个节点名称

    public List<Book> getBooks(InputStream xmlStream) throws Exception{
        SAXParserFactory factory = SAXParserFactory.newInstance();
        SAXParser parser = factory.newSAXParser();
        SaxParseService handler = new SaxParseService();
        parser.parse(xmlStream, handler);
        return handler.getBooks();
    }

    public List<Book> getBooks(){
        return books;
    }

    @Override
    public void startDocument() throws SAXException {
        books = new ArrayList<Book>();
    }

    @Override
    public void startElement(String uri, String localName, String qName, Attributes attributes) throws SAXException {
        if("book".equals(qName)){
            book = new Book();
            book.setId(Integer.parseInt(attributes.getValue(0)));
        }
        preTag = qName;//将正在解析的节点名称赋给preTag
    }

    @Override
    public void endElement(String uri, String localName, String qName)
            throws SAXException {
        if("book".equals(qName)){
            books.add(book);
            book = null;
        }
        preTag = null;/**当解析结束时置为空。这里很重要,例如,当图中画3的位置结束后,会调用这个方法
        ,如果这里不把preTag置为null,根据startElement(....)方法,preTag的值还是book,当文档顺序读到图
        中标记4的位置时,会执行characters(char[] ch, int start, int length)这个方法,而characters(....)方
        法判断preTag!=null,会执行if判断的代码,这样就会把空值赋值给book,这不是我们想要的。*/
    }

    @Override
    public void characters(char[] ch, int start, int length) throws SAXException {
        if(preTag!=null){
            String content = new String(ch,start,length);
            if("name".equals(preTag)){
                book.setName(content);
            }else if("price".equals(preTag)){
                book.setPrice(Float.parseFloat(content));
            }
        }
    }

}
测试是用的单元测试,测试代码如下:ParseTest
import java.io.InputStream;
import java.util.List;

import junit.framework.TestCase;

import com.xtlh.cn.demo.DomParseService;
import com.xtlh.cn.demo.SaxParseService;
import com.xtlh.cn.entity.Book;

public class ParseTest extends TestCase{

    public void testSAX() throws Throwable{
        SaxParseService sax = new SaxParseService();
        InputStream input = this.getClass().getClassLoader().getResourceAsStream("book.xml");
        List<Book> books = sax.getBooks(input);
        for(Book book : books){
            System.out.println(book.toString());
        }
    }
}
在用Sax解析的时候最需要重视的一点就是不要把那些<节点>之间的空白忽略就好!


      最近了解到JDK6 添加一个名为StAX的新解析方法,具体可以参考在JDK 6.0中基于StAX分析XML数据。在J2ME下可以使用XmlPullParser,参考http://www.javaeye.com/topic/41564。这些解析方法都是pull parser。按照帖子里的网友说法,“pull parser为什么快?sax parser为什么慢?我觉得这是关键。我曾经在delphi上把一个sax parser改装成pull parser。其实很简单,只要把回调的API改成基于循环的主动查询。做的是减法”!!看完了下面的例子http://www.javaeye.com/topic/763949,似乎明白了一点。      这个例子所使用的xml文件和Java实体类和上面两个例子一样的。
      Pull解析和Sax解析很相似,都是轻量级的解析,在Android的内核中已经嵌入了Pull,所以我们不需要再添加第三方jar包来支持Pull。Pull解析和Sax解析不一样的地方有(1)pull读取xml文件后触发相应的事件调用方法返回的是数字(2)pull可以在程序中控制想解析到哪里就可以停止解析。
Pull解析的代码如下PullParseService.java
import java.io.InputStream;
import java.util.ArrayList;
import java.util.List;

import org.xmlpull.v1.XmlPullParser;

import android.util.Xml;

import com.xtlh.cn.entity.Book;

public class PullParseService {
    public static List<Book> getBooks(InputStream inputStream) throws Exception{
        List<Book> books = null;
        Book book = null;
        XmlPullParser parser = Xml.newPullParser();
        parser.setInput(inputStream, "UTF-8");

        int event = parser.getEventType();//产生第一个事件
        while(event!=XmlPullParser.END_DOCUMENT){
            switch(event){
            case XmlPullParser.START_DOCUMENT://判断当前事件是否是文档开始事件
                books = new ArrayList<Book>();//初始化books集合
                break;
            case XmlPullParser.START_TAG://判断当前事件是否是标签元素开始事件
                if("book".equals(parser.getName())){//判断开始标签元素是否是book
                    book = new Book();
                    book.setId(Integer.parseInt(parser.getAttributeValue(0)));//得到book标签的属性值,并设置book的id
                }
                if(book!=null){
                    if("name".equals(parser.getName())){//判断开始标签元素是否是name
                        book.setName(parser.nextText());
                    }else if("price".equals(parser.getName())){//判断开始标签元素是否是price
                        book.setPrice(Float.parseFloat(parser.nextText()));
                    }
                }
                break;
            case XmlPullParser.END_TAG://判断当前事件是否是标签元素结束事件
                if("book".equals(parser.getName())){//判断结束标签元素是否是book
                    books.add(book);//将book添加到books集合
                    book = null;
                }
                break;
            }
            event = parser.next();//进入下一个元素并触发相应事件
        }//end while
        return books;
    }
}
测试使用的是android的单元测试,代码如下:
import java.io.InputStream;
import java.util.List;

import android.test.AndroidTestCase;
import android.util.Log;

import com.xtlh.cn.entity.Book;
import com.xtlh.cn.service.PullParseService;

public class testPullParseService extends AndroidTestCase{
    private static final String TAG = "testPullParseService";
    public void testPull() throws Exception{
        InputStream input = this.getClass().getClassLoader().getResourceAsStream("book.xml");
        PullParseService pull = new PullParseService();
        List<Book> books = pull.getBooks(input);
        for(Book book : books){
            Log.i(TAG,book.toString());
        }
    }
}
分享到:
评论

相关推荐

    dom解析和sax解析

    DOM(Document Object Model)解析和SAX(Simple API for XML)解析是两种常见的XML文档解析方式,它们在处理XML数据时有不同的策略和优缺点。 DOM解析是一种基于树型结构的XML解析方法。当一个XML文档被DOM解析器...

    Java使用sax、dom、dom4j解析xml文档

    Java提供了多种解析XML的API,包括SAX(Simple API for XML)、DOM(Document Object Model)以及DOM4J。下面我们将详细探讨这些解析方式及其在实际开发中的应用。 1. SAX解析器: SAX是一种基于事件驱动的解析器,...

    Java解析XML文档(二):sax读取xml文件导出excel

    SAX是一种事件驱动的解析方式,相比DOM(Document Object Model)解析,它更节省内存,适用于处理大型XML文件。 首先,我们需要了解SAX解析的基本原理。SAX解析器在读取XML文档时,会触发一系列的事件,如开始文档...

    Pull,Sax和DOM解析代码

    Pull、SAX和DOM是XML解析的三种主要方法,各有优缺点。Pull解析内存占用低,适合处理大文件;SAX解析提供了更多自定义,适合流式处理;DOM解析提供完整的文档对象模型,方便查询和修改。选择哪种解析方式取决于具体...

    解析XML的dom、sax和dom4j的jar包

    在Java中,解析XML有多种方法,主要包括DOM、SAX和DOM4J。下面将详细介绍这三种解析方式及其对应的jar包。 1. DOM (Document Object Model) DOM是一种基于树形结构的XML解析方法,它将整个XML文档加载到内存中,...

    SAX,PULL,DOM解析XML

    在处理XML文档时,有三种主要的解析方式:SAX(Simple API for XML)、PULL(Pull Parser)和DOM(Document Object Model)。下面将详细解释这三种解析方法及其特点。 1. SAX(Simple API for XML) SAX是一种基于...

    使用sax,pull,dom4j解析XML

    在Java中,有三种主要的解析XML的方式:SAX(Simple API for XML)、Pull解析器和DOM4J。下面将详细介绍这三种方法以及它们在Eclipse 4.8和Java 1.8环境下的使用。 1. **SAX解析器** SAX是一种基于事件驱动的解析...

    java解析xml数据---sax解析器

    Java解析XML数据主要涉及到的是对XML文档的读取和处理,SAX(Simple API for XML)解析器是一种基于事件驱动的解析方式,适用于处理大型XML文件。与DOM(Document Object Model)解析器不同,SAX不需要一次性加载...

    Jdom解析嵌套XML<一>

    总之,"Jdom解析嵌套XML&lt;一&gt;"这篇文章可能会深入讲解如何使用JDOM库来解析和操作具有复杂嵌套结构的XML文档,包括创建、遍历、修改XML元素和属性的方法,以及一些最佳实践和注意事项。通过学习这些内容,开发者可以...

    java xml 4 种 解析xml 方法 sax jdom dom stAX

    为了处理XML文档,Java提供了多种解析方法,包括SAX(Simple API for XML)、JDOM(Java Document Object Model)、DOM(Document Object Model)以及stAX(Streaming API for XML)。下面将详细介绍这四种解析XML的...

    XML的四种解析器(dom,sax,jdom,dom4j)原理及性能比较,超详细

    常见的 XML 解析器有 DOM、SAX、JDOM 和 DOM4J 等。每种解析器都有其特点和优缺,选择合适的解析器对应用程序的性能和开发效率有很大影响。 1. DOM 解析器 DOM(Document Object Model)是 W3C 官方标准,用于表示...

    Android中XML的解析Pull//SAX/DOM

    对于XML的处理,Android提供了三种主要的解析方式:Pull解析器、SAX(Simple API for XML)解析器以及DOM(Document Object Model)解析器。这三种方法各有优缺点,适用于不同的场景需求。 1. Pull解析器: ...

    JAVA读XML:sax,dom,jdom,dom4j的比较以及选择.doc

    Java 读取XML文件时,有多种解析器可供选择,分别是SAX、DOM、JDOM和DOM4J。这些解析器各有优缺点,适用于不同的场景。 SAX(Simple API for XML)是一种基于事件驱动的解析器。它在解析XML文件时,会按顺序触发一...

    XML.rar_XML SAX_XML java_dom xml_java xml_java解析xml

    总结来说,XML在Java中的解析涉及DOM和SAX两种主要方法,每种都有其适用场景和优缺点。了解它们的工作原理和使用方法,可以帮助我们更高效地处理XML数据。通过实践和比较,我们可以更好地选择和利用这些工具,提高...

    Java解析XML文件的DOM和SAX方式.doc

    Java 解析 XML 文件的 DOM 和 SAX 方式是指在 Java 中使用 Document Object Model(DOM)和 Simple API for XML(SAX)两种方式来解析 XML 文件的技术。下面将详细介绍这两种方式的原理、实现和优缺点。 DOM 方式 ...

    Android SAX、DOM、Pull解析xml文件案例讲解

    本篇将详细讲解Android中三种主要的XML解析方式:SAX(Simple API for XML)、DOM(Document Object Model)和Pull解析器,并通过案例来帮助理解它们的工作原理和应用场景。 ### 1. SAX解析器 SAX(Simple API for...

    XML-java.rar_XML SAX_sax_sax xml_sax 解析 xml_xml using dom

    Java作为一种强大的编程语言,提供了多种解析XML文档的方法,其中包括DOM(Document Object Model)和SAX(Simple API for XML)。本压缩包文件“XML-java.rar”包含了关于使用Java解析XML的实例,特别强调了SAX解析...

    jsp操作xml源码,解析器为DOM和SAX

    首先,我们要介绍两种主要的XML解析器:DOM(Document Object Model)和SAX(Simple API for XML)。 1. DOM解析器:DOM是一种基于树形结构的XML解析方法,它将整个XML文档加载到内存中形成一个文档对象模型,允许...

    通过SAX和PULL来解析XML,同时生成xml

    在实际应用中,SAX和PULL解析器的选择主要取决于内存限制、性能需求和代码复杂性。SAX更适合大文件和低内存环境,而PULL则适合Android开发。无论选择哪种方式,理解其工作原理和使用方法都是至关重要的,这将有助于...

    Android中解析XML

    Android提供了三种主要的XML解析方式:SAX解析器、DOM解析器和PULL解析器。 1. **SAX解析器**: SAX(Simple API for XML)是一种基于事件驱动的解析方式。它不将整个XML文档加载到内存中,而是逐行读取,遇到元素...

Global site tag (gtag.js) - Google Analytics