`

(六) 流机制解析器

阅读更多

DOM解析器读入的是一个完整的XML文档,然后将其转换成一个树形的数据结构,对于大多数应用,DOM都运行得很好,但是当文档很大,并且处理算法非常简单,可以在运行时解析节点,而不必看到所有的树形结构时,DOM可能会显得效率低下。在这种情况下,我们应该使用 流解析机制(streaming parser)。
SAX解析器使用的是事件回调(event callback),而StAX解析器提供了解析事件的迭代器。

1.使用SAX解析器
SAX解析器在解析XML输入结构时就报告事件,但不会以任何方式存储文档。由事件处理器决定是否要建立数据结构。实际上,DOM解析器是在SAX解析器的基础上建立起来的,它在接收到解析器事件时建立DOM树。
在使用SAX解析器时,需要一个处理器来定义不同的解析器事件的事件动作,ContentHandler接口定义了若干回调方法。
其中最重要的几个:
(1)startElement和endElement在每当遇到起始或终止标签时调用。
(2)characters每当遇到字符数据时调用。
(3)startDocument和endDocument分别在文档开始和结束时各调用一次。

例:解析一下片段

<font>
    <name>Helvetica</name>
    <size units="pt">36</size>
</font>
 


解析器确保产生一下调用
(1)startElement,元素名:font
(2)startElement,元素名:name
(3)characters,内容:Helvetica
(4)endElement,元素名:name
(5)startElement,元素名:size,属性:units="pt"
(6)characters,内容:36
(7)endElement,元素名:size
(8)endElement,元素名:font
处理器必须覆盖这些方法,让它们执行在解析文件时想要执行的动作。

SAX解析流程
(1)SAX解析需要SAXParser

    SAXParserFactory factory = SAXParseFactory.newInstance();
    SAXParser parser = factory.newSAXParser();
 


(2)开始解析文档

    parser.parse(source, handler);
 


(3)这里的source可以是一个文件、一个URL字符串或者是一个输入流。处理器属于DefaultHandler的一个子类,DefaultHandler类为以下四个接口定义了空的方法:
    ContentHandler
    DTDHandler
    EntityResolver
    ErrorHandler

示例程序中定义了一个处理器,它覆盖了ContentHandler接口的startElement方法来观察带有href属性的a元素。

    DefaultHandler hanler = new DefaultHandler(
        public void startElement(String namespaceURI, String lname, String qname, Attributes attrs) throws SAXException{
            if(lname.equalsIgnoreCase("a") && attrs != null){
                for(int i=0;i<attrs.getLength();i++){
                    String aname = attrs.getLocalName(i);
                    if(aname.equalsIgnoreCase("href")){
                        System.out.println(attrs.getValue(i));
                    }
                }
            }
        }
    );
 


   
startElement方法有3个描述元素名的参数,其中qname参数以alias:localname的形式报告限定名。如果命名空间处理特征已经打开,那么namespaceURI和lname参数描述的就是命名空间和本地(非限定)名。
与DOM解析器一样,命名空间处理特性默认是关闭的,可以调用工厂类的setNamespaceAware方法来激活命名空间处理特性:

    SAXParserFactory  factory = SAXParserFactory.newInstance();
    factory.setNamespaceAware(true);
    SAXParser saxParser = factory.newSAXParser();

 

DEMO

package xml.sax;

import javax.xml.parsers.ParserConfigurationException;
import javax.xml.parsers.SAXParser;
import javax.xml.parsers.SAXParserFactory;

import org.xml.sax.Attributes;
import org.xml.sax.SAXException;
import org.xml.sax.helpers.DefaultHandler;

public class SAXTest {
	public static void main(String[] args) {
		String url;
		
		if(args.length == 0){
			url = "http://www.w3c.org";
			System.out.println("Using" + url);
		}else{
			url = args[0];
		}
		
		DefaultHandler handler = new DefaultHandler(){
			public void startElement(String namespaceURI, String lname, String qname, Attributes attrs){
				if("a".equals(lname) && attrs !=null){
					for(int i=0;i<attrs.getLength();i++){
						String aname = attrs.getLocalName(i);
						if("href".equals(aname)){
							System.out.println(attrs.getValue(i));
						}
					}
				}
			}
		};
		try{
			SAXParserFactory factory = SAXParserFactory.newInstance();
			factory.setNamespaceAware(true);
			SAXParser saxParser = factory.newSAXParser();
		}catch(ParserConfigurationException e){
			e.printStackTrace();
		}catch(SAXException e){
			e.printStackTrace();
		}
		
	}
	
	
}
 

2.使用StAX解析器
StAX解析器是一种“拉解析器(pull parser)”,与安装事件处理器不同,只需要使用基本循环来迭代所有事件

    InputStream in = new URL(url).openStream();
    XMLInputFactory factory = XMLInputFactory.newInstance();
    XMLStreamReader parser = factory.createXMLStreamReader(in);
   
    while(parser.hasNext()){
        int event = parser.next();
        System.out.println("Call parser methods to obtain event details");
    }
 


例,解析下面的片断

    <font>
        <name>Helvetica</name>
        <size units="pt">36</size>
    </font>
 


解析器将产生以下事件:
(1)START_ELEMENT,元素名:font
(2)CHARACTERS,内容:空白字符
(3)START_ELEMENT,元素名:name
(4)CHARACTERS,内容:Helvetica
(5)END_ELEMENT,元素名:name
(6)CHARACTERS,内容:空白字符
(7)START_ELEMENT,内容:元素名:size
(8)CHARACTERS,内容:36
(9)END_ELEMENT,元素名:size
(10)CHARACTERS,内容:空白字符
(11)END_ELEMENT,元素名:font
要分析这些属性值,需要调用XMLStreamReader类的恰当方法
例:

    String units = parser.getAttributeValue(null, "units");
 


    获取当前元素的units属性。
默认情况下,支持命名空间的处理,可以通过修改工厂来设置为无效。

    XMLInputFactory factory = XMLInputFactory.newInstance();
    factory.setProperty(XMLInputFactory.IS_NAMESPACE_AWARE, false);
 

DEMO

package xml.stax;

import java.io.File;
import java.io.FileInputStream;

import javax.xml.stream.XMLInputFactory;
import javax.xml.stream.XMLStreamReader;

public class StAXTest {
	public static void main(String[] args) {
		try{
			String filename = System.getProperty("user.dir") + File.separator + "conf" 
					+ File.separator +"xml" + File.separator + "中文路径" + File.separator + "www.w3.org.xml";
			File file = new File(filename);
			FileInputStream in = new FileInputStream(file);
			
			XMLInputFactory factory = XMLInputFactory.newInstance();
			factory.setProperty(XMLInputFactory.IS_NAMESPACE_AWARE, false);
			XMLStreamReader parser = factory.createXMLStreamReader(in);
			
			while(parser.hasNext()){
				int event = parser.next();
				if(event == XMLStreamReader.START_ELEMENT){
					if("a".equals(parser.getLocalName())){
						String href = parser.getAttributeValue(null, "href");
						if(href!=null){
							System.out.println(href);
						}
					}
				}
			}
				
		}catch(Exception e){
			e.printStackTrace();
		}
		
	}
}

 

 

 

 

 

 

 

 

分享到:
评论

相关推荐

    ps流解析器,解析本地ps文件为 es文件,可分离出音频和视频

    PS流解析器的工作原理是将PS文件拆分成其组成的基本流(Elementary Streams),即视频流、音频流和其他辅助信息流。每个基本流都包含了经过编码的数据,如H264编码的视频数据或AAC编码的音频数据。解析过程中,解析...

    Wireshark:添加一个基础的解析器

    Wireshark是一款功能强大的网络协议分析工具,它提供了一个强大的插件机制,允许开发者创建自己的协议解析器。下面我们将逐步设计一个基础的解析器,从而了解Wireshark解析器的开发流程。 一、解析器的类型 ...

    Go-GitHubActions工作流文件的解析器

    解析器需要有良好的错误处理机制,能够捕获并报告这些问题,帮助开发者快速定位问题所在。 7. **测试**:为了确保解析器的正确性和健壮性,需要编写单元测试和集成测试。Go提供了强大的测试框架,可以方便地编写...

    xml解析器的源代码

    本资源提供了XML解析器的源代码,这对于理解和实现XML处理机制具有重要价值。 XML解析器是读取XML文档并将其转换为可操作数据结构的关键组件。根据解析方式,XML解析器主要分为两种类型:DOM(Document Object ...

    delphi 教你如何做表达式解析器

    在IT领域,构建一个表达式解析器是一项基础且重要的任务,尤其对于编程语言的设计与实现。本教程将通过Delphi这一强大的Object Pascal开发环境,教你如何构建一个表达式解析器,涉及词法分析器和语法分析器的关键...

    采用pull解析器解析和生成xml内容

    Pull解析器是一种事件驱动的解析模型,它不像SAX解析器那样需要开发者提供回调方法,而是由解析器自身推动解析过程,开发者通过调用一系列的“pull”方法来获取XML文档中的元素和属性信息。这种模式使得代码更简洁,...

    XML格式脚本文件解析器源代码

    XML(eXtensible Markup Language)是一种用于标记数据的语言,广泛应用于数据交换、配置文件、文档存储等场景。XML格式的脚本文件解析器是理解并...然而,自行实现解析器有助于深入理解XML的底层机制和C++编程技巧。

    xpp3 xml解析器

    XPP3,全称为XML Pull Parser 3,是一款高效的XML解析器,专为处理XML文档而设计。在IT行业中,XML作为一种重要的数据交换格式,被广泛应用于数据存储、配置文件、网络通信等领域。XPP3作为XML Pull解析器的第三版,...

    JSONMachine是一个快速高效且易于使用的JSON流解析器

    4. **错误处理**:良好的错误处理机制是任何解析器的关键部分。JSONMachine应该能有效地捕获和报告JSON格式错误,帮助开发者及时定位并修复问题。 5. **源码版本**:压缩包中的"halaxa-json-machine-8e3555b"可能指...

    json解析器源码

    解析器应提供适当的错误处理机制,如抛出异常或返回错误代码。 5. **依赖性(Dependency)**:描述中提到,这个解析器需要Boost库。Boost是一个流行的C++库集合,提供了许多高级功能,例如迭代器工具、智能指针和...

    DIY SQL解析器

    ### DIY SQL解析器:深入理解ebase及其构建过程 #### ebase:简易SQL解析器概览 ebase,作为一款简易的SQL解析器,旨在提供一个基础平台,用于理解和实践SQL命令的解析与执行。其核心功能围绕着一组操作TABLE...

    android下的pull解析器解析和生成xml文件

    为了有效地处理XML文档,Android提供了多种解析机制,其中一种就是Pull解析器(PULL Parser)。本篇将深入探讨Android下Pull解析器的使用,以及如何利用它来解析和生成XML文件。 一、Android Pull解析器简介 Pull...

    TS 码流解析C实现

    TS码流解析是数字视频传输中的重要环节,它涉及到电视广播、互联网流媒体等领域。TS(Transport Stream,传输流)是一种被广泛使用的比特流格式,主要用于传输MPEG数据,包括音频、视频和其他辅助数据。本篇文章将...

    练手写了个SQLite解析器

    标题中的“练手写了个SQLite解析器”表明这个项目是一个个人实践项目,目的是为了学习和理解SQLite数据库查询语言的解析过程。SQLite是一个轻量级的、开源的关系型数据库,广泛应用于移动设备、嵌入式系统以及桌面...

    开源表达式解析器开源表达式解析器开源表达式解析器

    ### 开源表达式解析器知识点总结 #### 一、IKExpression概述 IKExpression是一个开源的、可扩展的、基于Java语言开发的超轻量级公式化语言解析执行工具包。该工具包完全独立,不依赖任何第三方Java库,能够轻松...

    Flash的GIF图片加载解析器

    "Flash的GIF图片加载解析器",如" GIFPlayer 0.4 "这样的工具或库,就是专门用来帮助开发者在Flash项目中加载和播放GIF动画的。这个工具可能包含了以下关键功能: 1. **加载GIF**:使用ActionScript的`Loader`类,...

    json解析器

    JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,被...同时,由于该解析器被描述为轻量级且易于修改移植,因此它可能采用了简单而高效的设计,对于理解和学习C语言编程以及JSON解析机制非常有帮助。

    ps流解析程序

    2. **PAT(Program Association Table)解析**:PAT是PS流中的关键部分,它提供了节目与对应的PID之间的映射,帮助解析器理解哪些PID对应于视频、音频或其他服务。 3. **PMT(Program Map Table)解析**:PMT提供了...

    电力规约报文解析器.rar

    电力规约报文解析器的工作原理通常是接收来自电力设备的二进制数据流,然后将这些数据解码成人类可读的形式。解析器需要对各种规约有深入的理解,以便正确地识别报文类型、提取关键信息并处理异常情况。例如,它可能...

    115下载解析器

    115下载解析器是一种专门针对115网盘设计的工具,它的主要功能是解析115网盘中的文件链接,使得用户无需通过分享密码就能直接下载目标文件。115网盘是一款流行的云存储服务,但它通常要求用户通过获取分享链接和密码...

Global site tag (gtag.js) - Google Analytics