`
cobain_731
  • 浏览: 109870 次
最近访客 更多访客>>
社区版块
存档分类
最新评论

java编程中更新xml文档的常用方法(转载)

    博客分类:
  • java
阅读更多
本文简要的讨论了java语言编程中更新xml文档的四种常用方法,并且分析这四种方法的优劣。其次,本文还对如何控制java程序输出的xml文档的格式做了展开论述。 

  jaxp是java api for xml processing的英文字头缩写,中文含义是:用于xml文档处理的使用java语言编写的编程接口。jaxp支持dom、sax、xslt等标准。为了增强jaxp使用上的灵活性,开发者特别为jaxp设计了一个pluggability layer,在pluggability layer的支持之下,jaxp既可以和具体实现dom api、sax api 的各种xml解析器(xml parser,例如apache xerces)联合工作,又可以和具体执行xslt标准的xslt处理器(xslt processor,例如apache xalan)联合工作。应用pluggability layer的好处在于:我们只需要熟悉jaxp各个编程接口的定义即可,而不需要对所采用的具体的xml解析器、xslt处理器有很深入的了解。比如在某个java程序中,通过jaxp调用xml解析器apache crimson对xml文档进行处理,如果我们希望使用别的xml解析器(比如apache xerces),以便提高该程序的性能,那么原程序代码可能不需要任何改变,直接就可以使用(你所需要做的事情只是将包含apache xerces代码的jar文件加入到环境变量classpath中,而将包含apache crimson代码的jar文件在环境变量classpath中删除)。 

  目前jaxp已经应用的十分普遍了,可以说是java语言中处理xml文档的标准api。有些初学者在学习使用jaxp的过程中,经常会提出这样的问题:我编写的程序对dom tree做了更新,但是当程序退出以后,原始的xml文档并没有改变,还是老样子,如何实现对原始xml文档和dom tree的同步更新呢?咋一看来,在jaxp中似乎没有提供相应的接口/方法/类,这是很多初学者都感到困惑的问题。本文的主旨就在于解决这个问题,简单的介绍几种常用的同步更新原始xml文档和dom tree的方法。为了缩小讨论的范围,本文所涉及的xml解析器仅包括apache crimson和apache xerces,而xslt处理器仅仅使用apache xalan。 

  方法一:直接读写xml文档 

  这也许是最笨最原始的办法了。当程序获取dom tree之后,应用dom模型的node接口的各个方法对dom tree进行更新,下一步应该对原始的xml文档进行更新了。我们可以运用递归的办法或者是应用treewalker类,遍历整个dom tree,与此同时,将dom tree的每一个节点/元素依次写入到预先打开的原始xml文档中,当dom tree被遍历完全之后,dom tree和原始的xml文档就实现了同步更新。实际中,这个方法极少使用,不过如果你要编程实现自己的xml解析器,这种方法还是有可能用得上的。 

  方法二:使用xmldocument类 

  使用xmldocument类?jaxp中分明没有这个类呀!是不是作者搞错了?没有错!就是使用xmldocument类,确切的说,是使用xmldocument类的write()方法。 

  在上文已经提到过,jaxp可以和各种各样的xml解析器联合使用,这次我们选用的xml解析器是apache crimson。xmldocument(org.apache.crimson.tree.xmldocument)是apache crimson的一个类,并不包含于标准的jaxp中,难怪在jaxp的文档中找不到xmldocument类的芳踪呢。现在问题出来了,如何应用xmldocument类来实现更新xml文档的功能?在xmldocument类中提供了下面三个write()方法(根据crimson最新的版本------apache crimson 1.1.3): 
public void write (outputstream out) throws ioexception
public void write (writer out) throws ioexception
public void write (writer out, string encoding) throws ioexception


  上述三个write()方法的主要作用就是输出dom tree中的内容到特定的输出介质中,比如文件输出流、应用程序控制台等等。那么又如何使用上述三个write()方法呢?请看下面的java程序代码片断: 

string name="fancy";
documentbuilder parser;
documentbuilderfactory factory = documentbuilderfactory.newinstance();
try 
{
parser = factory.newdocumentbuilder();
document doc = parser.parse("user.xml");
element newlink=doc.createelement(name);
doc.getdocumentelement().appendchild(newlink);
((xmldocument)doc).write(new fileoutputstream(new file("xuser1.xml")));
}
catch (exception e) 
{
//to log it 
}


  在上面的代码中,首先创建了一个document对象doc,获取完整的dom tree,然后应用node接口的appendchild()方法,在dom tree的最后追加了一个新节点(fancy),最后调用xmldocument类的write(outputstream out)方法,把dom tree中的内容输出到xuser.xml中(其实也可以输出到user.xml,更新原始的xml文档,在这里为了便于做对比,故而输出到xuser.xml文件中)。需要注意的是不能直接对document对象doc直接调用write()方法,因为jaxp的document接口并没有定义任何write()方法,所以必须将doc由document对象强制转换为xmldocument对象,然后才能调用write()方法,在上面的代码中使用的是write(outputstream out)方法,这个方法使用缺省的utf-8编码输出dom tree中的内容到特定的输出介质中,如果dom tree中包含中文字符,那么输出的结果有可能是乱码,亦即存在所谓的"汉字问题",解决的办法是使用write (writer out, string encoding)方法,显式指定输出时的编码,例如将第二个参数设为"gb2312",这时即不存在"汉字问题",输出结果能够正常显示中文字符。 

  完整的例子请参考下列文件: addrecord.java(见附件)、user.xml(见附件)。该例子的运行环境为:windows xp professional、jdk 1.3.1。为了能够正常编译运行addrecord.java这个程序,你需要到网址http://xml.apache.org/dist/crimson/去下载apache crimson,并将所获取的crimson.jar文件加入到环境变量classpath中。 
 
  注意: 
  apache crimson的前身是sun project x parser,后来不知何故,由x parser演变为apache crimson,至今apache crimson的很多代码都是从x parser中直接移植过来的。比如上文用到的xmldocument类,它在x parser中是com.sun.xml.xmldocument,到了apache crimson中摇身一变,就变成了org.apache.crimson.tree.xmldocument类,其实它们的绝大部分代码是一样的,可能就package语句和import语句以及文件开头的一段lience有所不同而已。早期的jaxp是和x parser捆绑在一起的,因此一些老的程序使用了com.sun.xml包,如果你现在重新编译它们,有可能不能通过,肯定就是因为这个原因。后来的jaxp和apache crimson捆绑在一起,比如jaxp 1.1,如果你使用jaxp 1.1,那么不需要额外下载apache crimson,也能够正常编译运行上面的例子(addrecord.java)。最新的jaxp 1.2 ea(early access)改弦更张,采用性能更好的apache xalan和apache xerces分别作为xslt处理器和xml解析器,不能直接支持apache crimson了,所以如果你的开发环境采用了jaxp 1.2 ea或者是java xml pack(内含jaxp 1.2 ea),那么将无法直接编译运行上面的例子(addrecord.java),你需要额外下载并安装apache crimson。 

  方法三:使用transformerfactory和transformer类 

  在jaxp中所提供的标准的更新原始xml文档的方法就是调用xslt引擎,亦即使用transformerfactory和transformer类。请看下面的java代码片断: 

//首先创建一个domsource对象,该构造函数的参数可以是一个document对象
//doc代表更改后的dom tree。
domsource doms = new domsource (doc);

//创建一个file对象,代表dom tree所包含的数据的输出介质,这是一个xml文件。
file f = new file ("xmloutput.xml");

//创建一个streamresult对象,该构造函数的参数可以取为file对象。
streamresult sr = new streamresult (f);

//下面调用jaxp中的xslt引擎来实现输出dom tree中的数据到xml文件中的功能。
//xslt引擎的输入为domsource对象,输出为streamresut对象。
try 
{
//首先创建一个transformerfactory对象,再由此创建transformer对象。transformer
//类相当于一个xslt引擎。通常我们使用它来处理xsl文件,但是在这里我们使
//用它来输出xml文档。
transformerfactory tf=transformerfactory.newinstance(); 
transformer t=tf.newtransformer ();

//关键的一步, 调用transformer对象 (xslt引擎)的transform()方法,该方法的第一
//个参数是domsource对象,第二个参数是streamresult对象。
t.transform(doms,sr); 
}
catch (transformerconfigurationexception tce)

system.out.println("transformer configuration exception\n-----");
tce.printstacktrace(); 
}
catch (transformerexception te) 

system.out.println ("transformer exception\n---------"); 
te.printstacktrace (); 


  在实际的应用中,我们可以应用传统的dom api从xml文档中获取dom tree,然后根据实际的需求对dom tree执行各种操作,得到最终的document对象,接下来可以由此document对象创建domsource对象,剩下的事情就是照搬上面的代码了,程序运行完毕后, xmloutput.xml就是你所需要的结果(当然了,你可以随意更改streamresult类构造函数的参数,指定不同的输出介质,而不必是千篇一律的xml文档)。 

  这个方法最大的好处在于可以随心所欲的控制dom tree中的内容输出到输出介质中的格式,但是光靠transformerfactory类和transformer类并不能实现这个功能,还需要依赖outputkeys类的帮助。 完整的例子请参考下列文件: addrecord2.java(见附件)、user.xml(见附件)。该例子的运行环境为:windows xp professional、jdk 1.3.1。为了能够正常编译运行addrecord2.java这个程序,你需要到网址http://java.sun.com去下载安装jaxp 1.1或者java xml pack(java xml pack已经内含jaxp了)。 

  outputkeys类 
  javax.xml.transform.outputkeys类和java.util.properties类配合使用,可以控制jaxp的xslt引擎(transformer类)输出xml文档的格式。请看下面的代码片断: 

//首先创建一个transformerfactory对象,再由此创建transformer对象。
transformerfactory tf=transformerfactory.newinstance(); 
transformer t=tf.newtransformer ();

//获取transformser对象的输出属性,亦即xslt引擎的缺省输出属性,这是一个
//java.util.properties对象。
properties properties = t.getoutputproperties(); 

//设置新的输出属性:输出字符编码为gb2312,这样可以支持中文字符,xslt引擎所输出
//的xml文档如果包含了中文字符,可以正常显示,不会出现所谓的"汉字问题"。
//请留意outputkeys类的字符串常数outputkeys.encoding。
properties.setproperty(outputkeys.encoding,"gb2312"); 

/更新xslt引擎的输出属性。
t.setoutputproperties(properties); 

//调用xslt引擎,按照输出属性中的设置,输出dom tree中的内容到输出介质中。
t.transform(domsource_object,streamresult_object); 


  从上面的程序代码,我们不难看出,通过设置xslt引擎(transformer类)的输出属性,可以控制dom tree中的内容的输出格式,这对于我们定制输出内容是很有帮助的。那么jaxp的xslt引擎(transformer类)有那些输出属性可以设置呢? javax.xml.transform.outputkeys类定义了很多字符串常数,它们都是可以自由设置的输出属性,常用的输出属性如下所示:  

public static final java.lang.string method 


  可以设为"xml"、"html"、"text"等值。 

public static final java.lang.string version 


  所遵循规范的版本号,如果method设为"xml",那么它的值应该设为"1.0",如果method设为"html",那么它的值应该设为"4.0",如果method设为"text",那么这个输出属性会被忽略。 

public static final java.lang.string encoding 


  设置输出时所采用的编码方式,比如"gb2312"、"utf-8"等等,如果将其设置为"gb2312",可以解决所谓的"汉字问题"。 
  public static final java.lang.string omit_xml_declaration 

  设置输出到xml文档中时是否忽略xml声明,亦即类似于: 

<?xml version="1.0" standalone="yes" encoding="utf-8" ?> 


  这样的代码。它可选的值有"yes"、"no"。 

public static final java.lang.string indent 


  ident设定xslt引擎在输出xml文档时,是否自动添加额外的空格,它可选的值为"yes"、"no"。 

public static final java.lang.string media_type 


  media_type设定输出文档的mime类型。 

  如果设定xslt引擎的输出属性呢?下面我们来总结一下: 

  首先是获取xslt引擎(transformer类)的缺省输出属性的集合,这需要使用transformer类的getoutputproperties()方法,返回值是一个java.util.properties对象。 

properties properties = transformer.getoutputproperties(); 


  然后是设定新的输出属性,比如: 

properties.setproperty(outputkeys.encoding,"gb2312");
properties.setproperty(outputkeys.method,"html");
properties.setproperty(outputkeys.version,"4.0");
……………………………………………………… 


  最后是更新xslt引擎(transformer类)的缺省输出属性的集合,这需要使用transformer类的setoutputproperties()方法,参数是一个java.util.properties对象。 

  我们编写了一个新的程序,其中应用了outputkeys类,用以控制xslt引擎的输出属性,该程序的架构和前一个程序(addrecord3.java)大致相同,不过输出结果略有不同。完整的代码请参考下列文件: addrecord3.java(见附件)、user.xml(见附件)。该例子的运行环境为:windows xp professional、jdk 1.3.1。为了能够正常编译运行addrecord3.java这个程序,你需要到网址http://java.sun.com去下载安装jaxp 1.1或者java xml pack(java xml pack内含jaxp了)。 

  方法四:使用xalan xml serializer 

  方法四其实是方法三的一个变种,它需要apache xalan和apache xerces的支持才能够运行。例子代码如下所示: 

//首先创建一个domsource对象,该构造函数的参数可以是一个document对象
//doc代表更改后的dom tree。
domsource domsource = new domsource (doc); 

//创建一个domresult对象,临时保存xslt引擎的输出结果。
domresult domresult = new domresult();

//下面调用jaxp中的xslt引擎来实现输出dom tree中的数据到xml文件中的功能。
//xslt引擎的输入为domsource对象,输出为domresut对象。
try 
{
//首先创建一个transformerfactory对象,再由此创建transformer对象。transformer
//类相当于一个xslt引擎。通常我们使用它来处理xsl文件,但是在这里我们使//用它来输出xml文档。
transformerfactory tf=transformerfactory.newinstance(); 
transformer t=tf.newtransformer (); 

//设置xslt引擎的属性(必不可少,否则会产生"汉字问题")。
properties properties = t.getoutputproperties(); 
properties.setproperty(outputkeys.encoding,"gb2312");
t.setoutputproperties(properties); 

//关键的一步, 调用transformer对象 (xslt引擎)的transform()方法,该方法的第一
//个参数是domsource对象,第二个参数是domresult对象。
t.transform(domsource,domresult);

//创建缺省的xalan xml serializer,使用它将临时存放在domresult对象
//(domresult)中的内容以输出流的形式输出到输出介质中。
serializer serializer = serializerfactory.getserializer
(outputproperties.getdefaultmethodproperties("xml"));

//设置xalan xml serializer的输出属性,这一步必不可少,否则也可能产生
//所谓的"汉字问题"。
properties prop=serializer.getoutputformat();
prop.setproperty("encoding","gb2312");
serializer.setoutputformat(prop);

//创建一个file对象,代表dom tree所包含的数据的输出介质,这是一个xml文件。
file f = new file ("xuser3.xml");

//创建文件输出流对象fos,请留意构造函数的参数。
fileoutputstream fos=new fileoutputstream(f);

//设置xalan xml serializer的输出流。
serializer.setoutputstream(fos);

//串行化输出结果。
serializer.asdomserializer().serialize(domresult.getnode());
}
catch (exception tce)

tce.printstacktrace(); 
}


  这个方法不太常用,而且似乎有点画蛇添足,所以我们就不展开讨论了。完整的例子请参考下列文件: addrecord4.java(见附件)、user.xml(见附件)。该例子的运行环境为:windows xp professional、jdk 1.3.1。为了能够正常编译运行addrecord4.java这个程序,你需要到网址http://xml.apache.org/dist/去下载安装apache xalan和apache xerces。 

  或者是到网址http://java.sun.com/xml/download.html去下载安装java xml pack。因为最新的java xml pack(winter 01 版)包含了apache xalan和apache xerces技术在内。 

  结论: 
  本文简略的讨论了java语言编程中更新xml文档的四种方法。第一种方法是直接读写xml文件,这种方法十分繁琐,而且比较容易出错,极少使用,除非你需要开发自己的xml parser,否则不会使用这种方法。第二种方法是使用apache crimson的xmldocument类,这种方法极为简单,使用方便,如果你选用apache crimson作为xml解析器,那么不妨使用这种方法,不过这种方法似乎效率不高(源于效率低下的apache crimson),另外,高版本的jaxp或者是java xml pack、jwsdp不直接支持apache crimson,亦即这种方法不通用。第三种方法是使用jaxp的xslt引擎(transformer类)来输出xml文档,这种方法也许是标准的方法了,使用起来十分灵活,特别是可以自如控制输出格式,我们推荐采用这种方法。第四种方法是第三种方法的变种,采用了xalan xml serializer,引入了串行化操作,对于大量文档的修改/输出有优越性,可惜的是要重复设置xslt引擎的属性和xml serializer的输出属性,比较麻烦,而且依赖于apache xalan和apache xerces技术,通用性略显不足。 

  除了上面讨论的四种方法以外,实际上应用别的api(比如jdom、castor、xml4j、oracle xml parser v2)也有很多办法可以更新xml文档,限于篇幅,在这里就不一一讨论了。

分享到:
评论

相关推荐

    Java编程中更新XML文档的常用方法集

    在Java编程中,更新XML文档是一项常见的任务,尤其是在处理数据存储、配置文件或者与Web服务交互时。本文主要探讨了四种常用的方法,并分析了它们的优缺点。首先,让我们逐一了解这些方法。 方法一:直接读写XML...

    Java语言编程中更新XML文档的四种常用方法

    以上介绍了Java编程中更新XML文档的四种常用方法及其优缺点,并给出了如何控制输出XML文档格式的一些示例。选择哪种方法取决于具体的业务需求以及对性能的要求。对于小型文件或者对文档结构有复杂需求的应用,可以...

    Java编程中更新XML文档的常用方法

    本文简要的讨论了Java语言编程中更新XML文档的四种常用方法,并且分析这四种方法的优劣。其次,本文还对如何控制Java程序输出的XML文档的格式做了展开论述。 JAXP是Java API for XML Processing的英文字头缩写,中文...

    java解析xml文档的常用方法

    "java解析xml文档的常用方法" Java 解析 XML 文档的常用方法有四种:DOM、SAX、JDOM 和 DOM4J。下面对这四种方法进行详细的介绍: 1. 使用 DOM(JAXP Crimson 解析器) DOM(Document Object Model)是一种以层次...

    Java更新XML的四种常用方法简介

    Java更新XML文档的方法主要包括四种,本文将探讨这些方法并分析其优缺点。首先,我们要了解JAXP(Java API for XML Processing),这是一个用于XML处理的Java编程接口,支持DOM、SAX和XSLT等标准。JAXP的可插拔层...

    java_xml_api,java操作XML文档

    XPath是XML路径语言,用于在XML文档中定位节点。Java的javax.xml.transform包提供了这些功能。 8. DOM4J和JDOM 虽然Java自带的XML API已经很强大,但还有许多第三方库如DOM4J和JDOM提供了更高级的功能和更好的性能...

    java xml.java操作XML文档

    7. XPath: 是一种查询XML文档的路径语言,可以用来选择XML文档中的特定节点。Java的`javax.xml.xpath.XPath`接口支持XPath表达式的执行。 8. XSLT: 是一种转换XML文档的语言,使用`javax.xml.transform....

    用Java实现基于SOAP的XML文档网络传输及远程过程调用(RPC).

    本文将深入探讨如何使用Java来实现基于SOAP的XML文档网络传输以及远程过程调用(RPC)。这是一项关键的技术,它允许不同系统间的无缝交互,即使这些系统采用不同的编程语言和平台。 SOAP是一种基于XML的协议,主要...

    java文件生成xml文档

    在Java编程中,生成XML文档是一项常见的任务,特别是在构建配置文件、数据交换或者保存结构化信息时。XML(eXtensible Markup Language)是一种标记语言,它的结构清晰、可读性强,非常适合用来存储和传输数据。...

    如何在Java中将XML文档转换成HTML文档.pdf

    1. **导入相关包**:在Java程序中使用XSLT进行转换前,需要导入必要的包,如`javax.xml.transform`、`javax.xml.transform.stream`和`javax.xml.transform.dom`等,这些包提供了执行XSLT转换所需的类和接口。...

    JAVA_API1.6文档(中文)

    java.util.concurrent 在并发编程中很常用的实用工具类。 java.util.concurrent.atomic 类的小工具包,支持在单个变量上解除锁的线程安全编程。 java.util.concurrent.locks 为锁和等待条件提供一个框架的接口和类...

    用java读取修改xml文件的代码实现

    在Java编程中,XML(eXtensible Markup Language)是一种常用的数据交换格式,它具有结构化、可扩展性,常用于存储和传输数据。本文将详细介绍如何使用Java来读取和修改XML文件,主要涉及以下几个核心知识点: 1. *...

    java导入导出xml文件

    在Java编程中,XML(eXtensible Markup Language)是一种常用的数据交换格式,因其结构清晰、易于解析而被广泛应用于各种系统之间的数据传输。本文将深入探讨如何在Java中进行XML文件的导入与导出。 首先,理解XML...

    Java创建xml文档笔记(DOM,DOM4J)

    - 查询能力:DOM4J集成了XPath,可以方便地查找和定位XML文档中的元素。 - 支持命名空间:DOM4J对XML命名空间有很好的支持。 四、示例代码 这里给出一个使用DOM4J创建XML文档的简单示例: ```java import org....

    java自动创建和读取XML文档

    总之,这个项目为你提供了一个实践平台,通过它你可以深入理解Java与XML的交互方式,无论是创建新的XML文档,还是读取并解析已有的XML数据,都能帮助你提升Java编程和数据处理能力。记得在实际操作中,不断练习和...

    用java读取xml文件的四种方法

    在Java编程中,XML(可扩展标记语言)是一种常见的数据交换格式,用于存储和传输结构化数据。要读取XML文件,Java提供了多种方法。以下是四种常用的方法,每种都有其适用场景和特点: 1. **DOM解析器(Document ...

    Java XML编程指南

    - XPath是用于在XML文档中查找信息的语言,例如选择节点、计算表达式等。Java中的`javax.xml.xpath.XPath`接口提供了XPath支持。 - XSLT(Extensible Stylesheet Language Transformations)用于转换XML文档。`javax...

Global site tag (gtag.js) - Google Analytics