`
lgl669
  • 浏览: 174941 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

Java操作office 2007文档

    博客分类:
  • java
阅读更多

我们希望将Office 2007平台作为一个构建富客户端应用程序的基本平台,并通过不同的手段使用Java来进行互操作。 但是,有一个Office/Java互操作的方面没有考虑到,那就是使Office和Java共同工作,也就是说让Java应用程序来操作Office文 档:比如创建文档,编辑文档,收集数据等等。

从以往看来,这其中经常会出现一些问题,这是由于Office文档(主要是Word,Excel和PowerPoint)是存储在一个二进制格式文 件中,在COM中被称为结构化存储格式, 是一个通过COM接口的层次化二进制格式。 对COM开发者(或者其他使用COM相关语言的开发者,如Visual Basic, Delphi 和C++/ATL)而言非常方便,但产生的文件对于那些不能“讲COM”的语言是无法访问的。有许许多多的应用程序都是为了让Java语言可以访问这些文 件的内容;比如大家都知道Excel可以读取逗号分隔符文件(CSV),因此,Java应用程序相应将数据导出到Excel友好的格式时一般会选用CSV 格式(或是其他丑陋的格式)。Word则是可以读取富文本格式(RTF)文件,而RTF标准是公开和有详细文档的。Office的后来者,Office 2003,引入了一个新的XML格式(WordML),Java开发者可以用它来读写Office文档,但是这些格式并没有很好的文档,Java开发者频 繁的发现自己是通过试错法来进行WordML格式的学习。 各种各样的开源项目都参与进来想要解决这个问题,比如Apache的POI框架,可以用来读写Excel文档,还有各种各样的Java-COM解决方案, 这些解决方案一般倾向于使用和Office自己使用的结构化存储应用程序接口相同的应用程序接口进行Excel文档的读写,但很难满足需要,直到现在,开 发者不得不指出Office文档格式的内部结构是一个非常复杂的结构,另外一点毋庸置疑的是它是一个没有完整文档的结构。

总体上来说,如果温和一点说的话,Java/Office的故事是一个非常讨厌的境况。对于Java的开发人员而言,他们要么一边嘴里说着 “Office这种破东西怎么还会有人想去用它”一边用记忆里的伊索寓言来安慰自己,要么干脆告诉那些使用Office的客户由于Microsoft和 Sun两家公司之间的诉讼,Java不能操作Office。

对于Office 2007来说,微软毫无疑问的迈出了解决这些问题的一大步。没有比原始的JDK更复杂的东西---也就是说并不要求使用一些第三方的库---Java应用 程序现在可以读写任何Office 2007的文档,这是由于Office 2007文档现在使用的是XML文档的ZIP格式文件。 这种格式被称作“OpenMXL”规范并且已经被提交到欧洲计算机制造商协会(ECMA),这个协会同样拥有C#语言和CLI运行时规范,所有的 OpenXML规范现在都可以被任何人自由的从ECMA 的网站下载。 除了这些,再安装好Office 2007(为了验证和作一些测试)和一个标准的Java6 JDK安装,Java现在可以打开任何的Office 2007文档,找出来文档中间的内容,操作它们,并且再次保存这些数据。

与上篇文章不同,在这篇文章中,除了创建一个简单的应用程序之外,代码将会使用一种首先由Stuart Halloway提出的、被称作探索测试(exploration testing)的技术。在一个探索测试中,开发者编写单元测试用来探索应用程序接口,使用单元测试世界中的断言验证结果的正确性。探索测试带来的好处是 当一个新版本的应用程序接口可用时---在这个例子中,可能是一个新版本的Office---运行这些测试可以用来确认新版本的采用不会影响到原本对应用 程序接口的使用。

对于初学者来说,让我们首先快速的了解一下Office 2007文档。首先看一个仅仅包含文本的Word 2007文档,就像下面一样:


当保存的时候,使用Word 2007将它保存为“Hello.docx”,除非你使用了向后兼容格式,比如说Office 2003的WordML格式,或者是更老的Word 97二进制结构化存储格式。“.docx”文件是OpenXML格式的,微软的文档中声称该格式是XML文档的ZIP压缩格式文件,这些文件中包含了文档 中的数据和格式,存储的方式与之前的Office版本中的二进制结构化存储应用程序接口存储数据的方式有些类似。如果这是真的,那么使用Java中提供的 用来处理ZIP和TAR格式的“jar”实用工具应该可以展示这些内容,而事实上,它的确可以:


Word 2007文档的基本格式已经非常明显了,仅仅通过控制台的输出就可以看到。(事实上,“jar”实用工具所展示的这激动人心的一切,说明 java.util.jar和/或 java.util.zip包同样可以简单的访问这些内容。)几乎没有对规范作任何的破解,很明显,文档中的主要内容应该被存储到了 “document.xml”文件中,剩余的其他XML文件则应该是各种各样的辅助部分,比如文档中应用到的字体(fontTable.xml)和使用到 的Office主题(theme/theme1.xml),等等。

是时间来编写一些探索测试了。(我们鼓励感兴趣的读者打开一个文本编辑器或者集成开发环境,并将下面的内容填入你的JUnit 4测试类当中,并且扩展这些测试。) 使用JUnit 4,第一个测试是为了简单的确认文件在我们预想的位置(显然这是下面测试可以运行的一个必要的需求)。

@Test public void verifyFileIsThere() {
  assertTrue(new File("hello.docx").exists());
  assertTrue(new File("hello.docx").canRead());
  assertTrue(new File("hello.docx").canWrite());
}

下面的测试简单的验证了我们可以使用Java库中的java.util.zip.ZipFile来打开这个文件:

@Test public void openFile()
  throws IOException, ZipException
{
  ZipFile docxFile =
    new ZipFile(new File("hello.docx"));
  assertEquals(docxFile.getName(), "hello.docx");
}

现在一切看来都非常不错。Java的ZipFile类正确的识别了我们的文件,一个zip文件,如果我们还能继续保持这样的运气,让我们继续我们的 测试,来遍历一下,识别文档中的内容并找出其中的数据。让我们编写一个快速的测试来从“document.xml”文件中找出所有的内容。

@Test public void listContents()
  throws IOException, ZipException
{
  boolean documentFound = false;

  ZipFile docxFile = 
    new ZipFile(new File("hello.docx"));
  Enumeration entriesIter =
    docxFile.entries();
  while (entriesIter.hasMoreElements())
  {
    ZipEntry entry = entriesIter.nextElement();

    if (entry.getName().equals("document.xml"))
      documentFound = true;
  }
  assertTrue(documentFound);
}

令人诧异的是,当我们运行测试的时候,测试过程产生了一个失败;并没有找到“document.xml”文件,这是由于 ZipFile/ZipEntry 应用程序接口需要压缩文件中完整的路径名称。将测试中的路径改为“word/document.xml”,测试就通过了。

很好,我们已经找到文件了,下面让我们打开这个文件看看XML里面是什么。这非常简单,因为ZipFile有一个返回ZipEntry的应用程序接口。

@Test public void getDocument()
  throws IOException, ZipException
{
  ZipFile docxFile = 
    new ZipFile(new File("hello.docx"));
  ZipEntry documentXML =
    docxFile.getEntry("word/document.xml");
  assertNotNull(documentXML);
}

ZipFile代码可以返回它包含的实体内容,通过调用getInputStream() 方法即可,不要对InputStream产生任何怀疑。将InputStream发送到一个DOM节点中就可以创建一个关于该文档的DOM。

@Test public void fromDocumentIntoDOM()
  throws IOException, ZipException, SAXException,
         ParserConfigurationException
{
  ZipFile docxFile =
    new ZipFile(new File("hello.docx"));
  ZipEntry documentXML =
    docxFile.getEntry("word/document.xml");
  InputStream documentXMLIS =
    docxFile.getInputStream(documentXML);
  DocumentBuilderFactory dbf =
    DocumentBuilderFactory.newInstance();
  Document doc =
    dbf.newDocumentBuilder().parse(documentXMLIS);

  assertEquals("[w:document: null]",
               doc.getDocumentElement().toString());
}

事实上,与其他支持各种Word所需格式的XML文档相比,document.xml文件的内容(为了明显起见,将命名空间声明等内容去除)看起来也相当乏味:

<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
 <w:document ...>
 <w:body>
 <w:p w:rsidR="00DE36E5" w:rsidRDefault="00DE36E5">
 <w:r>
 <w:t>Hello, from Office 2007!</w:t>
 </w:r>
 </w:p>
 <w:sectPr w:rsidR="00DE36E5">
 <w:pgSz w:w="12240" w:h="15840"/>
 <w:pgMar w:top="1440" w:right="1440" w:bottom="1440" w:left="1440" w:header="720" w:footer="720" w:gutter="0"/>
 <w:cols w:space="720"/>
 <w:docGrid w:linePitch="360"/>
 </w:sectPr>
 </w:body>
 </w:document>

关于文档中各个元素具体代表什么内容的细节已经超出了这篇文章的讨论范围,读者可以查阅OpenXML文档的具体内容来获得参考,但是文档中的主要 内容是十分明显的。比如说文档中包括“p”元素(段落),包括“r”元素(文本区),包括“t”元素(文本),在本例的hello.docx文档中,单句 “Hello from Office 2007”就是由这些元素构成的。

读过文件的内容后,现在可以来修改这些内容了,将其写到文件中,并用Word 2007打开它。快速的查看ZipFile和ZipEntry的应用程序接口可以发现这样一个问题:尽管这些类可以用来读取一个zip文件,但它们并不能写入或创建它们。

有很多可用的方法可以用于解决这个问题。一个简单的方法是将XML文件的内容文本写到一个字符串中,并将这个字符串存储到document.xml 文件中,然后重新使用ZipOutStream类压缩所有的内容。另一个方法是使用一些可以编辑zip文件内容的第三方工具(或创建一个),但这些已经脱 离了JDK的基本内容,所以在这篇文章中我们将使用ZipOutStream方法。

为了达到我们的目的,我们需要做很多事情。首先,Java应用程序必须定位到DOM的层次结构中,找到“t”节点,然后将它的文本内容替换为我们要 写入到Word文档中的内容。(“Hello,Office 2007,from Java6!”是个不错的选择)产生的新DOM实例必须要保存到磁盘中,使用Java XML 应用程序接口时这并不是一个简单的任务。(简单的说来,开发者需要从javax.xml.transform包中创建一个Transformer,然后将 XML转换为一个StreamResult,再交由ByteArrayOutputStream处理。)

一旦上面这些事情都处理完毕后,代码必须要产生一个ZIP格式的文件,是时候使用ZipOutputStream了,但由于只需要改变文档的内容, 而不需要改变它的样式、字体以及格式,其他的部分可以从原始的文件中拷贝过来。使用一个简单的循环,遍历原始文件中的ZipEntries中所有的内容 (除了word/document.xml,该文件中的内容需要被改变)并将其导出到一个新的ZipEntry中并写入该实体就足够了。当所有的工作都完 成后,代码将会是以下的样子:

@Test public void modifyDocumentAndSave()
  throws IOException, ZipException, SAXException,
         ParserConfigurationException,
         TransformerException,
         TransformerConfigurationException
{
  ZipFile docxFile =
    new ZipFile(new File("hello.docx"));
  ZipEntry documentXML =
    docxFile.getEntry("word/document.xml");
  InputStream documentXMLIS =
    docxFile.getInputStream(documentXML);
  DocumentBuilderFactory dbf =
    DocumentBuilderFactory.newInstance();
  Document doc =
    dbf.newDocumentBuilder().parse(documentXMLIS);

  Element docElement = doc.getDocumentElement();
  assertEquals("w:document", docElement.getTagName());

  Element bodyElement = (Element)
    docElement.getElementsByTagName("w:body").item(0);
  assertEquals("w:body", bodyElement.getTagName());

  Element pElement = (Element)
    bodyElement.getElementsByTagName("w:p").item(0);
  assertEquals("w:p", pElement.getTagName());

  Element rElement = (Element)
    pElement.getElementsByTagName("w:r").item(0);
  assertEquals("w:r", rElement.getTagName());

  Element tElement = (Element)
    rElement.getElementsByTagName("w:t").item(0);
  assertEquals("w:t", tElement.getTagName());

  assertEquals("Hello, from Office 2007!",
               tElement.getTextContent());

  tElement.setTextContent(
    "Hello, Office 2007, from Java6!");

  Transformer t =
    TransformerFactory.newInstance().newTransformer();
  ByteArrayOutputStream baos =
    new ByteArrayOutputStream();
  t.transform(new DOMSource(doc),
    new StreamResult(baos));

  ZipOutputStream docxOutFile = new ZipOutputStream(
    new FileOutputStream("response.docx"));
  Enumeration entriesIter =
    docxFile.entries();
  while (entriesIter.hasMoreElements())
  {
    ZipEntry entry = entriesIter.nextElement();

    if (entry.getName().equals("word/document.xml"))
    {
      byte[] data = baos.toByteArray();
      docxOutFile.putNextEntry(
        new ZipEntry(entry.getName()));
      docxOutFile.write(data, 0, data.length);
      docxOutFile.closeEntry();
    }
    else
    {
      InputStream incoming =
        docxFile.getInputStream(entry);
      byte[] data = new byte[1024 * 16];
      int readCount =
        incoming.read(data, 0, data.length);
      docxOutFile.putNextEntry(
        new ZipEntry(entry.getName()));
      docxOutFile.write(data, 0, readCount);
      docxOutFile.closeEntry();
    }
  }
  docxOutFile.close();

}

很抱歉这里展示了这么多代码,但是说实在的,这也是Java相比其他语言或者库的一个弱点。幸运的是我们的努力得到了以下的回报:


显然我们可以作很多事情来改善上面的场景。

首先,一个更好的XML操作库,可以更好的支持XPath技术,能够原生的序列化XML DOM结构到磁盘的库会对减少大量的代码有所帮助。JDOM,一个开源的Java/XML库(可以在jdom.org中找到),是一个可用的选择。 Apache的XMLBeans也不错。一个必然的结果是我们可以获得更好的描述OpenXML格式的模式文档,并使用它们来产生一系列的Java类来更 好的反映OpenXML文档的格式。开发者则可以更好的使用原生的Java类工作,而不是通过“Document”类和“Element”类。

其次,这些方法可以被绑定到一个更加针对Office的应用程序接口当中,可以改善针对实际存储的Word(或是 Excel,PowerPoint)文档的XML文件操作的抽象层,关注那些拥有段落,字体等等其他的文档。实质上,像POI那样的库应该可以通过更新类 反映Office XML格式的改动,理想的话,可以同时支持写入二进制结构化存储格式和新的OpenXML格式。

再次,Java可以对其ZIP文件格式的支持进行一些改动,同样,这样的目的也可以由使用一些第三方的库来完成。

尽管使用了一些笨重的应用程序接口调用,但是当想到Office平台对Java开发人员有多开放时还是非常的令人激动和振奋。在Java和 Office应用程序的互操作性上,在Java应用程序中使用Office,还有在Java中创建和读写Office文件格式上,Office平台对 Java社区的开发人员比以往任何时候都更加开放了。

分享到:
评论

相关推荐

    用Java操作Office 2007

    在Java操作Office文档的场景中,可以创建单元测试来读取、修改和保存OpenXML文档,确保升级Office版本或调整代码时不会破坏原有功能。 5. **文档结构** - Office 2007的OpenXML文档结构复杂,包含多个XML文件,如...

    java操作office2007

    Java 操作 Office 2007 的主要挑战在于 Office 文档的存储格式,尤其是 Word、Excel 和 PowerPoint 文件,它们是以二进制格式(结构化存储格式)存储的,这种格式对于 COM 开发者友好,但对于不支持 COM 的 Java 来...

    java 操作office文档

    标题与描述概述的知识点主要集中在Java操作Office文档的能力,尤其是对Excel的处理。这涉及到Apache POI库的使用,这是一个强大的工具,允许开发者在Java环境中读取、创建和修改Microsoft Office文档,包括Word、...

    java操作office文档开发包

    Java操作Office文档开发包主要指的是Apache POI项目,这是一个开源的Java库,专门用于读取、写入和修改Microsoft Office格式的文件,如Word(.doc/.docx)、Excel(.xls/.xlsx)和PowerPoint(.ppt/.pptx)。在Java...

    java 实现office文档的在线预览

    java 实现的文档在线预览: 需要下载的工具有:OpenOffice+flexpaper+swftools+jodcconverter * .启动OpenOffice的服务 * 1 win+R开启dos窗口 * 2 执行:cd C:\Program Files (x86)\OpenOffice 4\program * 3 ...

    java 操作office文档 jacob 16

    Java操作Office文档是一种常见的需求,尤其是在自动化处理、数据迁移或者报表生成等场景中。Jacob库是Java和COM接口之间的一个桥梁,它允许Java程序能够调用Microsoft Office的应用程序,如Word、Excel和PowerPoint...

    JAVA操作编辑修改office文件word,excel,ppt

    Apache POI是一个强大的开源库,专门用于处理微软的Office文档格式,包括旧的HSSF/HWPF(用于处理BIFF格式的Excel和Word)以及新的XSSF/XWPF(用于处理OOXML格式的Excel和Word)。此外,Apache POI还提供了HSLF用于...

    (WebOffice)java端在线打开编辑文档

    WebOffice是一款专业的在线文档处理系统,它允许用户通过Java平台在Web环境中实现对各种Office文档的在线打开和编辑。这款工具极大地提升了协作效率,让用户无需安装任何桌面版Office软件即可在浏览器中完成文档的...

    JAVA在线预览office文档

    JAVA在线预览office文档JAVA在线预览office文档JAVA在线预览office文档

    JAVA用PageOffice动态导出Word文档

    JAVA 用 PageOffice 动态导出 Word 文档 ...本文档展示了如何使用 PageOffice 在 JAVA 中动态导出 Word 文档,满足了软件开发中对office文档处理的需求。该功能可以应用于软件开发中,例如生成正式文件、报告、协议等。

    Java Web Office 文档在线编辑

    传统的客户端安装方式不仅消耗资源且维护成本高,而基于Java Web的Office文档在线编辑系统则可以很好地解决这些问题。本文档将详细介绍如何构建这样一个系统,并重点介绍其实现原理和技术要点。 #### 二、关键技术...

    java读取office文档demo

    在Java编程环境中,读取Office文档是一项常见的任务,特别是在数据处理和自动化办公场景下。本示例Demo专注于演示如何使用Java来读取不同类型的Office文档,包括Excel、Word、PDF和PowerPoint。以下是对这个"java...

    Java实现web在线预览office文档

    - 使用Java的`Runtime.getRuntime().exec()`方法执行命令行操作,调用`unoconv`或者直接调用LibreOffice的`soffice`命令,将Office文档转换为PDF。例如: ```java Process process = Runtime.getRuntime().exec(...

    java调用PageOffice生成word

    PageOffice是一款专为Java设计的Office文档处理组件,它提供了丰富的API接口,使得开发者可以方便地在Java环境中实现对Word文档的读写操作。 PageOffice主要功能包括: 1. **读取数据库数据**:PageOffice支持连接...

    java 操作 word文档

    这个库提供了Java与COM(Component Object Model)接口的桥梁,使得Java能够调用Windows API,从而实现对Office应用如Word的操作。 Jacob库主要依赖两个文件:`jacob.dll`和`jacob.jar`。`jacob.dll`是Jacob库的...

    java导出word、excel、pdf、txt文件,同时兼容office2003和office2007

    本教程将详细介绍如何使用Java进行文件导出,并确保与Office 2003和Office 2007的兼容性。 首先,我们要提到的是Apache POI项目,这是一个用于读写Microsoft Office格式文件的开源Java库。对于Word文档(.doc和....

    java操作office

    Java操作office,可以在线操作,保存文档

Global site tag (gtag.js) - Google Analytics