0 0

求java 完美解析 docx文档例子0

求java 完美解析 docx文档例子
 
2012年7月04日 17:41

3个答案 按时间排序 按投票排序

0 0

采纳的答案

  java读取word文档时,虽然网上介绍了很多插件poi、java2Word、jacob、itext等等,poi无法读取格式(新的API估计行好像还在处于研发阶段,不太稳定,做项目不太敢用);java2Word、jacob容易报错找不到注册,比较诡异,我曾经在不同的机器上试过,操作方法完全一致,有的机器不报错,有的报错,去他们论坛找高人解决也说不出原因,项目部署用它有点玄;itxt好像写很方便但是我查了好久资料没有见到过关于读的好办法。经过一番选择还是折中点采用rtf最好,毕竟rtf是开源格式,不需要借助任何插件,只需基本IO操作外加编码转换即可。rtf格式文件表面看来和doc没啥区别,都可以用word打开,各种格式都可以设定。



----- 实现的功能:读取rtf模板内容(格式和文本内容),替换变化部分,形成新的rtf文档。



----- 实现思路:模板中固定部分手动输入,变化的部分用$info$表示,只需替换$info$即可。

       1、采用字节的形式读取rtf模板内容

       2、将可变的内容字符串转为rtf编码

       3、替换原文中的可变部分,形成新的rtf文档



主要程序如下:

/**

* 将制定的字符串转换为rtf编码

*/

public String bin2hex(String bin) {
        char[] digital = "0123456789ABCDEF".toCharArray();
        StringBuffer sb = new StringBuffer("");
        byte[] bs = bin.getBytes();
        int bit;
        for (int i = 0; i < bs.length;i++) {
            bit = (bs[i] & 0x0f0) >> 4;

            sb.append("\\'");
            sb.append(digital[bit]);
            bit = bs[i] & 0x0f;
            sb.append(digital[bit]);
        }
        return sb.toString();
    }



/**

* 字节形式读取rtf模板内容

*/

public String readByteRtf(InputStream ins, String path){

   String sourcecontent = "";
  try{
    ins = new FileInputStream(path);
    byte[] b = new byte[1024];
          if (ins == null) {
               System.out.println("源模板文件不存在");
          }
          int bytesRead = 0;
          while (true) {
              bytesRead = ins.read(b, 0, 1024); // return final read bytes counts
              if(bytesRead == -1) {// end of InputStream
               System.out.println("读取模板文件结束");
               break;
              }
              sourcecontent += new String(b, 0, bytesRead); // convert to string using bytes
           }
  }catch(Exception e){
   e.printStackTrace();
  }

}



      以上为核心代码,剩余部分就是替换,从新组装java中的String.replace(oldstr,newstr);方法可以实现,在这就不贴了。源代码部分详见附件。运行源代码前提:



c盘创建YQ目录,将附件中"模板.rtf"复制到YQ目录之下,运行OpreatorRTF.java文件即可,就会在YQ目录下生成文件名如:21时15分19秒_cheney_记录.rtf 的文件。。。。。文件名是在程序中指定的呵呵。由于是由商业软件中拆分出的demo所以只是将自己原来的写的程序分离,合并在一个java文件中,所以有的方法在示例程序中看似多余,没有必要那么麻烦。



     对于替换部分需要循环的特例程序,我不好拆分,里面很容易暴露商业软件的东西,所以就不贴了,有需要的话可以加我QQ或者MSN,一起讨论呵呵。附件传了半天也没有传上去,没有办法只有这样搞了呵呵。模板文件附件无法存放,需要的直接联系呵呵。其实直接看以下的java程序部分,就会明白



/**

* 以下部分是java源代码

*/




package com;



import java.io.File;

import java.io.FileInputStream;

import java.io.FileWriter;

import java.io.IOException;

import java.io.InputStream;

import java.io.PrintWriter;

import java.text.SimpleDateFormat;

import java.util.Date;



public class OperatorRTF {



/**

* 字符串转换为rtf编码

* @param content

* @return

*/

public String strToRtf(String content){

char[] digital = "0123456789ABCDEF".toCharArray();

        StringBuffer sb = new StringBuffer("");

        byte[] bs = content.getBytes();

        int bit;

        for (int i = 0; i < bs.length; i++) {

            bit = (bs[i] & 0x0f0) >> 4;

        sb.append("\\'");

            sb.append(digital[bit]);

            bit = bs[i] & 0x0f;

            sb.append(digital[bit]);

        }

        return sb.toString();

}



/**

* 替换文档的可变部分

* @param content

* @param replacecontent

* @param flag

* @return

*/

public String replaceRTF(String content,String replacecontent,int flag){

String rc = strToRtf(replacecontent);

String target = "";

/*if(flag==0){

target = content.replace("$time$",rc);

}*/

if(flag==0){

target = content.replace("$timetop$",rc);

}

if(flag==1){

target = content.replace("$info$",rc);

}

if(flag==2){

target = content.replace("$idea$",rc);

}

if(flag==3){

target = content.replace("$advice$",rc);

}

if(flag==4){

target = content.replace("$infosend$",rc);

}

return target;

}



/**

* 获取文件路径

* @param flag

* @return

*/

public String getSavePath() {



String path = "C:\\YQ";



File fDirecotry = new File(path);

if (!fDirecotry.exists()) {

fDirecotry.mkdirs();

}

return path;

}



/**

* 半角转为全角

*/

public String ToSBC(String input){

   char[] c = input.toCharArray();

   for (int i = 0; i < c.length; i++){

       if (c[i] == 32){

           c[i] = (char) 12288;

           continue;

       }

       if (c[i] < 127){

       c[i] = (char) (c[i] + 65248);

       }

   }

   return new String(c);

}



public void rgModel(String username, String content) {

// TODO Auto-generated method stub

/*  构建生成文件名 targetname:12时10分23秒_username_记录.rtf */

Date current=new Date();

        SimpleDateFormat sdf=new java.text.SimpleDateFormat("yyyy-MM-dd HH:mm:ss");

String targetname = sdf.format(current).substring(11,13) + "时";

targetname += sdf.format(current).substring(14,16) + "分";

targetname += sdf.format(current).substring(17,19) + "秒";

targetname += "_" + username +"_记录.rtf";



/* 字节形式读取模板文件内容,将结果转为字符串 */

String strpath = getSavePath();

String sourname = strpath+"\\"+"模板.rtf";

String sourcecontent = "";

InputStream ins = null;

try{

ins = new FileInputStream(sourname);

byte[] b = new byte[1024];

        if (ins == null) {

             System.out.println("源模板文件不存在");

        }

        int bytesRead = 0;

        while (true) {

            bytesRead = ins.read(b, 0, 1024); // return final read bytes counts

            if(bytesRead == -1) {// end of InputStream

           System.out.println("读取模板文件结束");

           break;

            }

            sourcecontent += new String(b, 0, bytesRead); // convert to string using bytes

         }

}catch(Exception e){

e.printStackTrace();

}

/* 修改变化部分 */

String targetcontent = "";

/**

* 拆分之后的数组元素与模板中的标识符对应关系

* array[0]:timetop   

* array[1]:info

* array[2]:idea

* array[3]:advice

* array[4]:infosend

*/

String array[] = content.split("~");

/**

* 2008年11月27日:更新模板之后时间无需自动填充

*/

/*String nowtime = sdf.format(current).substring(0,4) + "年";

nowtime += sdf.format(current).substring(5,7) + "月";

nowtime += sdf.format(current).substring(8,10) + "日";*/

for(int i=0;i<array.length;i++){

/*if(i==0){

targetcontent = documentDoc.replaceRTF(sourcecontent,nowtime,i);

}else{

targetcontent = documentDoc.replaceRTF(targetcontent,array[i-1],i);

}*/

if(i==0){

targetcontent = replaceRTF(sourcecontent, array[i], i);

}else{

targetcontent = replaceRTF(targetcontent, array[i], i);

}



}

/* 结果输出保存到文件 */

try {

FileWriter fw = new FileWriter(getSavePath()+"\\" + targetname,true);

            PrintWriter out = new PrintWriter(fw);

            if(targetcontent.equals("")||targetcontent==""){

            out.println(sourcecontent);

            }else{

            out.println(targetcontent);

            }

            out.close();

            fw.close();

            System.out.println(getSavePath()+"  该目录下生成文件" + targetname + " 成功");

} catch (IOException e) {

// TODO Auto-generated catch block

e.printStackTrace();

}

}









public static void main(String[] args) {

// TODO Auto-generated method stub

OperatorRTF oRTF = new OperatorRTF();

/**

* 被替换内容以"~"符号分割,处理的时候将其拆分为数组即可

*/

String content = "2008年10月12日9时-2008年10月12日6时~我们参照检验药品的方法~我们参照检验药品的方法~我们参照检验药品的方法~我们参照检验药品的方法";

oRTF.rgModel("cheney",content);



}



}

2012年7月04日 17:51
0 0

POI吧 项目用过好多次了 很好用,最新3.8吧,网上例子api说明都很多,google随便搜搜
[url]
http://poi.apache.org/[/url]
http://blog.csdn.net/njchenyi/article/details/6901605

2012年7月04日 19:57
0 0

apache的POI

2012年7月04日 17:46

相关推荐

    java 读取doc docx txt 文件例子

    在Java编程中,读取和处理文档是常见的需求,尤其是doc、docx和txt格式的文件,这些都是办公环境中广泛使用的文本文件格式。本示例主要介绍如何使用Java的Apache POI库来处理Microsoft Office的doc和docx文件,以及...

    Java实现XML文档到word文档转换

    ### Java实现XML文档到Word文档转换的关键技术及实践 #### XML简介与应用 XML(Extensible Markup Language,可扩展标记语言)是一种标记语言,旨在定义一套规则,通过这些规则将文档划分为多个部分并对其进行标记...

    java解析doc

    Java解析DOC文档主要涉及到的是对Microsoft Word文件格式的处理,特别是旧版的DOC和较新的DOCX格式。在Java环境中,通常使用第三方库来实现这一功能,因为Java标准库并不直接支持读取或写入这些特定的文件格式。在...

    JAVA_Poi.rar_Java 解析WORD_POI word_java pio_pressureulb_word解析

    1. `simple.doc` 和 `simpleTable.docx`:这些可能是用来展示基本文档和表格解析的例子。 2. `EmbeddedDocument.docx`:这个名字暗示了文档可能包含了嵌入的其他文档,这在解析时需要特别注意,因为它们可能会影响...

    java实训项目设计文档.docx

    2.2微博功能分析 java实训项目设计文档全文共4页,当前为第3页。java实训项目设计文档全文共4页,当前为第3页。 基于系统需求分析,该系统需要实现以下基本功能,下面分别对一些主要功能模块进行介绍。 (1)用户...

    java去除字符串中的空格、回车、换行符、制表符的小例子.docx

    在这个例子中,我们将使用Java的正则表达式功能来去除字符串中的空格、回车、换行符以及制表符。 ```java public class StringUtils { public static String replaceBlank(String str) { String dest = ""; if ...

    Java与XML(一):采用DOM操作XML文件.docx

    在本文中,我们将探讨Java如何利用DOM(Document Object Model)解析XML文件。DOM是一种W3C标准,它提供了一种将XML文档结构化为一个可编程的、与语言和平台无关的对象模型。通过DOM,开发人员可以轻松地访问和修改...

    ELK部署文档.docx

    此外,Logstash还支持过滤(filter)阶段,可以对收集到的数据进行清洗、转换和解析,以便更好地适应后续的分析需求。 总的来说,ELK部署文档详细介绍了Logstash的环境准备、安装过程以及基础配置,为实现高效、...

    docx4j 替换文本

    docx4j通过解析和操作这些XML文件,实现了对文档的编程访问。 docx4j提供了`ReplaceText`类,这是进行文本替换的核心工具。使用这个类,我们可以指定一个要查找的文本和一个替换后的文本,然后docx4j会遍历整个文档...

    java 利用POI读取Word文件中的内容

    在Java编程语言中,Apache POI是一个非常流行的库,它允许开发者处理Microsoft Office格式的文件,包括Word(.doc和.docx)文档。本篇将详细介绍如何利用Apache POI库来读取Word文件中的内容。 首先,理解Apache ...

    java解析pdf,word,ppt,excel 源码

    通过上述分析,我们可以看到,使用Java解析PDF、Word、PPT和Excel文档主要是依赖于两个强大的库:PDFBox和POI。这两个库提供了丰富的API,可以方便地进行文档的读写操作。无论是提取文档中的文本,还是进一步的数据...

    用java生成word文档

    在Java编程环境中生成Word文档是一项常见的任务,尤其在企业级应用中,比如报告生成、数据导出等场景。本文将详细讲解如何使用Java来创建Word文档,并基于提供的资源`tm-extractors-0.4_jar`进行相关讨论。 首先,...

    java ceb转pdf demo

    Java CEB转PDF的示例(Demo)是将方正ceb格式的文档转换为更通用的PDF格式的过程,这在需要全文检索或索引时非常有用。方正ceb是一种封闭的文档格式,主要用于中文电子书籍和文档,而PDF则是一种开放标准,广泛支持...

    template.docx

    本文将详细介绍如何使用Java程序来动态地替换`.docx`文档模板中的定制值。这对于需要批量生成文档的应用场景非常有用,例如生成报告、合同、证书等。通过这种方式,我们可以有效地减少重复工作,并提高工作效率。 #...

    JAVA根据数据库表生成word表格文档

    在Java编程中,生成Word表格文档通常涉及到使用第三方库,如Apache POI,这是一个流行的API,专门用于处理Microsoft Office格式的文件,包括Word(.doc/.docx)。本篇文章将深入探讨如何使用Java和Apache POI从...

    poi解析导入word (简单Demo使用)

    在"poi解析导入word (简单Demo使用)"这个主题中,我们将深入探讨如何使用Apache POI库来读取、修改和创建Word文档。这个项目包含了一个POM文件(项目对象模型),一个Demo示例,以及一个docx文件,提供了完整的导入...

    使用Java-freemarker生成word文档.doc

    在Java开发中,有时我们需要生成动态的Word文档,例如报告、合同或证书等。`Java-Freemarker`是一个强大的模板引擎,它可以帮助我们轻松地完成这个任务。本篇文章将详细讲解如何使用Java-Freemarker来生成Word文档。...

    java准确读取word页码

    以下是一个基本的示例代码片段,展示了如何读取.docx文档的页码: ```java import org.apache.poi.xwpf.usermodel.*; public void readDocxPageNumbers(InputStream is) { XWPFDocument document = new ...

    解析.doc或.docx文件需要的jar包

    在Java编程环境中,处理Microsoft Office文档,特别是.doc和.docx格式的Word文件,通常需要借助Apache POI库。Apache POI是一个开源项目,它提供了读取和写入Microsoft Office格式文件的能力,包括Word、Excel、...

Global site tag (gtag.js) - Google Analytics