`

Java读取word文档解决方案

阅读更多
java读取word文档时,虽然网上介绍了很多插件poi、java2Word、jacob、itext等等,poi无法读取格式(新的API估计行好像还在处于研发阶段,不太稳定,做项目不太敢用);java2Word、jacob容易报错找不到注册,比较诡异,我曾经在不同的机器上试过,操作方法完全一致,有的机器不报错,有的报错,去他们论坛找高人解决也说不出原因,项目部署用它有点玄;itxt好像写很方便但是我查了好久资料没有见到过关于读的好办法。经过一番选择还是折中点采用rtf最好,毕竟rtf是开源格式,不需要借助任何插件,只需基本IO操作外加编码转换即可。rtf格式文件表面看来和doc没啥区别,都可以用word打开,各种格式都可以设定。

----- 实现的功能:读取rtf模板内容(格式和文本内容),替换变化部分,形成新的rtf文档。

----- 实现思路:模板中固定部分手动输入,变化的部分用$info$表示,只需替换$info$即可。
       1、采用字节的形式读取rtf模板内容
       2、将可变的内容字符串转为rtf编码
       3、替换原文中的可变部分,形成新的rtf文档

主要程序如下:
/**
 * 将制定的字符串转换为rtf编码
 */
public String bin2hex(String bin) {
        char[] digital = "0123456789ABCDEF".toCharArray();
        StringBuffer sb = new StringBuffer("");
        byte[] bs = bin.getBytes();
        int bit;
        for (int i = 0; i < bs.length;i++) {
            bit = (bs[i] & 0x0f0) >> 4;
            sb.append("\\'");
            sb.append(digital[bit]);
            bit = bs[i] & 0x0f;
            sb.append(digital[bit]);
        }
        return sb.toString();
    }
 
/**
 * 字节形式读取rtf模板内容
 */
public String readByteRtf(InputStream ins, String path){
   String sourcecontent = "";
  try{
    ins = new FileInputStream(path);
    byte[] b = new byte[1024];
          if (ins == null) {
               System.out.println("源模板文件不存在");
          }
          int bytesRead = 0;
          while (true) {
              bytesRead = ins.read(b, 0, 1024); // return final read bytes counts
              if(bytesRead == -1) {// end of InputStream
               System.out.println("读取模板文件结束");
               break;
              }
              sourcecontent += new String(b, 0, bytesRead); // convert to string using bytes
           }
  }catch(Exception e){
   e.printStackTrace();
  }
}

      以上为核心代码,剩余部分就是替换,从新组装java中的String.replace(oldstr,newstr);方法可以实现,在这就不贴了。源代码部分详见附件。运行源代码前提:

c盘创建YQ目录,将附件中"模板.rtf"复制到YQ目录之下,运行OpreatorRTF.java文件即可,就会在YQ目录下生成文件名如:21时15分19秒_cheney_记录.rtf 的文件。。。。。文件名是在程序中指定的呵呵。由于是由商业软件中拆分出的demo所以只是将自己原来的写的程序分离,合并在一个java文件中,所以有的方法在示例程序中看似多余,没有必要那么麻烦。

     对于替换部分需要循环的特例程序,我不好拆分,里面很容易暴露商业软件的东西,所以就不贴了,有需要的话可以加我QQ或者MSN,一起讨论呵呵。附件传了半天也没有传上去,没有办法只有这样搞了呵呵。模板文件附件无法存放,需要的直接联系呵呵。其实直接看以下的java程序部分,就会明白
 
/**
 * 以下部分是java源代码
 */
 
package com;
 
import java.io.File;
import java.io.FileInputStream;
import java.io.FileWriter;
import java.io.IOException;
import java.io.InputStream;
import java.io.PrintWriter;
import java.text.SimpleDateFormat;
import java.util.Date;
 
public class OperatorRTF {
 
	/**
	 * 字符串转换为rtf编码
	 * @param content
	 * @return
	 */
	public String strToRtf(String content){
		char[] digital = "0123456789ABCDEF".toCharArray();
        StringBuffer sb = new StringBuffer("");
        byte[] bs = content.getBytes();
        int bit;
        for (int i = 0; i < bs.length; i++) {
            bit = (bs[i] & 0x0f0) >> 4;
        	sb.append("\\'");
            sb.append(digital[bit]);
            bit = bs[i] & 0x0f;
            sb.append(digital[bit]);
        }
        return sb.toString();
	}
	
	/**
	 * 替换文档的可变部分
	 * @param content
	 * @param replacecontent
	 * @param flag
	 * @return
	 */
	public String replaceRTF(String content,String replacecontent,int flag){
		String rc = strToRtf(replacecontent);
		String target = "";
		/*if(flag==0){
			target = content.replace("$time$",rc);
		}*/
		if(flag==0){
			target = content.replace("$timetop$",rc);
		}
		if(flag==1){
			target = content.replace("$info$",rc);
		}
		if(flag==2){
			target = content.replace("$idea$",rc);
		}
		if(flag==3){
			target = content.replace("$advice$",rc);
		}
		if(flag==4){
			target = content.replace("$infosend$",rc);
		}
		return target;
	}
	
	/**
	 * 获取文件路径
	 * @param flag
	 * @return
	 */
	public String getSavePath() {
		
		String path = "C:\\YQ";
		
		File fDirecotry = new File(path);
		if (!fDirecotry.exists()) {
			fDirecotry.mkdirs();
		}
		return path;
	}
	
	/**
	 * 半角转为全角
	 */
	public String ToSBC(String input){
	    char[] c = input.toCharArray();
	    for (int i = 0; i < c.length; i++){
	        if (c[i] == 32){
	            c[i] = (char) 12288;
	            continue;
	        }
	        if (c[i] < 127){
	        	c[i] = (char) (c[i] + 65248);
	        }
	    }
	    return new String(c);
	}
	
	public void rgModel(String username, String content) {
		// TODO Auto-generated method stub
		/*  构建生成文件名 targetname:12时10分23秒_username_记录.rtf */
		Date current=new Date();
        SimpleDateFormat sdf=new java.text.SimpleDateFormat("yyyy-MM-dd HH:mm:ss");
		String targetname = sdf.format(current).substring(11,13) + "时";
		targetname += sdf.format(current).substring(14,16) + "分";
		targetname += sdf.format(current).substring(17,19) + "秒";
		targetname += "_" + username +"_记录.rtf";
		
		/* 字节形式读取模板文件内容,将结果转为字符串 */
		String strpath = getSavePath();
		String sourname = strpath+"\\"+"模板.rtf";
		String sourcecontent = "";
		InputStream ins = null;
		try{
			 ins = new FileInputStream(sourname);
			 byte[] b = new byte[1024];
	         if (ins == null) {
	              System.out.println("源模板文件不存在");
	         }
	         int bytesRead = 0;
	         while (true) {
	             bytesRead = ins.read(b, 0, 1024); // return final read bytes counts
	             if(bytesRead == -1) {// end of InputStream
	            	 System.out.println("读取模板文件结束");
	            	 break;
	             }
	             sourcecontent += new String(b, 0, bytesRead); // convert to string using bytes
	          }
		}catch(Exception e){
			e.printStackTrace();
		}
		/* 修改变化部分 */
		String targetcontent = "";
		/**
		 * 拆分之后的数组元素与模板中的标识符对应关系
		 * array[0]:timetop    
		 * array[1]:info		
		 * array[2]:idea		
		 * array[3]:advice		
		 * array[4]:infosend	
		 */
		String array[] = content.split("~");
		/**
		 * 2008年11月27日:更新模板之后时间无需自动填充
		 */
		/*String nowtime = sdf.format(current).substring(0,4) + "年";
		nowtime += sdf.format(current).substring(5,7) + "月";
		nowtime += sdf.format(current).substring(8,10) + "日";*/
		for(int i=0;i<array.length;i++){
			/*if(i==0){
				targetcontent = documentDoc.replaceRTF(sourcecontent,nowtime,i);
			}else{
				targetcontent = documentDoc.replaceRTF(targetcontent,array[i-1],i);
			}*/
			if(i==0){
				targetcontent = replaceRTF(sourcecontent, array[i], i);
			}else{
				targetcontent = replaceRTF(targetcontent, array[i], i);
			}
			
		}	
		/* 结果输出保存到文件 */
		try {
			FileWriter fw = new FileWriter(getSavePath()+"\\" + targetname,true);
            PrintWriter out = new PrintWriter(fw);
            if(targetcontent.equals("")||targetcontent==""){
            	out.println(sourcecontent);
            }else{
            	out.println(targetcontent);
            }
            out.close();
            fw.close();
            System.out.println(getSavePath()+"  该目录下生成文件" + targetname + " 成功");
		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
	}
	
	
	
	
	public static void main(String[] args) {
		// TODO Auto-generated method stub
		OperatorRTF oRTF = new OperatorRTF();
		/**
		 * 被替换内容以"~"符号分割,处理的时候将其拆分为数组即可
		 */
		String content = "2008年10月12日9时-2008年10月12日6时~我们参照检验药品的方法~我们参照检验药品的方法~我们参照检验药品的方法~我们参照检验药品的方法";
		oRTF.rgModel("cheney",content);
 
	}
 
}
分享到:
评论
4 楼 wallimn 2012-04-10  
一般就装文档插件,或者转化成其它格式。
3 楼 zjfcyefeng 2012-04-09  
在非Web环境下用字节码读取没有问题的,但是要将结果显示在网页上就难了(有文字跟图片混合)
2 楼 wallimn 2012-04-09  
这段代码没有考虑图片的问题。是不是用字节流的方式流就可以了。
1 楼 zjfcyefeng 2012-04-05  
如果RTF文档中包含图片呢,怎么读取哦?

相关推荐

    java读取word文档

    本文将详细介绍如何利用Java读取Word文档,并探讨一些常见的问题及解决方案。 #### 二、主要方法 ##### 1. 使用POI读取Word文档 Apache POI是Java编程语言中处理Microsoft Office格式文件的强大工具集,其中包括...

    java编辑word文档工具源码

    在"java修改word文档内容"这个文件中,我们可以期待找到一些示例代码,展示如何使用Apache POI库来读取、修改Word文档内容。这些示例可能包括以下步骤: 1. 引入Apache POI的依赖到你的项目中,通常在Maven或Gradle...

    Java读写xml,word,xml文件(防乱码)

    在深入探讨具体的解决方案之前,我们先来了解一下文件编码的基本概念。文件编码是指计算机用来存储和传输字符集的方法。常见的编码格式包括UTF-8、GBK、ISO-8859-1等。不同的操作系统、软件可能使用不同的默认编码...

    通过java将word文档转换成html页面

    在IT行业中,经常需要处理各种类型的...总之,Java结合JACOB库为Word到HTML的转换提供了一种可行的解决方案,特别是在没有其他服务器端服务可用时。然而,对于大规模或性能敏感的应用,可能需要评估其他技术和策略。

    java实现word在线编辑及流转

    这通常涉及到用户无需下载文件到本地,即可在浏览器中直接编辑Word文档,并能进行版本控制和协同工作。PageOffice组件是一个强大的工具,它能够帮助开发者轻松地集成这种功能到他们的应用中。 PageOffice是由北京...

    java 根据word模板生成word 文档

    Java作为一种广泛使用的编程语言,提供了多种方法来根据Word模板生成Word文档,而Jacob库就是其中一种非常实用且功能强大的解决方案。 #### Jacob库简介 Jacob(Java and COM Bridge)是一个开源的Java类库,它...

    java使用poi技术解析word文档

    在这种情况下,Apache POI 项目便提供了一种解决方案,允许 Java 应用程序读取、写入和操作 Microsoft Office 文件格式,包括 Word 文档。 POI 项目简介 Apache POI 项目是 Apache 软件基金会的一个开源项目,旨在...

    完美解决方案:Java生成复杂Word文档

    【Java生成复杂Word文档的完美解决方案】 在Java开发中,生成复杂的Word文档一直是一个挑战,尤其是在满足严格的格式和打印需求时。传统的解决方案如Apache POI和iText在处理大量表格、图片以及复杂的文档布局时,...

    java读word系统调用工具

    Java读取Word文档通常涉及到对Microsoft Office接口的模拟,这在Java中通常是通过第三方库来实现的。这里提到的“java读word系统调用工具”指的是利用Java COM(Component Object Model)桥梁技术来与Windows系统中...

    java操作word文件工具类级dell文件

    在Java中,由于Java本身并不直接支持与Windows API交互,因此需要借助第三方库来实现,其中Jacob(Java COM Bridge)是一个常用的解决方案。 Jacob是一个开源Java库,它提供了Java到COM(Component Object Model)...

    java 读取 doc docx word 中的内容 数据

    ### Java读取DOC/DOCX/Word文档内容的数据方法 #### 概述 在实际开发过程中,经常需要处理各种格式的文档数据。其中,Word文档(.doc 和 .docx)是最常见的一种类型。Java提供了多种库来读取这些文档中的内容,...

    word文档转成Html方案

    `word 导入内容.java`是这个解决方案的主要源代码文件,它应该包含了读取Word文档、转换为HTML以及可能的自定义格式处理的逻辑。通常,这个过程会涉及到解析Word文档的内部结构,提取文本、样式和图像等元素,然后...

    java版everything+纯java不用任何包读取office中word文件

    此外,描述中还提到了“java读取压缩文件解包压缩文件等各种文件操作类”,这意味着这个项目可能包含了一套完整的文件操作工具集,包括: - **压缩文件**:使用`ZipOutputStream`可以创建ZIP文件,将多个文件或目录...

    java动态生成word文件Demo

    本Demo提供了这样一个解决方案,结合了二维码生成的功能,使得文件内容更加丰富和交互。 首先,我们来了解一下Java动态生成Word文件的核心技术。Java中可以使用Apache POI库来操作Microsoft Office格式的文件,包括...

    PageOffice Java开发 实现Word文件的批量生成

    PageOffice是一款强大的Java组件,专为处理Office文档提供解决方案,包括创建、编辑、转换和打印等操作。在这个实例中,我们将探讨如何利用PageOffice和其FileMaker标签控件在Java环境中实现Word文件的批量生成。 ...

    JAVA读取WORD,EXCEL,POWERPOINT,PDF文件的方法

    对于PowerPoint文件(.ppt或.pptx),Apache POI同样提供了解决方案。下面是一个简单的示例,用于读取PowerPoint演示文稿中的幻灯片标题: ```java import org.apache.poi.hslf.usermodel.SlideShow; import org....

    java生成word,包括word表格,表格插入图片,jar包都在了

    这个项目提供了一个完整的解决方案,使得开发者无需深入了解Word文档的内部结构,就能方便地在Java中生成包含表格和图片的Word文档。对于那些需要在Java应用中生成复杂Word文档的开发者来说,这是一个非常实用的资源...

    JAVA生成WORD工具类

    这个“JAVA生成WORD工具类”提供了一种解决方案,使得开发者可以通过代码动态地生成Word文档,避免手动操作的繁琐和错误。下面将详细介绍这个工具类的工作原理和可能的应用场景。 首先,Java生成Word文档通常涉及到...

    RtfTemplate实现Java生成word

    RtfTemplate库就是利用这种格式的特性,为Java开发提供了一种生成Word文档的解决方案。 在使用RtfTemplate时,首先需要准备一个RTF格式的模板文件,该文件包含静态文本和一些占位符,比如`{{variable}}`,这些占位...

Global site tag (gtag.js) - Google Analytics