`
mcj8089
  • 浏览: 193760 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

POI读取word2003和word2007

    博客分类:
  • Java
POI 
阅读更多

首先引入Maven依赖,如下

 

		<!-- ************word************** -->
		<dependency>
			<groupId>org.apache.poi</groupId>
			<artifactId>poi</artifactId>
			<version>3.13</version>
		</dependency>
		<dependency>
			<groupId>org.apache.poi</groupId>
			<artifactId>poi-scratchpad</artifactId>
			<version>3.13</version>
		</dependency>
		<dependency>
			<groupId>org.apache.poi</groupId>
			<artifactId>openxml4j</artifactId>
			<version>1.0-beta</version>
		</dependency>
		<dependency>
			<groupId>org.apache.poi</groupId>
			<artifactId>poi-ooxml</artifactId>
			<version>3.13</version>
		</dependency>
		<dependency>
			<groupId>dom4j</groupId>
			<artifactId>dom4j</artifactId>
			<version>1.6.1</version>
		</dependency>
		<dependency>
			<groupId>org.apache.geronimo.specs</groupId>
			<artifactId>geronimo-stax-api_1.0_spec</artifactId>
			<version>1.0</version>
		</dependency>
		<dependency>
			<groupId>org.apache.poi</groupId>
			<artifactId>ooxml-schemas</artifactId>
			<version>1.1</version>
		</dependency>
		<dependency>
			<groupId>org.apache.xmlbeans</groupId>
			<artifactId>xmlbeans</artifactId>
			<version>2.3.0</version>
		</dependency>

 

下面编写Java工具类,代码如下

 

import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStream;
import java.net.URL;

import org.apache.poi.POIXMLTextExtractor;
import org.apache.poi.hwpf.extractor.WordExtractor;
import org.apache.poi.xwpf.extractor.XWPFWordExtractor;
import org.apache.poi.xwpf.usermodel.XWPFDocument;

public class WordReader {
	
	public synchronized static String read(String url){
		if (url.endsWith("doc") || url.endsWith("DOC")) {
			return readWord2003(url);
		}else if (url.endsWith("docx") || url.endsWith("DOCX")) {
			return readWord2007(url);
		}else {
			return "";
		}    
	}
	
	private static String readWord2007(String url) {  
		POIXMLTextExtractor ex = null;
		XWPFDocument xwpf = null;
		InputStream is = null;
        try {
        	is = new URL(url).openStream();
            xwpf = new XWPFDocument(is);
            ex = new XWPFWordExtractor(xwpf);
            return ex.getText();
        } catch (FileNotFoundException e) {
            e.printStackTrace();  
        } catch (IOException e) {  
            e.printStackTrace(); 
        } finally{
        	try {
				ex.close();
			} catch (IOException e) {
				e.printStackTrace();
			}
        	try {
				xwpf.close();
			} catch (IOException e) {
				e.printStackTrace();
			}
        	try {
        		is.close();
			} catch (IOException e) {
				e.printStackTrace();
			}
        }
        return null;
    }
	
	private static String readWord2003(String url) {
		WordExtractor wordExtractor = null;
		InputStream fis = null;
		try {
			fis = new URL(url).openStream();
	        wordExtractor = new WordExtractor(fis);
	        String content = wordExtractor.getText();
	        return content;
	    } catch (FileNotFoundException e) {
	    	e.printStackTrace();  
	    } catch (IOException e) {  
	     	e.printStackTrace(); 
	    } finally{
	    	try {
				wordExtractor.close();
			} catch (IOException e) {
				e.printStackTrace();
			}
	    	try {
				fis.close();
			} catch (IOException e) {
				e.printStackTrace();
			}
	    }
		return null;
	} 
	
	public static void main(String[] args) {
		System.out.println(read("http://file.neeq.com.cn/upload/A0/B0/C2/F236.doc"));
		System.out.println(read("http://file.neeq.com.cn/upload/A0/B0/C2/F260.docx"));
	}
}

 

 

0
0
分享到:
评论

相关推荐

    POI读取 word 2003 和 word 2007 的例子

    这是一个POI读取word 2003 和 word 2007的例子 是一个Eclipse工程 下载后直接导入工程 运行 src 目录下的 Test java 类即可 这个 rar 包中包含着 POI 读取word 2003 和 word 2007 所需要的 jar 包 也有需要读取的 ...

    [简单]poi读取word 2007简单文本框值

    标题中的“poi读取word 2007简单文本框值”指的是使用Apache POI库来读取Microsoft Word 2007文档中简单文本框内的文本内容。Apache POI是一个流行的开源Java库,用于处理Microsoft Office格式的文件,如Word(.docx...

    POI读取word文档的文字内容和图片内容

    在本主题中,我们将深入探讨如何使用POI库读取Word文档中的文字内容和图片。 首先,我们需要理解Word文档的基本结构。Word文档本质上是由一系列基于XML的数据存储在.OFFICEML格式的文件中,这使得我们可以通过解析...

    POI解析word2007文本及图片(已测试).doc

    Apache POI 提供了对 Word 2007 文本和图片的解析功能,允许开发者读取和提取 Word 文档中的文本和图片内容。 Word 2007 文档结构 Word 2007 文档是基于 OpenXML 标准的,使用 ZIP 压缩文件格式来存储文档内容。...

    poi 解析 office excel 2003,2007 word 2003,2007 的示例

    本示例将详细介绍如何使用Apache POI解析Office Excel 2003和2007,以及Word 2003和2007的文件。 首先,我们来看Excel的解析。Excel 2003使用的是.BOOK文件格式(HSSFWorkbook),而2007及以上版本使用的是.XLSX...

    JAVA-POI读取word每一段所在页码(附依赖jar包).zip

    我给出了代码和所有的解释,用POI读取word中的页码。也算是小方法了,基本很准确,为什么要加一个基本呢?因为,分页标志符号在第一行为空白行的时候没有分页符!!所以你的文档如果有很多首段空白行的话,不要浪费C...

    POI 读取 WORD EXCEL POWERPOINT 2003 2007

    Apache POI 是一个开源项目,专门用于处理 Microsoft Office 格式文档,如 Word、Excel 和 PowerPoint。这个项目为 Java 开发者提供了强大的 API,使得在没有安装 Microsoft Office 的情况下,也能进行读取、写入...

    poiWord2003和Word2007包括图片完整转换成html 包括完整Jar包

    1. **Apache POI基础**:Apache POI提供了HSSF和XSSF两个API,分别用于读写老版本的BIFF8格式(如Word2003的.doc文件)和新的OOXML格式(如Word2007的.docx文件)。HSSF对应于Excel,而XSSF则对应于Word和PowerPoint...

    POI-3.16对word2003\word2007\xls\xlsx操作jar包

    在给定的标题中提到的"POI-3.16对word2003\word2007\xls\xlsx操作jar包",意味着这个版本的Apache POI库提供了对不同版本Office文件的支持,包括较旧的Word 2003(.doc)和Excel 2003(.xls)以及较新的Word 2007及...

    java 利用POI读取Word文件中的内容

    通过学习和理解这个例子,你可以更好地掌握使用Apache POI读取Word文件的技巧。 总之,Apache POI为Java开发者提供了一种方便的方式,使他们能够轻松地与Microsoft Word文档进行交互,读取其中的文字、表格和图像等...

    linux下poi读取word空指针异常问题解决

    ### Linux下使用POI读取Word文件出现空指针异常问题解决方案 #### 问题背景 在使用Apache POI处理Word文档时,在Linux环境下遇到了`java.lang.NullPointerException`异常。异常的具体位置出现在`org.apache.poi....

    apache poi读取word内容

    Apache POI是一个强大的Java库,专门用于处理Microsoft Office格式的文件,如Word、Excel和PowerPoint。在本案例中,我们将关注如何使用Apache POI来读取Word文档的内容,并将其以流的形式返回到Web应用程序的前端...

    使用poi将word读取后替换指定内容后再次生成新word

    使用poi将word读取后替换指定内容后再次生成新word,本人经过测试,拿来即用!

    POI导出Word 页眉 页脚 标题设置

    这个过程涉及到对Word文档的高级布局控制,对于自动化报告生成或批量创建文档非常有用。 1. **Apache POI简介** Apache POI 提供了一套API,允许Java开发者读写Microsoft Office格式的文件。它支持HSSF...

    POI实现word和excel在线预览

    本项目提供的"POI实现word和excel在线预览"是基于Apache POI的一个实用工具集,它能够帮助开发者实现在Web环境下对这些文件的在线预览功能,无需用户下载文件到本地即可查看内容,提高了用户体验和数据安全性。...

    java Apache poi 对word doc文件进行读写操作

    Apache POI 是一个流行的 Java 库,用于处理 Microsoft Office 格式,如 Word、Excel 和 PowerPoint。在处理 Word .doc 文件时,POI 提供了一个名为 HWPF(Horizontally Written Property Set Files)的模块。这个...

    java poi读取word

    首先,让我们了解如何通过Java POI读取Word文档。在Java中,我们需要导入`org.apache.poi.xwpf.usermodel`包,因为这个包包含了处理`.docx`文件所需的类。`.docx`是Word 2007及更高版本使用的XML格式。以下是一个...

    poi读取word代码

    poi读取word代码,可以通过此代码实现对word中的文本、图片、表格的读取。

    apache POI 读取 Word

    apach poi 读取word 文档 jar 包。 博文链接:https://wxinpeng.iteye.com/blog/231881

Global site tag (gtag.js) - Google Analytics