POI读取word2003和word2007

mcj8089

浏览: 194348 次
性别:
来自: 北京

最近访客更多访客>>

msj_0529

sf_dream

laical

lubin83

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Java

POI

首先引入Maven依赖，如下

		<!-- ************word************** -->
		<dependency>
			<groupId>org.apache.poi</groupId>
			<artifactId>poi</artifactId>
			<version>3.13</version>
		</dependency>
		<dependency>
			<groupId>org.apache.poi</groupId>
			<artifactId>poi-scratchpad</artifactId>
			<version>3.13</version>
		</dependency>
		<dependency>
			<groupId>org.apache.poi</groupId>
			<artifactId>openxml4j</artifactId>
			<version>1.0-beta</version>
		</dependency>
		<dependency>
			<groupId>org.apache.poi</groupId>
			<artifactId>poi-ooxml</artifactId>
			<version>3.13</version>
		</dependency>
		<dependency>
			<groupId>dom4j</groupId>
			<artifactId>dom4j</artifactId>
			<version>1.6.1</version>
		</dependency>
		<dependency>
			<groupId>org.apache.geronimo.specs</groupId>
			<artifactId>geronimo-stax-api_1.0_spec</artifactId>
			<version>1.0</version>
		</dependency>
		<dependency>
			<groupId>org.apache.poi</groupId>
			<artifactId>ooxml-schemas</artifactId>
			<version>1.1</version>
		</dependency>
		<dependency>
			<groupId>org.apache.xmlbeans</groupId>
			<artifactId>xmlbeans</artifactId>
			<version>2.3.0</version>
		</dependency>

下面编写Java工具类，代码如下

import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStream;
import java.net.URL;

import org.apache.poi.POIXMLTextExtractor;
import org.apache.poi.hwpf.extractor.WordExtractor;
import org.apache.poi.xwpf.extractor.XWPFWordExtractor;
import org.apache.poi.xwpf.usermodel.XWPFDocument;

public class WordReader {
	
	public synchronized static String read(String url){
		if (url.endsWith("doc") || url.endsWith("DOC")) {
			return readWord2003(url);
		}else if (url.endsWith("docx") || url.endsWith("DOCX")) {
			return readWord2007(url);
		}else {
			return "";
		}    
	}
	
	private static String readWord2007(String url) {  
		POIXMLTextExtractor ex = null;
		XWPFDocument xwpf = null;
		InputStream is = null;
        try {
        	is = new URL(url).openStream();
            xwpf = new XWPFDocument(is);
            ex = new XWPFWordExtractor(xwpf);
            return ex.getText();
        } catch (FileNotFoundException e) {
            e.printStackTrace();  
        } catch (IOException e) {  
            e.printStackTrace(); 
        } finally{
        	try {
				ex.close();
			} catch (IOException e) {
				e.printStackTrace();
			}
        	try {
				xwpf.close();
			} catch (IOException e) {
				e.printStackTrace();
			}
        	try {
        		is.close();
			} catch (IOException e) {
				e.printStackTrace();
			}
        }
        return null;
    }
	
	private static String readWord2003(String url) {
		WordExtractor wordExtractor = null;
		InputStream fis = null;
		try {
			fis = new URL(url).openStream();
	        wordExtractor = new WordExtractor(fis);
	        String content = wordExtractor.getText();
	        return content;
	    } catch (FileNotFoundException e) {
	    	e.printStackTrace();  
	    } catch (IOException e) {  
	     	e.printStackTrace(); 
	    } finally{
	    	try {
				wordExtractor.close();
			} catch (IOException e) {
				e.printStackTrace();
			}
	    	try {
				fis.close();
			} catch (IOException e) {
				e.printStackTrace();
			}
	    }
		return null;
	} 
	
	public static void main(String[] args) {
		System.out.println(read("http://file.neeq.com.cn/upload/A0/B0/C2/F236.doc"));
		System.out.println(read("http://file.neeq.com.cn/upload/A0/B0/C2/F260.docx"));
	}
}

0
顶

0
踩

分享到：

使用Squid搭建内网视频缓存系统 | 使用Squid搭建局域网视频缓存代理

2015-10-09 11:19
浏览 5512
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

POI读取word2003和word2007

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

POI读取word2003和word2007

评论

发表评论

相关推荐

数据抓取原理及常见爬虫框架、代理示例

如何使用动态代理IP并开启多线程做数据抓取？

JVM性能调优工具

使用动态代理IP让爬虫效率提高N倍

Mybatis批量更新配置（Mysql batch update）

Java中使用代理IP获取网址内容（防IP被封，做数据爬虫）

Nginx学习笔记

springmvc与mybatis整合，log4j输出sql语句

spring与mybatis项目出现 java.lang.NumberFormatException: For input string: "${jdbc.ma

使用spring做java的swing客户端报错：找不到元素 'beans' 的声明 或者 找不到元素 'tx' 的声明。

SVN Ubuntu创建仓库

Java annotation

Mybatis获取刚插入数据库中的记录的ID（MYSQL）

Enum

JAVA泛型(Generic)

工作中的问题总结（1）

MyEclipse插件注册方法

JAVA正则表达式-捕获组与非捕获组

Java中的静态代理和动态代理

最近访客更多访客>>

使用spring做java的swing客户端报错：找不到元素 'beans' 的声明或者找不到元素 'tx' 的声明。