`
wxinpeng
  • 浏览: 590949 次
  • 性别: Icon_minigender_1
  • 来自: 青岛
社区版块
存档分类
最新评论

apache POI 读取 Word

阅读更多
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import org.apache.poi.hwpf.extractor.WordExtractor;
public class WordReader {
	private FileInputStream input;
	private WordExtractor extractor;
	private  String wordText;//word 内容
	public  String readWord(String wordDocPath){//wordDocPath,word文档的绝对路径
		try {
			input= new FileInputStream(new File(wordDocPath)); // 创建输入流读取Word文件
			extractor = new WordExtractor(input);// 创建WordExtractor
			wordText = extractor.getText();// 对Word文件进行提取
		} catch (FileNotFoundException e) {
			e.printStackTrace();
		} catch (IOException e) {
			e.printStackTrace();
		}finally{
			try{
				if(input!=null){
					input.close();
				}
			}catch(IOException e){
				e.printStackTrace();
			}
		}
		return wordText;
	}
}

 

  • poi-3.1-word.jar (704.6 KB)
  • 描述: apach poi 读取word 文档 jar 包。
  • 下载次数: 319
分享到:
评论
1 楼 victoryzjs 2011-07-25  
这是2003 版本的

相关推荐

    apache poi读取word内容

    在本案例中,我们将关注如何使用Apache POI来读取Word文档的内容,并将其以流的形式返回到Web应用程序的前端页面。 首先,Apache POI提供了一个名为`XWPFDocument`的类,用于处理`.docx`格式的Word文档。这个类允许...

    java Apache poi 对word doc文件进行读写操作

    Apache POI 是一个流行的 Java 库,用于处理 Microsoft Office 格式,如 Word、Excel 和 PowerPoint。在处理 Word .doc 文件时,POI 提供了一个名为 HWPF(Horizontally Written Property Set Files)的模块。这个...

    [简单]poi读取word 2007简单文本框值

    标题中的“poi读取word 2007简单文本框值”指的是使用Apache POI库来读取Microsoft Word 2007文档中简单文本框内的文本内容。Apache POI是一个流行的开源Java库,用于处理Microsoft Office格式的文件,如Word(.docx...

    java 利用POI读取Word文件中的内容

    通过学习和理解这个例子,你可以更好地掌握使用Apache POI读取Word文件的技巧。 总之,Apache POI为Java开发者提供了一种方便的方式,使他们能够轻松地与Microsoft Word文档进行交互,读取其中的文字、表格和图像等...

    POI读取 word 2003 和 word 2007 的例子

    在这个例子中,我们将深入探讨如何使用Apache POI读取Word 2003和Word 2007的文档,并将内容以字符串形式输出。 首先,我们需要了解Apache POI中的两个主要组件,它们是HWPF(Horrible Word Processor Format)用于...

    poi将word转换成html、样式 表格 图片处理

    实际编程中,你可以创建一个方法,接受Word文档的输入流和HTML输出流,使用Apache POI读取Word,构建HTML结构,并写入到输出流中。这样就可以实现Word到HTML的在线转换服务。 通过以上步骤,我们可以利用Apache ...

    JAVA-POI读取word每一段所在页码(附依赖jar包).zip

    我给出了代码和所有的解释,用POI读取word中的页码。也算是小方法了,基本很准确,为什么要加一个基本呢?因为,分页标志符号在第一行为空白行的时候没有分页符!!所以你的文档如果有很多首段空白行的话,不要浪费C...

    POI读取word文档的文字内容和图片内容

    在本主题中,我们将深入探讨如何使用POI库读取Word文档中的文字内容和图片。 首先,我们需要理解Word文档的基本结构。Word文档本质上是由一系列基于XML的数据存储在.OFFICEML格式的文件中,这使得我们可以通过解析...

    linux下poi读取word空指针异常问题解决

    ### Linux下使用POI读取Word文件出现空指针异常问题解决方案 #### 问题背景 在使用Apache POI处理Word文档时,在Linux环境下遇到了`java.lang.NullPointerException`异常。异常的具体位置出现在`org.apache.poi....

    使用java Apache poi 根据word模板生成word报表.rar

    1. **读取Word模板**:使用XWPFDocument类打开模板文件,这将允许我们访问文档中的各个元素,如段落、表格、图片等。 2. **查找占位符**:在模板文档中,我们可能会有特定的文本或字段作为占位符,例如"{name}"或"{...

    java读取Word文档依赖jar包

    首先,要使用Apache POI读取Word文档,你需要下载并引入相关的jar包。在给定的压缩包“poi读取word依赖包”中,应该包含了Apache POI的必要组件。通常,这将包括如`poi-ooxml-schemas`, `poi-ooxml`, `poi`等jar文件...

    java 读取 word poi用到的jar包文件

    在Java中,使用Apache POI读取Word文档,你需要包含以下关键的jar包文件: 1. **poi-ooxml-schemas**: 包含了用于解析Office Open XML (OOXML)格式的XML Schema定义,Word 2007 (.docx)及之后版本就是以OOXML格式...

    Apache POI库jar文件

    Apache POI库是一个开源的Java库,可以帮助开发人员处理Microsoft Office格式的文档,例如Word文档、Excel电子表格和PowerPoint演示文稿等。以下是Apache POI库的详细介绍: 支持多种Office格式:Apache POI库支持...

    java Apache poi word模板 表格模板 word报表.zip

    Java Apache POI 是一个强大的库,它允许程序员在Java应用程序中创建、修改和显示Microsoft Office格式的文件,包括Word文档(.docx)和Excel工作簿(.xlsx)。本资料包着重介绍了如何利用Apache POI库来处理Word...

    Apache中POI操作word所需的相关jar包

    Apache POI是一个强大的Java库,专门用于处理Microsoft Office格式的文件,如Word、Excel和PowerPoint。在Java环境中,如果你需要对Word文档进行读写操作,Apache POI提供了一个名为XWPFDocument的类,使得这项任务...

    Apache POI资源包

    类似地,HWPF(Horrible Word Processor Format)和XWPF(XML Word Processor Format)支持读取Word文档,而HSLF(Horrible Slide Library Format)和XSLF(XML Slide Library Format)则用于处理PowerPoint文件。...

    poi 读取word、替换word里面的内容、将word生成html、支持word下载、多word采取文件压缩并下载

    首先,让我们了解如何使用Apache POI读取Word文档。在Java中,我们需要引入`poi-ooxml`依赖库。以下是一个简单的示例: ```java import org.apache.poi.xwpf.usermodel.*; public void readWordFile(String ...

    利用poi+word模版书签,向word中插入数据

    1. **创建或读取Word模板**:使用Apache POI的XWPFDocument类,加载预先设计好的包含书签的Word模板文件。 2. **查找书签**:通过XWPFDocument对象的getBookmarks()方法获取模板中的所有书签,每个书签都是一个...

    使用poi替换word中的图片

    2. **读取Word文档**: 使用XWPFDocument类读取.docx文件,HWPFDocument类读取.doc文件。例如: ```java FileInputStream fis = new FileInputStream("input.docx"); XWPFDocument document = new XWPFDocument...

Global site tag (gtag.js) - Google Analytics