import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import org.apache.poi.hwpf.extractor.WordExtractor;
public class WordReader {
private FileInputStream input;
private WordExtractor extractor;
private String wordText;//word 内容
public String readWord(String wordDocPath){//wordDocPath,word文档的绝对路径
try {
input= new FileInputStream(new File(wordDocPath)); // 创建输入流读取Word文件
extractor = new WordExtractor(input);// 创建WordExtractor
wordText = extractor.getText();// 对Word文件进行提取
} catch (FileNotFoundException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}finally{
try{
if(input!=null){
input.close();
}
}catch(IOException e){
e.printStackTrace();
}
}
return wordText;
}
}
分享到:
相关推荐
在本案例中,我们将关注如何使用Apache POI来读取Word文档的内容,并将其以流的形式返回到Web应用程序的前端页面。 首先,Apache POI提供了一个名为`XWPFDocument`的类,用于处理`.docx`格式的Word文档。这个类允许...
Apache POI 是一个流行的 Java 库,用于处理 Microsoft Office 格式,如 Word、Excel 和 PowerPoint。在处理 Word .doc 文件时,POI 提供了一个名为 HWPF(Horizontally Written Property Set Files)的模块。这个...
标题中的“poi读取word 2007简单文本框值”指的是使用Apache POI库来读取Microsoft Word 2007文档中简单文本框内的文本内容。Apache POI是一个流行的开源Java库,用于处理Microsoft Office格式的文件,如Word(.docx...
通过学习和理解这个例子,你可以更好地掌握使用Apache POI读取Word文件的技巧。 总之,Apache POI为Java开发者提供了一种方便的方式,使他们能够轻松地与Microsoft Word文档进行交互,读取其中的文字、表格和图像等...
在这个例子中,我们将深入探讨如何使用Apache POI读取Word 2003和Word 2007的文档,并将内容以字符串形式输出。 首先,我们需要了解Apache POI中的两个主要组件,它们是HWPF(Horrible Word Processor Format)用于...
实际编程中,你可以创建一个方法,接受Word文档的输入流和HTML输出流,使用Apache POI读取Word,构建HTML结构,并写入到输出流中。这样就可以实现Word到HTML的在线转换服务。 通过以上步骤,我们可以利用Apache ...
我给出了代码和所有的解释,用POI读取word中的页码。也算是小方法了,基本很准确,为什么要加一个基本呢?因为,分页标志符号在第一行为空白行的时候没有分页符!!所以你的文档如果有很多首段空白行的话,不要浪费C...
在本主题中,我们将深入探讨如何使用POI库读取Word文档中的文字内容和图片。 首先,我们需要理解Word文档的基本结构。Word文档本质上是由一系列基于XML的数据存储在.OFFICEML格式的文件中,这使得我们可以通过解析...
### Linux下使用POI读取Word文件出现空指针异常问题解决方案 #### 问题背景 在使用Apache POI处理Word文档时,在Linux环境下遇到了`java.lang.NullPointerException`异常。异常的具体位置出现在`org.apache.poi....
1. **读取Word模板**:使用XWPFDocument类打开模板文件,这将允许我们访问文档中的各个元素,如段落、表格、图片等。 2. **查找占位符**:在模板文档中,我们可能会有特定的文本或字段作为占位符,例如"{name}"或"{...
Apache POI库是一个开源的Java库,可以帮助开发人员处理Microsoft Office格式的文档,例如Word文档、Excel电子表格和PowerPoint演示文稿等。以下是Apache POI库的详细介绍: 支持多种Office格式:Apache POI库支持...
首先,要使用Apache POI读取Word文档,你需要下载并引入相关的jar包。在给定的压缩包“poi读取word依赖包”中,应该包含了Apache POI的必要组件。通常,这将包括如`poi-ooxml-schemas`, `poi-ooxml`, `poi`等jar文件...
在Java中,使用Apache POI读取Word文档,你需要包含以下关键的jar包文件: 1. **poi-ooxml-schemas**: 包含了用于解析Office Open XML (OOXML)格式的XML Schema定义,Word 2007 (.docx)及之后版本就是以OOXML格式...
Java Apache POI 是一个强大的库,它允许程序员在Java应用程序中创建、修改和显示Microsoft Office格式的文件,包括Word文档(.docx)和Excel工作簿(.xlsx)。本资料包着重介绍了如何利用Apache POI库来处理Word...
Apache POI是一个强大的Java库,专门用于处理Microsoft Office格式的文件,如Word、Excel和PowerPoint。在Java环境中,如果你需要对Word文档进行读写操作,Apache POI提供了一个名为XWPFDocument的类,使得这项任务...
类似地,HWPF(Horrible Word Processor Format)和XWPF(XML Word Processor Format)支持读取Word文档,而HSLF(Horrible Slide Library Format)和XSLF(XML Slide Library Format)则用于处理PowerPoint文件。...
首先,让我们了解如何使用Apache POI读取Word文档。在Java中,我们需要引入`poi-ooxml`依赖库。以下是一个简单的示例: ```java import org.apache.poi.xwpf.usermodel.*; public void readWordFile(String ...
1. **创建或读取Word模板**:使用Apache POI的XWPFDocument类,加载预先设计好的包含书签的Word模板文件。 2. **查找书签**:通过XWPFDocument对象的getBookmarks()方法获取模板中的所有书签,每个书签都是一个...
2. **读取Word文档**: 使用XWPFDocument类读取.docx文件,HWPFDocument类读取.doc文件。例如: ```java FileInputStream fis = new FileInputStream("input.docx"); XWPFDocument document = new XWPFDocument...