读取word中的内容
/**
* 利用POI实现从word中读取内容
*/
============================================
将读取的内容写入另外一个文件中
package com.cy;
/**
* WordReader类中readDoc的作用为从word中将数据读出
*/
import com.cy.WordWriter;
import java.io.ByteArrayInputStream;
import java.io.FileOutputStream;
import java.io.IOException;
import org.apache.poi.poifs.filesystem.DirectoryEntry;
import org.apache.poi.poifs.filesystem.DocumentEntry;
import org.apache.poi.poifs.filesystem.POIFSFileSystem;
public class WordWriter {
public static boolean writeDoc(String path, String content) {
boolean w = false;
try {
// byte b[] = content.getBytes("ISO-8859-1");
byte b[] = content.getBytes();
ByteArrayInputStream bais = new ByteArrayInputStream(b);
POIFSFileSystem fs = new POIFSFileSystem();
DirectoryEntry directory = fs.getRoot();
DocumentEntry de = directory.createDocument("WordDocument", bais);
FileOutputStream ostream = new FileOutputStream(path);
fs.writeFilesystem(ostream);
bais.close();
ostream.close();
} catch (IOException e) {
e.printStackTrace();
}
return w;
}
public static void main(String[] args) throws Exception{
String wr=WordReader.readDoc("D:\\test.doc");
boolean b = writeDoc("D:\\result.doc",wr);
}
}
//目前该程序只能实现对简单的文字的操作,无法实现对表格样式的操作,继续改进,请关注!!
import java.io.File;
import java.io.FileInputStream;
import org.apache.poi.hwpf.extractor.WordExtractor;
public class WordReader {
public static String readDoc(String doc) throws Exception {
// 创建输入流读取DOC文件
FileInputStream in = new FileInputStream(new File(doc));
WordExtractor extractor = null;
String text = null;
// 创建WordExtractor
extractor = new WordExtractor(in);
// 对DOC文件进行提取
text = extractor.getText();
return text;
}
public static void main(String[] args) {
try{
String text = WordReader.readDoc("d:\\test.doc");
System.out.println(text);
}catch(Exception e){
e.printStackTrace();
}
}
}
分享到:
相关推荐
本篇文章将详细介绍如何使用POI来读写Word文件,兼容doc与docx版本。 首先,我们需要理解.doc和.docx的区别。.doc是旧版Microsoft Word(Word 2003及更早版本)使用的文件格式,基于二进制结构;而.docx是Word 2007...
关于压缩包中的"poi读写word模板包",可能包含了一些示例代码或模板文件,帮助开发者理解如何使用Apache POI进行Word模板的读写。解压后,你可以查看这些文件来学习具体实现,包括如何查找和替换模板中的特定字符串...
本压缩包提供的"poi实现对word读写操作源码"包含了使用Apache POI进行Word文档处理的示例代码和必要的依赖库。 首先,让我们深入了解Apache POI的几个核心概念: 1. **HWPF(Horrible Word Processor Format)**:...
本教程将深入讲解如何利用Apache POI的XWPF模块结合Word模板中的书签,实现数据的动态插入,从而创建个性化的Word文档。 首先,我们需要理解Apache POI的XWPF模块。XWPF(XML Word Processing)是POI项目的一部分,...
总结起来,"POI-TL合并多个Word文档"涉及到的关键技术有Apache POI的XWPF组件用于读写.docx文件,以及POI-TL库提供的模板处理功能,使得在Java程序中高效地合并和生成Word文档成为可能。这在处理批量报告、合同生成...
在这个主题中,我们将深入探讨如何使用Java POI库来实现Word(包括.doc和.docx)以及TXT文件的读写操作。 首先,让我们了解一下Java POI的工作原理。POI库提供了HSSF和XSSF两个API,分别用于处理旧版的二进制Excel...
java读写Excel,POI.JAR,Word内容读取
在实际应用中,Apache POI 的功能不仅限于简单的读写操作,还支持复杂的格式转换、样式调整和模板填充等功能,是 Java 开发者处理 Word 文件的强大工具。然而,需要注意的是,由于 `.doc` 文件格式的复杂性,处理...
在本场景中,我们关注的是如何使用Apache POI来实现Word文档的动态传参功能,这通常涉及到模板引擎的使用,以便在Word文档中插入变量并替换为实际值。 首先,让我们理解什么是Apache POI。Apache POI是一个开源项目...
本实例将详细介绍如何利用Apache POI在Java中实现Word的读写功能。 首先,我们需要引入Apache POI的依赖库。通常,这可以通过在Maven或Gradle项目中添加相应的依赖来完成。对于Maven,可以在pom.xml文件中添加以下...
在给定的部分内容中,展示了如何使用Apache POI将Word文档转换为HTML。首先,通过创建HWPFDocument对象来读取Word文档。然后,使用WordToHtmlConverter进行转换,同时定义PicturesManager来处理文档中的图片,确保...
在IT行业中,Apache POI是一个流行的Java库,用于读写...提供的"替换word中内容和图片demo"应该是一个实际的代码示例,你可以参考它来理解并实现上述功能。请确保在实际操作时遵循最佳实践,确保代码的稳定性和效率。
6. 处理表格:对于Word中的`XWPFTable`,需要转换为PDF的`PdfPTable`,并逐个单元格添加内容。 7. 保存PDF:最后,关闭`Document`,生成PDF文件。 在这个过程中,可能还需要处理图片和其他复杂元素的转换,这需要更...
5. **使用POI读写Word文档** - **打开模板**:使用`XWPFDocument`类来加载模板文件。 - **查找占位符**:遍历文档中的段落和表格,找到带有占位符的文本。 - **替换占位符**:使用`XWPFRun`对象替换占位符文本为...
本篇将详细介绍如何利用Apache POI库来读取Word文件中的内容。 首先,理解Apache POI的基本概念。POI是“Poor Obfuscation Implementation”的缩写,最初是为了反向工程微软的文件格式而创建的。如今,它已经成为...
2. 添加段落:Word中的基本单元是段落,我们可以通过`XWPFDocument`的`createParagraph()`方法创建新的段落。 ```java XWPFParagraph paragraph = document.createParagraph(); ``` 3. 插入文本:在段落中插入文本...
本文档将详细介绍如何使用 POI 库来读取 Word 文档(包括 .doc 和 .docx 格式)中的文本内容以及提取其中的图片。 #### 二、环境配置与依赖 为了能够顺利地执行示例代码,需要确保项目的 build 环境包含了以下依赖...
接下来,我们将通过以下步骤介绍如何在Android应用中实现内容替换: 1. **初始化读写环境**:首先,你需要创建一个`FileInputStream`对象来读取docx文件,并使用`XWPFDocument`类加载它。同时,准备一个`...
在Word中,页眉和页脚通常包含文档的标题、页码或其他相关信息。使用POI,我们可以通过`HeaderStories`和`FooterStories`访问这些部分。通过`Document`对象的`getFirstSection().getHeaders()`和`getFirstSection()...
4. **poi-ooxml**: 提供了对OOXML格式的支持,包括读写Word、Excel等文件。 5. **poi**: Apache POI的基础库,处理老版本的Microsoft Office文件格式,如.xls和.doc。 6. **slf4j**: Simple Logging Facade for Java...