说明:只支持world 2003 不支持2007 以及用WPS新建的world文档
package world;
import java.io.File;
import java.io.FileInputStream;
import org.textmining.text.extraction.WordExtractor;
public class WorldDemo {
public static String readDoc(String doc) throws Exception {
// 创建输入流读取doc文件
FileInputStream in = new FileInputStream(new File(doc));
WordExtractor extractor = null;
String text = null;
// 创建WordExtractor
extractor = new WordExtractor();
// 对doc文件进行提取
text = extractor.extractText(in);
return text;
}
/**
* @param args
*/
public static void main(String[] args) {
// TODO Auto-generated method stub
try{
String text = WorldDemo.readDoc("D:\\3.doc");
System.out.println(text);
}catch(Exception ex){
ex.printStackTrace();
}
}
}
分享到:
相关推荐
本主题将深入探讨如何利用给定的`itextpdf-5.5.9.jar`和`jacob.jar`这两个库来实现Java读取Word文档页数的功能。 `jacob.jar`是一个Java到COM桥接库,它允许Java应用程序调用Microsoft Office组件,如Word,从而...
java读取不同版本文档的内容以及字体大小,实现对文档格式进行匹配!
在这个场景中,我们将重点讨论如何使用Java POI读取Word文档并将其内容转换为HTML网页,同时确保图片和公式等复杂元素能够正确显示。 首先,你需要在你的Java项目中引入Apache POI库。可以通过Maven或Gradle来添加...
Java 读取 Word、PDF 格式文档方法 Java 是一种广泛应用的编程语言,对文档操作是其重要的应用场景之一。本文将介绍 Java 如何读取 Word、PDF 格式文档的几种方法。 使用 Jacob Jacob 是一个桥接工具,连接 Java ...
根据上述知识点,假设这段文件内容是一个Java开发者撰写的关于如何用Java读取和处理Word文档的技术文档,那么开发者可能在尝试解释: - 如何使用Apache POI库来处理Word文档的读取和写入。 - 如何利用JACOB库与Word...
### Java读取Word文档知识点详解 #### 一、引言 在日常的软件开发工作中,处理办公文档(如Word)的需求十分常见。Java作为一种广泛使用的编程语言,提供了多种方式来读取Word文档中的内容,包括但不限于使用...
提供的压缩包文件"java读取word和Excel文件"可能包含了示例代码或模板,用于展示如何结合Apache POI和JDBC实现上述功能。通过研究这些文件,你可以更深入地理解如何在Java中实现这个任务。 总的来说,这个项目涉及...
总之,Apache POI为Java开发者提供了一套强大且灵活的工具,用于处理Microsoft Office格式的文件,特别是读取和操作Word文档。通过正确地引入和使用Apache POI的jar包,你可以在Java项目中轻松实现这一功能。记得...
在Java中,读取Word文档(.docx格式)主要使用XWPF(XML Word Processing)API。以下是使用POI读取Word文件的基本步骤: 1. **添加依赖**:在项目中引入Apache POI的依赖库。如果你使用的是Maven,可以在pom.xml...
通过Java读取word表格中的内容,将内容存到数据库中,将Word中的图片存到硬盘中
Java读取Word文档中指定位置(可以自己自定义位置)的表格数据或文本内容 * @param filePath 文档路径 * @param start 指定位置开始读取表格数据的该位置上的字符串 * @param end 指定位置开始结束读取表格数据的该...
JAVA 读取 WORD_EXCEL_POWERPOINT_PDF 文件的方法(poi) JAVA 读取 WORD_EXCEL_POWERPOINT_PDF 文件的方法是使用 Apache POI 库来实现的。POI 库是一个开放源代码的 Java 库,提供了对 Microsoft Office 文件格式...
在Java开发中,实现Word文档的在线预览是一项常见的需求,尤其在企业级应用中,例如文档管理系统或者协同办公平台。这项功能可以让用户无需下载原始文件就能查看文档内容,提高工作效率并减少服务器存储压力。本资源...
Java 读取 Word 文档是常见的需求,尤其是在自动化处理、数据导出或文档生成的场景中。本示例主要探讨如何使用 Java 处理 RTF(Rich Text Format)文档,而不是直接读取 .doc 或 .docx 文件。这是因为直接读取 Word ...
java调用PageOffice在线编辑word文件的时候,获取word文档的条目化内容。 PageOffice V4.0 企业版试用序列号:Q37LN-W8NI-KFSQ-LEY3Y 部署步骤: 1. 拷贝simpledemo8文件夹到Tomcat的webapps目录下 2. 访问...
- 由于二进制文件的复杂性,读取Word文档可能会遇到一些问题,如格式转换错误、编码问题等。 - 如果文档包含复杂的格式或对象(如图片、表格),可能需要更复杂的处理逻辑。 4. **其他替代方案**: - 如果只是...
在Java编程中,有时我们需要处理来自不同文档格式的数据,例如从Word文档中提取表格内容,并将其转换成Excel文件。这通常涉及到使用Apache POI库,一个强大的API,用于读写Microsoft Office格式的文件,包括Word(....
在Java编程环境中,读取Word文档的页码是一项常见的任务,尤其在处理大量文档数据时。这个场景下,我们通常会使用Apache POI库,这是一个强大的API,专门用于处理Microsoft Office格式的文件,包括Word(.doc和.docx...