用Java简单的读取word文档中的数据:
第一步:下载tm-extractors-0.4.jar
第二步:简单的程序.(WordReader .java)
前提是你的E盘下有个Strust.doc文件。
import java.io.File;
import java.io.FileInputStream;
import org.textmining.text.extraction.WordExtractor;
public class WordReader {
public static String readDoc(String doc) throws Exception {
// 创建输入流读取doc文件
FileInputStream in = new FileInputStream(new File(doc));
WordExtractor extractor = null;
String text = null;
// 创建WordExtractor
extractor = new WordExtractor();
// 对doc文件进行提取
text = extractor.extractText(in);
return text;
}
/**
* @param args
*/
public static void main(String[] args) {
// TODO Auto-generated method stub
try{
String text = WordReader.readDoc("E:/Strust.doc");
System.out.println(text);
}catch(Exception ex){
ex.printStackTrace();
}
}
}
这样就简单的完成了从word中读取数据了。你可以把它生成一个txt的文件。
分享到:
相关推荐
总结来说,Java读取Word文档页数可以通过两种主要途径:一是直接使用Jacob库操作Word文档;二是先将Word转换为PDF,再使用iTextPDF库读取PDF的页数。这两种方法各有优劣,应根据具体项目需求和环境选择合适的方法。
Java读取Word文档中指定位置(可以自己自定义位置)的表格数据或文本内容 * @param filePath 文档路径 * @param start 指定位置开始读取表格数据的该位置上的字符串 * @param end 指定位置开始结束读取表格数据的该...
2. **读取Word文档**: 使用Apache POI的`XWPFDocument`类来打开Word文档。你需要提供文件的输入流: ```java File wordFile = new File("path_to_word_file.docx"); FileInputStream fis = new FileInputStream...
提供的压缩包文件"java读取word和Excel文件"可能包含了示例代码或模板,用于展示如何结合Apache POI和JDBC实现上述功能。通过研究这些文件,你可以更深入地理解如何在Java中实现这个任务。 总的来说,这个项目涉及...
在Java开发中,有时我们需要与Microsoft Office应用程序如Visio、Word和Excel进行数据交互,以实现自动化处理或数据导入导出。本主题将详细介绍如何利用Java中的特定库来完成这一任务,特别是通过args4j-2.0.1.jar、...
JAVA 读取 WORD_EXCEL_POWERPOINT_PDF 文件的方法是使用 Apache POI 库来实现的。POI 库是一个开放源代码的 Java 库,提供了对 Microsoft Office 文件格式的读写能力。 读取 WORD 文件 在读取 WORD 文件时,需要...
### Java读取DOC/DOCX/Word文档内容的数据方法 #### 概述 在实际开发过程中,经常需要处理各种格式的文档数据。其中,Word文档(.doc 和 .docx)是最常见的一种类型。Java提供了多种库来读取这些文档中的内容,...
在Java中,读取Word文档(.docx格式)主要使用XWPF(XML Word Processing)API。以下是使用POI读取Word文件的基本步骤: 1. **添加依赖**:在项目中引入Apache POI的依赖库。如果你使用的是Maven,可以在pom.xml...
在Java编程环境中,读取Word文档的页码是一项常见的任务,尤其在处理大量文档数据时。这个场景下,我们通常会使用Apache POI库,这是一个强大的API,专门用于处理Microsoft Office格式的文件,包括Word(.doc和.docx...
在使用Java读取Word文档时,可能会遇到一些常见问题,例如读取含图片的文档时报错。这通常与所使用的库对非文本内容的处理机制有关。为避免此类问题,可以在图片前添加换行符或空白行,以确保文本提取的顺利进行。 ...
首先,标题“java读取word文档.pdf”和描述“java读取word文档.pdf”暗示了文章内容可能涉及使用Java语言读取Word文档的技术。 从片段中可以提取到的关键技术点包括: 1. Apache POI库:Apache POI是一个开源的...
java实现读取Excel数据,根据一定格式写入Word,包含源代码,所需jar包及打包后的可执行jar文件,解压后将ExcelTrans直接导入MyEclipse即可,项目上可能会出现一个小叉,但是可以正常运行。
本教程将重点讲解如何使用Apache POI库来读取Excel数据,并基于这些数据批量生成Word文档。Apache POI是一个开源项目,它允许Java开发者处理Microsoft Office格式的文件,如Excel(.xlsx或.xls)和Word(.docx)。 ...
通过这些API,你可以创建、修改和读取Word文档,包括书签的插入和替换。 3. **书签插值** 书签是Word文档中的一个特性,可以标记文档的特定位置。在Java中,可以通过查找书签并替换其内容来实现动态数据插入。例如...
Java 使用Apache POI库来读取Word文档是常见的操作,特别是在处理大量文本数据或自动化办公文档处理时。Apache POI是一个强大的开源项目,它允许Java开发者读取、写入和修改Microsoft Office格式的文件,包括Word(....
以上就是使用Java代码将数据导入Word指定位置的基本流程。需要注意的是,实际应用中可能还需要处理各种异常情况,以及优化性能,比如使用模板文件,避免频繁打开和关闭文件等。在TestDemo这个示例中,你可以看到一个...
这个“Java读取word小Demo”就是利用POI库来读取Word文档的一个简单示例。POI库不仅支持较旧的DOC格式(Word 2003),还支持较新的DOCX格式(Word 2007及以上版本)。以下是对这个知识点的详细阐述: 1. **Apache ...
### JAVA读取Word、Excel、PowerPoint及PDF文件方法详解 #### 一、概述 在企业级应用开发中,经常需要处理Office文档(如Word、Excel、PowerPoint)以及PDF文件。这些文件格式广泛用于存储数据和信息。本文将详细...