`
Sharpleo
  • 浏览: 574045 次
  • 性别: Icon_minigender_1
  • 来自: newsk
社区版块
存档分类
最新评论

java读取world文档

    博客分类:
  • java
 
阅读更多
说明:只支持world 2003 不支持2007 以及用WPS新建的world文档

package world;

import java.io.File;
import java.io.FileInputStream;

import org.textmining.text.extraction.WordExtractor;

public class WorldDemo {
	public static String readDoc(String doc) throws Exception {
		  // 创建输入流读取doc文件
		  FileInputStream in = new FileInputStream(new File(doc));
		  WordExtractor extractor = null;
		  String text = null;
		  // 创建WordExtractor
		  extractor = new WordExtractor();
		  // 对doc文件进行提取
		  text = extractor.extractText(in);
		  return text;
		 }
		 /**
		  * @param args
		  */
		 public static void main(String[] args) {
		  // TODO Auto-generated method stub
		        try{
		         String text = WorldDemo.readDoc("D:\\3.doc");
		         System.out.println(text);
		        }catch(Exception ex){
		         ex.printStackTrace();
		        }
		 }
}


分享到:
评论

相关推荐

    Java读取Word文档页数

    本主题将深入探讨如何利用给定的`itextpdf-5.5.9.jar`和`jacob.jar`这两个库来实现Java读取Word文档页数的功能。 `jacob.jar`是一个Java到COM桥接库,它允许Java应用程序调用Microsoft Office组件,如Word,从而...

    java读取word文档内容以及字体大小和颜色

    java读取不同版本文档的内容以及字体大小,实现对文档格式进行匹配!

    Java读取word文档内容并输出成网页(含图片,公式)

    在这个场景中,我们将重点讨论如何使用Java POI读取Word文档并将其内容转换为HTML网页,同时确保图片和公式等复杂元素能够正确显示。 首先,你需要在你的Java项目中引入Apache POI库。可以通过Maven或Gradle来添加...

    java读取word,pdf格式文档方法

    Java 读取 Word、PDF 格式文档方法 Java 是一种广泛应用的编程语言,对文档操作是其重要的应用场景之一。本文将介绍 Java 如何读取 Word、PDF 格式文档的几种方法。 使用 Jacob Jacob 是一个桥接工具,连接 Java ...

    java读取word文档.pdf

    根据上述知识点,假设这段文件内容是一个Java开发者撰写的关于如何用Java读取和处理Word文档的技术文档,那么开发者可能在尝试解释: - 如何使用Apache POI库来处理Word文档的读取和写入。 - 如何利用JACOB库与Word...

    java读取word文档

    ### Java读取Word文档知识点详解 #### 一、引言 在日常的软件开发工作中,处理办公文档(如Word)的需求十分常见。Java作为一种广泛使用的编程语言,提供了多种方式来读取Word文档中的内容,包括但不限于使用...

    java实现读取word文件并且上传到数据库

    提供的压缩包文件"java读取word和Excel文件"可能包含了示例代码或模板,用于展示如何结合Apache POI和JDBC实现上述功能。通过研究这些文件,你可以更深入地理解如何在Java中实现这个任务。 总的来说,这个项目涉及...

    java读取Word文档依赖jar包

    总之,Apache POI为Java开发者提供了一套强大且灵活的工具,用于处理Microsoft Office格式的文件,特别是读取和操作Word文档。通过正确地引入和使用Apache POI的jar包,你可以在Java项目中轻松实现这一功能。记得...

    java 利用POI读取Word文件中的内容

    在Java中,读取Word文档(.docx格式)主要使用XWPF(XML Word Processing)API。以下是使用POI读取Word文件的基本步骤: 1. **添加依赖**:在项目中引入Apache POI的依赖库。如果你使用的是Maven,可以在pom.xml...

    Java读取Word表格内容

    通过Java读取word表格中的内容,将内容存到数据库中,将Word中的图片存到硬盘中

    Java读取多Word文档中指定位置的表格数据或文本内容

    Java读取Word文档中指定位置(可以自己自定义位置)的表格数据或文本内容 * @param filePath 文档路径 * @param start 指定位置开始读取表格数据的该位置上的字符串 * @param end 指定位置开始结束读取表格数据的该...

    JAVA读取WORD_EXCEL_POWERPOINT_PDF文件的方法(poi)

    JAVA 读取 WORD_EXCEL_POWERPOINT_PDF 文件的方法(poi) JAVA 读取 WORD_EXCEL_POWERPOINT_PDF 文件的方法是使用 Apache POI 库来实现的。POI 库是一个开放源代码的 Java 库,提供了对 Microsoft Office 文件格式...

    java 实现 word 文档的在线预览

    在Java开发中,实现Word文档的在线预览是一项常见的需求,尤其在企业级应用中,例如文档管理系统或者协同办公平台。这项功能可以让用户无需下载原始文件就能查看文档内容,提高工作效率并减少服务器存储压力。本资源...

    java读取word文档.doc

    Java 读取 Word 文档是常见的需求,尤其是在自动化处理、数据导出或文档生成的场景中。本示例主要探讨如何使用 Java 处理 RTF(Rich Text Format)文档,而不是直接读取 .doc 或 .docx 文件。这是因为直接读取 Word ...

    java获取word文档的条目化内容

    java调用PageOffice在线编辑word文件的时候,获取word文档的条目化内容。 PageOffice V4.0 企业版试用序列号:Q37LN-W8NI-KFSQ-LEY3Y 部署步骤: 1. 拷贝simpledemo8文件夹到Tomcat的webapps目录下 2. 访问...

    java读取word2003

    - 由于二进制文件的复杂性,读取Word文档可能会遇到一些问题,如格式转换错误、编码问题等。 - 如果文档包含复杂的格式或对象(如图片、表格),可能需要更复杂的处理逻辑。 4. **其他替代方案**: - 如果只是...

    Java读取Word中的表格(Excel),并导出文件为Excel

    在Java编程中,有时我们需要处理来自不同文档格式的数据,例如从Word文档中提取表格内容,并将其转换成Excel文件。这通常涉及到使用Apache POI库,一个强大的API,用于读写Microsoft Office格式的文件,包括Word(....

    java准确读取word页码

    在Java编程环境中,读取Word文档的页码是一项常见的任务,尤其在处理大量文档数据时。这个场景下,我们通常会使用Apache POI库,这是一个强大的API,专门用于处理Microsoft Office格式的文件,包括Word(.doc和.docx...

Global site tag (gtag.js) - Google Analytics