`
tarenadjq
  • 浏览: 7726 次
  • 性别: Icon_minigender_1
  • 来自: 太原
文章分类
社区版块
存档分类
最新评论

如何用java读取word文档的内容

阅读更多
这几天一直都在做用java读取关于办公软件内容的事
很是让你麻烦
在网上找了好多 都不怎么好使
现在我将我自己考虑到的东东 
和大家分享
package AttainContent;
/*****显示Word中的内容*******/
import java.io.FileInputStream;
import org.apache.poi.hwpf.extractor.WordExtractor;
public   class   SeedWork   {
    public   SeedWork()   {}
    public   static   void   main(String   args[])   throws   Exception   {
        FileInputStream   in   =   new   FileInputStream( "d:\\aa.doc ");
        WordExtractor   extractor   =   new   WordExtractor(in);
        String   str   =   extractor.getText();
        System.out.println( "the   result   is: "   +   str);
    }
}

我觉的还是用POI这个东西比较好
1
6
分享到:
评论
4 楼 stevezheng 2009-04-24  
对于图片和其他ole的东西(如visio的图),vb把它处理成ole,jacob就是vb,所以也是处理成ole,然后你把它保存为原来的格式就可以了。

jodconverter解决起来“纯洁”一些,把word文档直接变成html,然后去文件系统拿图片
3 楼 梦游的鱼 2009-03-16  
那你有没有想过,如果word里面有图片呢。
2 楼 stevezheng 2009-03-01  
POI不是最优的方案,POI处理Excel尚算可以,但是处理word有些力不从心,给你推荐两个:
1、jodconverter,使用open office将word文档处理成为odt或者html,然后解析;
2、Jacob,桥接word的com;

这两个方法我都用过,Jacob相对比较简单,需要懂一些vb,但是他不稳定,并且非但server上需要装MS office,而且挑版本,2003和2007总不对付,后来放弃了;jodconverter看似比较复杂,而且最终避免不了自己解析的痛苦,但是稳定,随心所欲。
1 楼 tarenadjq 2009-03-01  
自己先顶顶顶顶顶

相关推荐

    Java读取word文档内容并输出成网页(含图片,公式)

    在这个场景中,我们将重点讨论如何使用Java POI读取Word文档并将其内容转换为HTML网页,同时确保图片和公式等复杂元素能够正确显示。 首先,你需要在你的Java项目中引入Apache POI库。可以通过Maven或Gradle来添加...

    Java读取Word文档页数

    本主题将深入探讨如何利用给定的`itextpdf-5.5.9.jar`和`jacob.jar`这两个库来实现Java读取Word文档页数的功能。 `jacob.jar`是一个Java到COM桥接库,它允许Java应用程序调用Microsoft Office组件,如Word,从而...

    java读取word,pdf格式文档方法

    Java 读取 Word、PDF 格式文档方法 Java 是一种广泛应用的编程语言,对文档操作是其重要的应用场景之一。本文将介绍 Java 如何读取 Word、PDF 格式文档的几种方法。 使用 Jacob Jacob 是一个桥接工具,连接 Java ...

    Java读取Word表格内容

    通过Java读取word表格中的内容,将内容存到数据库中,将Word中的图片存到硬盘中

    java 利用POI读取Word文件中的内容

    在Java中,读取Word文档(.docx格式)主要使用XWPF(XML Word Processing)API。以下是使用POI读取Word文件的基本步骤: 1. **添加依赖**:在项目中引入Apache POI的依赖库。如果你使用的是Maven,可以在pom.xml...

    java读取word文档内容以及字体大小和颜色

    java读取不同版本文档的内容以及字体大小,实现对文档格式进行匹配!

    java实现读取word文件并且上传到数据库

    提供的压缩包文件"java读取word和Excel文件"可能包含了示例代码或模板,用于展示如何结合Apache POI和JDBC实现上述功能。通过研究这些文件,你可以更深入地理解如何在Java中实现这个任务。 总的来说,这个项目涉及...

    java读取word文档.pdf

    首先,标题“java读取word文档.pdf”和描述“java读取word文档.pdf”暗示了文章内容可能涉及使用Java语言读取Word文档的技术。 从片段中可以提取到的关键技术点包括: 1. Apache POI库:Apache POI是一个开源的...

    JAVA读取WORD_EXCEL_POWERPOINT_PDF文件的方法(poi)

    在读取 WORD 文件时,需要使用 `org.apache.poi.hwpf` 包下的 `WordExtractor` 类来提取文档内容。下面是一个简单的示例代码: ```java import org.apache.lucene.document.Document; import org.apache.lucene....

    Java读取多Word文档中指定位置的表格数据或文本内容

    Java读取Word文档中指定位置(可以自己自定义位置)的表格数据或文本内容 * @param filePath 文档路径 * @param start 指定位置开始读取表格数据的该位置上的字符串 * @param end 指定位置开始结束读取表格数据的该...

    java读取Word文档依赖jar包

    在本文中,我们将详细讨论如何使用Apache POI库来读取Word文档,以及在Java项目中如何添加和配置依赖。 首先,要使用Apache POI读取Word文档,你需要下载并引入相关的jar包。在给定的压缩包“poi读取word依赖包”中...

    java读取word文档

    ### Java读取Word文档知识点详解 #### 一、引言 在日常的软件开发工作中,处理办公文档(如Word)的需求十分常见。Java作为一种广泛使用的编程语言,提供了多种方式来读取Word文档中的内容,包括但不限于使用...

    java获取word文档的条目化内容

    java调用PageOffice在线编辑word文件的时候,获取word文档的条目化内容。 PageOffice V4.0 企业版试用序列号:Q37LN-W8NI-KFSQ-LEY3Y 部署步骤: 1. 拷贝simpledemo8文件夹到Tomcat的webapps目录下 2. 访问...

    java读取word2003

    - 由于二进制文件的复杂性,读取Word文档可能会遇到一些问题,如格式转换错误、编码问题等。 - 如果文档包含复杂的格式或对象(如图片、表格),可能需要更复杂的处理逻辑。 4. **其他替代方案**: - 如果只是...

    JAVA 对word 内容的提取返回String

    在第一个示例中,我们使用 Java 流来读取 Word 文档的内容。我们首先需要引入必要的包,包括 `java.io.BufferedReader` 和 `java.io.FileReader`。然后,我们创建了一个 `BufferedReader` 对象,用于读取 Word 文档...

    java准确读取word页码

    在Java编程环境中,读取Word文档的页码是一项常见的任务,尤其在处理大量文档数据时。这个场景下,我们通常会使用Apache POI库,这是一个强大的API,专门用于处理Microsoft Office格式的文件,包括Word(.doc和.docx...

    Java读取Word中的表格(Excel),并导出文件为Excel

    2. **读取Word文档**: 使用Apache POI的`XWPFDocument`类来打开Word文档。你需要提供文件的输入流: ```java File wordFile = new File("path_to_word_file.docx"); FileInputStream fis = new FileInputStream...

    POI读取word文档的文字内容和图片内容

    在本主题中,我们将深入探讨如何使用POI库读取Word文档中的文字内容和图片。 首先,我们需要理解Word文档的基本结构。Word文档本质上是由一系列基于XML的数据存储在.OFFICEML格式的文件中,这使得我们可以通过解析...

    java 实现 word 文档的在线预览

    一种可能的方法是先用POI读取Word文档,然后自己编写逻辑将其转换成HTML,但这可能比较复杂,且可能无法完美保留原始格式。 Spire.Doc for Java则提供了更完整的Word处理能力,包括将Word转换为HTML的功能。这个库...

Global site tag (gtag.js) - Google Analytics