`
jilong-liang
  • 浏览: 480471 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类

poi解析doc文件内容

    博客分类:
  • Java
阅读更多
package com.app.doc;

import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;

import org.apache.poi.hwpf.extractor.WordExtractor;

/**
 *poi-3.9-20121203.jar
 *poi-examples-3.9-20121203.jar
 *poi-excelant-3.9-20121203.jar
 *poi-ooxml-3.9-20121203.jar
 *poi-ooxml-schemas-3.9-20121203.jar
 *poi-scratchpad-3.9-20121203.jar
 */
public class DocWord {

	/**
	 * @param args
	 */
	public static void main(String[] args) throws Exception{
		String path="D:/ecmall数据字典.doc";
		String text =readWordDoc(path);
		System.out.println(text);
	}
	/**
	 * 读word文件的内容
	 * @param path
	 * @return
	 * @throws Exception
	 */
	public static String readWordDoc(String path) throws Exception { 
		InputStream input=new FileInputStream(new File(path));
		WordExtractor extractor = null;
        // 创建WordExtractor
        extractor = new WordExtractor(input);
        // 对doc文件进行提取
		return extractor.getText();
	}
}

 

0
2
分享到:
评论

相关推荐

    JAVA用poi解析doc、docx、slx、xlsx,保证完整

    接下来,我们来看如何使用POI解析不同类型的文件: 1. **解析doc和docx文件**: - 对于.doc文件,我们需要使用HWPFDocument类来打开文档。然后,我们可以使用Document对象的方法如getText()来获取整个文档的文本。...

    Poi解析Doc,Docx文件资源

    对于`.doc`文件,Apache POI的HWPF库提供了读取文档内容、样式、页眉页脚等信息的方法。例如,你可以通过`Document`对象来获取文档的段落、表格和图片,通过`Paragraph`对象获取段落文本和样式,通过`Table`对象处理...

    JAVA用poi解析doc、docx、slx、xlsx

    解析.doc文件时,你需要使用HWPFDocument类来创建一个文档对象,然后通过这个对象可以访问文档的段落、字符等元素。例如: ```java FileInputStream fis = new FileInputStream("document.doc"); HWPFDocument ...

    POI解析word2007文本及图片(已测试).doc

    Apache POI 提供了对 Word 2007 文本和图片的解析功能,允许开发者读取和提取 Word 文档中的文本和图片内容。 Word 2007 文档结构 Word 2007 文档是基于 OpenXML 标准的,使用 ZIP 压缩文件格式来存储文档内容。...

    Android解析并显示doc,docx,xls,xlsx文件

    - 对于doc文件,由于其非XML结构,处理起来较为复杂。Apache POI的HWPF库可以帮助解析,但支持相对有限,可能无法完全保留原始格式和图像。 2. **转换为HTML**: - 将解析后的内容转换为HTML,可以利用库提供的...

    java解析doc

    要解析DOC文件,Java开发者通常会使用Apache POI库,这是一个广泛使用的开源项目,专门用于处理Microsoft Office文件格式。对于DOCX文件,Apache POI的HWPF(Horrible Word Processor Format)组件可以用来读取和...

    poi 解析word文档的必用jar

    以下是一些使用Apache POI解析Word文档的基本步骤: 1. **导入必要的库**: 首先,你需要在你的Java项目中引入Apache POI库,包括上述提到的"poi-3.5-beta6-20090622.jar"。现代项目中,通常会使用Maven或Gradle来...

    poi解析word文档 及 试卷数学公式导入wmf图片转成png图片

    标题中的“poi解析word文档”指的是使用Apache POI库来处理Microsoft Word(.doc或.docx)文件。Apache POI是Java中一个流行的库,它允许开发者读取、写入和修改Microsoft Office格式的文件,包括Word、Excel和...

    Android poi jar包,生成doc文件

    标题"Android poi jar包,生成doc文件"指的正是如何在Android应用中利用Apache POI库来创建doc文件。Apache POI提供了Java API,使得开发者可以跨平台地操作这些文件,包括Android环境。然而,需要注意的是,直接在...

    java 利用POI读取Word文件中的内容

    在Java编程语言中,Apache POI是一个非常流行的库,它允许开发者处理Microsoft Office格式的文件,包括Word(.doc和.docx)文档。本篇将详细介绍如何利用Apache POI库来读取Word文件中的内容。 首先,理解Apache ...

    使用POI将office(doc/docx/ppt/pptx/xls/xlsx)文件转html格式

    1. **初始化POI**: 首先,我们需要导入Apache POI相关的库,并创建适当的处理对象,如`XSSFWorkbook`(处理.xlsx文件)、`HWPFDocument`(处理.doc文件)或`HSLFSlideShow`(处理.ppt文件)。 2. **读取文件**: ...

    POI读取word文档的文字内容和图片内容

    POI库提供了HWPF(Horrible Word Processor Format)组件来处理旧版的.DOC文件,以及XWPF(eXtended Word Processing Format)组件来处理较新的.DOCX文件。 1. **读取文字内容**: - **初始化XWPFDocument对象**:...

    POI读取word文件内容

    总结来说,Apache POI是Java开发人员处理Word文档的强大工具,支持读取`.doc`和`.docx`文件,通过`HWPFDocument`和`XWPFDocument`类分别处理这两种格式,提供了便利的方法来获取和操作文档内容。在实际项目中,你...

    poi解析excel、word2007,2010等版本

    - **示例代码**: 展示如何使用POI API来读取和写入Excel或Word文件,这可能包括了Java Servlet或Controller,处理HTTP请求并返回文件解析的结果。 - **依赖库**: 项目可能会包含Apache POI库和其他相关依赖的jar...

    poi-3.15 及Android 打开doc工具类

    - 读取.doc文件内容:使用POI的HWPFDocument类来加载和解析Word文档。 - 显示内容:可能通过将Word内容转换为文本或HTML,然后在TextView或其他UI组件中展示。 - 错误处理:包括文件不存在、格式错误或内存问题等...

    poi解析导入word (简单Demo使用)

    Apache POI提供了HWPF(Horrible Word Processor Format)和XWPF(XML Word Processor Format)两个API,分别用于处理旧版的DOC文件和较新的DOCX文件。在这个例子中,我们主要关注XWPF,因为它适用于现代的Word文档...

    POI修改word、excel、pdf、ppt文件属性如作者以及将其转成html

    它允许我们读写文件内容,修改文件属性,并将文件转换为HTML等其他格式。然而,对于PDF的处理,需要借助其他的专门库。在实际应用中,理解并熟练运用POI的各种API,可以极大地提高开发效率,实现对Office文件的灵活...

    poi解析word、excel/ppt 及其其他相应的工具jar

    1. poi-ooxml-schemas-3.11-20141221.jar:这部分包含了Office Open XML (OOXML) 的XML架构定义,使得POI可以理解和解析基于OOXML格式的文件。 2. batik-all-1.8pre-r1084380.jar:Batik是Apache的一个子项目,主要...

    基于poi实现word/excel转换为HTML(且兼容.doc.docx.xls.xlsx)

    转换过程主要包括解析原始文件内容,然后将其重构为HTML标记。 1. **Word到HTML的转换**: - 使用XWPFDocument类打开.docx文件,HWPFDocument类打开.doc文件。 - 遍历文档中的段落(XWPFParagraph/XWPFSDT)和...

    DOC文件解析工具包与高清pdf

    在解析DOC文件时,了解其内部结构至关重要。DOC文件基于二进制格式,包含了样式信息、段落设定、图片数据等。解析工具通常会分解这些元素,以便于读取、编辑或转换。这些工具可能包括开源库(如Apache POI)或商业...

Global site tag (gtag.js) - Google Analytics