`
longforfreedom
  • 浏览: 198839 次
  • 性别: Icon_minigender_1
  • 来自: 成都
社区版块
存档分类
最新评论

使用POI抽取Word内容

    博客分类:
  • JAVA
阅读更多

使用POI3.5抽取Word内容只需要一句

 

	/**
	 * 使用<a href="http://poi.apache.org/">POI</a>抽取MS office 2003 word格式的文件内容
	 * @param file
	 *            MS Word2003 格式的{@link File}实例
	 * @return 文件内容的{@link String}
	 * @throws IOException
	 * @throws FileNotFoundException
	 */
	public String getContents(File file) throws FileNotFoundException,
			IOException {
		WordExtractor wordExtractor = new WordExtractor(new FileInputStream(
				file));
		return wordExtractor.getTextFromPieces();
	}
 
分享到:
评论
1 楼 itfirefly 2011-11-04  
你这么写不怕给骂人

相关推荐

    Android上使用POI抽取WordExcel和PPT内容工程源码

    总之,“Android4Office”项目提供了一个基础框架,帮助开发者在Android环境中使用Apache POI库处理Word、Excel和PPT文件。通过深入理解上述知识点,开发者可以在此基础上进行扩展,实现更复杂的Office文档操作功能...

    POI读取 word 2003 和 word 2007 的例子

    在这个例子中,我们将深入探讨如何使用Apache POI读取Word 2003和Word 2007的文档,并将内容以字符串形式输出。 首先,我们需要了解Apache POI中的两个主要组件,它们是HWPF(Horrible Word Processor Format)用于...

    poi转word含包

    标题中的“poi转word含包”指的是使用Apache POI库将数据从Excel(通常使用POI处理)转换为Microsoft Word文档。Apache POI是Java的一个开源项目,它提供了API来读取、创建和修改Microsoft Office格式的文件,包括...

    java抽取word,pdf的四种武器

    当我们需要从Word文档和PDF文件中抽取信息时,Java提供了多种强大的工具和库。以下将详细介绍四种常用的Java武器,帮助开发者高效地完成这项任务。 1. Apache POI - 提取Word文档 Apache POI是一个开源项目,它允许...

    Java抽取Word及PDF编程

    ### Java抽取Word及PDF编程 #### 一、引言 在日常工作中,处理Word和PDF文档的需求非常普遍,尤其是在企业级应用中。无论是自动化办公流程还是数据处理任务,能够有效地从这些格式的文档中提取信息变得至关重要。...

    Java抽取Word和PDF格式文件

    以下是一个使用POI抽取Word文档内容的简单示例: ```java import java.io.*; import org.apache.poi.hwpf.extractor.*; import org.apache.poi.poifs.filesystem.*; public class WordExtractorExample { public ...

    Java抽取Word.rar_Java Word

    在Java编程环境中,抽取Word文档数据内容是一项常见的任务,尤其在数据处理、文档解析或信息提取等场景下。本文将详细讲解如何使用Java API来读取和操作Microsoft Word(.doc或.docx)文件。 首先,Java标准库并...

    java无框架直接抽取word和ppt内容.zip

    这个压缩包“java无框架直接抽取word和ppt内容.zip”可能包含了一系列示例代码,演示如何在没有额外框架支持的情况下实现这些功能。本文将详细讲解如何在Java中直接处理Word和PowerPoint文件的内容。 首先,让我们...

    (缺少文件)参考POI官方资料综合网上资源写的一个android平台上抽取Office组件内容的程序支持Word2003和2007Excel2003和2007及Powerpoint2007.rar

    (缺少文件)参考POI官方资料综合网上资源写的一个android平台上抽取Office组件内容的程序支持Word2003和2007Excel2003和2007及Powerpoint2007.rar,太多无法一一验证是否可用,程序如果跑不起来需要自调,部分代码功能...

    office word文档解析

    总之,“Office Word文档解析”项目借助Apache POI库,提供了一个高效且灵活的方式来处理doc和docx文档,涵盖了从基本的文本内容到复杂的表格和图像的全面解析,为开发者提供了强大的工具,以适应各种业务需求。

    Java抽取Word和PDF格式文件的四种武器.doc

    本文将介绍四种主要的Java库,它们可以帮助开发者有效地抽取Word和PDF文档的内容。 首先,我们来看JACOB(Java COM Bridge)。JACOB是一个Java库,用于连接Java和COM组件,允许Java程序调用Windows API和Microsoft ...

    apache-tika-1.2-src.zip_ tika-app-1.2_java poi word_tika-app-1.2

    在描述中提到的"poi"标签,表明了Tika利用Apache POI来解析和提取Word文档的内容。 "Tika-App-1.2.jar"是Tika的命令行应用程序,你可以直接运行这个JAR文件来测试Tika的功能,例如,从一个文件中抽取出文本或元数据...

    java提取word内容

    在Java编程环境中,提取Word文档内容是一项常见的任务,特别是在数据处理、文档自动化或者信息抽取等领域。Word文档(.doc或.docx)存储了文本、格式、图像等多种元素,而Java提供了一些库,如Apache POI和...

    jsp导入word数据的典范

    使用POI,我们可以创建、修改、读取Word文档,这使得在服务器端操作Word文件成为可能。在三层架构中,这通常属于业务逻辑层(BLL)的职责,负责处理数据的读取和转换。 以下是使用Apache POI读取Word文档的基本步骤...

    读写doc文件poi jar包

    8. **tm-extractors-0.4.jar**: 这可能是一个用于文本挖掘或内容提取的库,可以帮助从Word文档中抽取文本,尤其是处理复杂的文档结构,如表格、列表等。 9. **兼容性问题**: 虽然Apache POI支持大部分功能,但有些...

    abc.zip_Java Word_SWT word_java 取 word_word

    首先,我们需要了解Java中的Apache POI库,这是一个广泛使用的API,专门用于处理Microsoft Office格式的文件,包括Word(.doc和.docx)。Apache POI提供了一套完整的API,可以读取、写入和修改Word文档。但是,对于...

    poi+extractors

    Apache POI是一个开源项目,主要用于处理Microsoft Office格式的文件,如Word(.doc, .docx)、Excel(.xls, .xlsx)和PowerPoint(.ppt, .pptx)。在Java编程环境中,POI提供了一系列API,使开发者能够读取、写入和...

    word转html

    1. **文件解析**:首先,我们需要解析Word文件,这通常通过使用库或API如Apache POI(Java)或OpenXML SDK(.NET)来实现。这些工具能够读取Word文档中的内容,包括文本、段落样式、字体、图像等。 - Apache POI是...

    使用Lucene对doc、docx、pdf、txt文档进行全文检索功能的实现 - 干勾鱼的CSDN博客 - CSDN博客1

    对于doc和docx文档,Apache POI 库被用来读取Word文档。`WordExtractor` 和 `XWPFWordExtractor` 分别用于处理旧版的.doc文件和基于XML的新版.docx文件,它们可以从文档中提取文本内容。而对于PDF文件,Apache ...

    swagger 转 word 工具 Java代码,一键生成优美 word 格式 API 文档

    通过 Apache POI,我们可以创建和格式化 Word 文档,将 Swagger 定义的内容转化为用户友好的格式。 在实际应用中,这个工具可能包含以下功能: 1. **Swagger 文件解析**:首先,工具会读取 Swagger 文件(通常是 `...

Global site tag (gtag.js) - Google Analytics