`
icess
  • 浏览: 252949 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

关于apache poi 抽取word文本的问题,

阅读更多
用如下的方法

   WordDocument wd = new WordDocument(is);
  StringWriter docTextWriter = new StringWriter();
  wd.writeAllText(new PrintWriter(docTextWriter));
  docTextWriter.close();
  bodyText = docTextWriter.toString();  
    // bodyText = new WordExtractor().extractText(is);
  System.out.println(bodyText);



抽取不出所有的文件, 好像有字数限制, 只能抽取前面部分字符. 是不是bug啊,



使用过poi的, 有没有遇到这种问题啊, 有没有好的办法呢, 路过的给点建议. 谢谢
分享到:
评论

相关推荐

    Android上使用POI抽取WordExcel和PPT内容工程源码

    总之,“Android4Office”项目提供了一个基础框架,帮助开发者在Android环境中使用Apache POI库处理Word、Excel和PPT文件。通过深入理解上述知识点,开发者可以在此基础上进行扩展,实现更复杂的Office文档操作功能...

    POI读取 word 2003 和 word 2007 的例子

    Apache POI 是一款开源的Java库,专门用于处理Microsoft Office格式的文件,包括Word、Excel和PowerPoint等。在这个例子中,我们将深入探讨如何使用Apache POI读取Word 2003和Word 2007的文档,并将内容以字符串形式...

    poi转word含包

    标题中的“poi转word含包”指的是使用Apache POI库将数据从Excel(通常使用POI处理)转换为Microsoft Word文档。Apache POI是Java的一个开源项目,它提供了API来读取、创建和修改Microsoft Office格式的文件,包括...

    Java抽取Word及PDF编程

    ### Java抽取Word及PDF编程 #### 一、引言 在日常工作中,处理Word和PDF文档的需求非常普遍,尤其是在企业级应用中。无论是自动化办公流程还是数据处理任务,能够有效地从这些格式的文档中提取信息变得至关重要。...

    java抽取word,pdf的四种武器

    1. Apache POI - 提取Word文档 Apache POI是一个开源项目,它允许Java开发者读写Microsoft Office格式的文件,包括Word(.doc/.docx)。POI提供了HSSF(Horrible Spreadsheet Format)用于处理Excel,而HWPF...

    Java抽取Word.rar_Java Word

    以上内容是关于在Java中抽取Word文档数据的基本方法和关键知识点。通过这些技术,你可以根据实际需求实现文档内容的提取、分析和处理。在具体应用中,可能还需要结合其他技术,如正则表达式进行文本清洗,或者使用...

    java无框架直接抽取word和ppt内容.zip

    这个压缩包“java无框架直接抽取word和ppt内容.zip”可能包含了一系列示例代码,演示如何在没有额外框架支持的情况下实现这些功能。本文将详细讲解如何在Java中直接处理Word和PowerPoint文件的内容。 首先,让我们...

    apache-tika-1.2-src.zip_ tika-app-1.2_java poi word_tika-app-1.2

    Apache Tika是一个强大的内容提取库,它主要用于从各种文件格式中抽取元数据和文本内容。在"apache-tika-1.2-src.zip"这个压缩包中,你将找到Tika的源代码,这对于理解其工作原理和进行自定义扩展非常有帮助。"tika-...

    Java抽取Word和PDF格式文件

    以下是一个使用POI抽取Word文档内容的简单示例: ```java import java.io.*; import org.apache.poi.hwpf.extractor.*; import org.apache.poi.poifs.filesystem.*; public class WordExtractorExample { public ...

    abc.zip_Java Word_SWT word_java 取 word_word

    "WordReader.java"是Java源代码文件,包含了实现Word文本抽取的逻辑;而"tm-extractors-0.4.jar"是一个外部依赖库,可能包含了用于处理Word文档的额外工具或API,比如Text Mining Extractors,它可能提供了更高效的...

    读写doc文件poi jar包

    8. **tm-extractors-0.4.jar**: 这可能是一个用于文本挖掘或内容提取的库,可以帮助从Word文档中抽取文本,尤其是处理复杂的文档结构,如表格、列表等。 9. **兼容性问题**: 虽然Apache POI支持大部分功能,但有些...

    Java抽取Word和PDF格式文件的四种武器.doc

    本文将介绍四种主要的Java库,它们可以帮助开发者有效地抽取Word和PDF文档的内容。 首先,我们来看JACOB(Java COM Bridge)。JACOB是一个Java库,用于连接Java和COM组件,允许Java程序调用Windows API和Microsoft ...

    office word文档解析

    总之,“Office Word文档解析”项目借助Apache POI库,提供了一个高效且灵活的方式来处理doc和docx文档,涵盖了从基本的文本内容到复杂的表格和图像的全面解析,为开发者提供了强大的工具,以适应各种业务需求。

    java提取word内容

    Word文档(.doc或.docx)存储了文本、格式、图像等多种元素,而Java提供了一些库,如Apache POI和JODConverter,来帮助开发者处理这些文件。 Apache POI是Apache软件基金会的一个开源项目,它提供了读写Microsoft ...

    jsp导入word数据的典范

    总的来说,"jsp导入word数据的典范"是一个结合了Java编程、JSP动态网页技术以及Apache POI库的实用案例,它展示了如何在Web应用程序中集成和处理Word文档,以提供更丰富的用户体验。在实际项目中,这样的功能可能...

    poi+extractors

    Apache POI是一个开源项目,主要用于处理Microsoft Office格式的文件,如Word(.doc, .docx)、Excel(.xls, .xlsx)和PowerPoint(.ppt, .pptx)。在Java编程环境中,POI提供了一系列API,使开发者能够读取、写入和...

    word转html

    1. **文件解析**:首先,我们需要解析Word文件,这通常通过使用库或API如Apache POI(Java)或OpenXML SDK(.NET)来实现。这些工具能够读取Word文档中的内容,包括文本、段落样式、字体、图像等。 - Apache POI是...

    JAVA读取WORD-pdf等.docx

    但请注意,jacob并不直接支持抽取文档内容,而是通过与Office应用程序交互来实现,这可能导致性能问题。 - `java2word` 是一个专门用于Java中调用MS Office Word文档的组件,它提供了一些简单的API来操作Word文档。...

    使用Lucene对doc、docx、pdf、txt文档进行全文检索功能的实现 - 干勾鱼的CSDN博客 - CSDN博客1

    而对于PDF文件,Apache PDFBox库被用于解析PDF文档,`PDFParser` 和 `PDFTextStripper` 类组合在一起可以从PDF中抽取文本。 以下是一般的步骤来实现全文检索功能: 1. **初始化**: 创建 `Directory` 对象和 `...

    JAVA读取WORD,EXCEL,POWERPOINT,PDF文件的方法

    以下分别介绍如何使用Apache POI处理Microsoft Office文档(Word、Excel和PowerPoint),以及使用PDFBox处理PDF文件。 1. **处理Word文档** Apache POI 提供了HWPF (Horrible Word Processor Format) 库来处理旧版...

Global site tag (gtag.js) - Google Analytics