`
shappy1978
  • 浏览: 700098 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

POI读取Word文档总结

    博客分类:
  • J2EE
 
阅读更多

    本文档为个人总结,不作为指导性教程,未提供解决方案.

1 要解决表格,宏,超链接,图片等显示或者乱码问题,不能用类似WordExtractor的包或者试图用一个函数导出文本,没有现成的解决方案,必须用poi包一个段落一个段落的解析并处理一些特殊的格式。

2 现在对带数字或者符号的”项目符号和编号“无法解析和显示,只能显示文本

3 无法显示修订内容,无法判断哪些的新增的修改,最严重的是无法去掉已经删除的文字

4 分页的时候无法拆分表格,理论上可以解决,但是太花时间,而且取决与你显示表格的技术

5 无法获取word的分页位置;无法处理目录,暂时来说我只是删除了目录。

//*********************************************************

    腊月二十八,找到了判断记录痕迹的办法,判断分页位置应该也没有问题了,对于word2003来说POI应该算做的很细致了,不过缺少全面的例子。下面就是判断段落标志和编号了,PAP应该可以找到吧,注释太少了,不得不啃微软的说明书。

分享到:
评论
6 楼 hebeixiaolei 2013-03-27  
你好,我想问一下,用poi如何往word文档里插入超链接呀!
5 楼 ldjjames 2012-08-23  
求如何分页,这对我有点太难了。
4 楼 liudi 2011-08-30  
请问怎么去除word上的修订啊  请不吝赐教!!!
3 楼 qianjinfu 2011-07-18  
谢谢回复:

   POI读取Word时,判断分页位置 就是一悲剧,我只能用endOffset来判断

分页,相当不精确。

另外 int pageCount = doc.getSummaryInformation().getPageCount();

取得总页数,很多文档取出总是1的问题,当取不出来只能通过。

extractor.getFooterText().trim();解析它的FooterText来判断
2 楼 shappy1978 2011-07-18  
我并没有读取word原来的分页,而是自己根据字数分页
1 楼 qianjinfu 2011-07-17  
你好:

  看到 POI 判断分页位置 这个功能,你是如何做到了

能否提供思路,和Sample代码,不胜感激

相关推荐

    POI读取 word 2003 和 word 2007 的例子

    值得注意的是 POI 在读取 word 文件的时候不会读取 word 文件中的图片信息 还有就是对于 2007 版的 word docx 如果 word 文件中有表格 所有表格中的数据都会在读取出来的字符串的最后 ">这是一个POI读取word 2003 和...

    POI读取word文档的文字内容和图片内容

    在本主题中,我们将深入探讨如何使用POI库读取Word文档中的文字内容和图片。 首先,我们需要理解Word文档的基本结构。Word文档本质上是由一系列基于XML的数据存储在.OFFICEML格式的文件中,这使得我们可以通过解析...

    java 利用POI读取Word文件中的内容

    以下是使用POI读取Word文件的基本步骤: 1. **添加依赖**:在项目中引入Apache POI的依赖库。如果你使用的是Maven,可以在pom.xml文件中添加以下依赖: ```xml <groupId>org.apache.poi <artifactId>poi-ooxml...

    [简单]poi读取word 2007简单文本框值

    标题中的“poi读取word 2007简单文本框值”指的是使用Apache POI库来读取Microsoft Word 2007文档中简单文本框内的文本内容。Apache POI是一个流行的开源Java库,用于处理Microsoft Office格式的文件,如Word(.docx...

    java Apache poi 对word doc文件进行读写操作

    在处理 Word .doc 文件时,POI 提供了一个名为 HWPF(Horizontally Written Property Set Files)的模块。这个模块使得开发人员能够读取和写入 .doc 文件,而不仅仅是提取文本内容。 `HWPFDocument` 类是 HWPF 模块...

    JAVA-POI读取word每一段所在页码(附依赖jar包).zip

    我给出了代码和所有的解释,用POI读取word中的页码。也算是小方法了,基本很准确,为什么要加一个基本呢?因为,分页标志符号在第一行为空白行的时候没有分页符!!所以你的文档如果有很多首段空白行的话,不要浪费C...

    android中poi生成word文档和excel文档

    在Android开发中,Apache POI 是一个非常实用的库,它允许程序员创建、修改和显示Microsoft Office格式的文件,如Word文档(.doc)和Excel工作簿(.xlsx或.xls)。这个工具对于需要在Android应用中处理这些文档的...

    linux下poi读取word空指针异常问题解决

    ### Linux下使用POI读取Word文件出现空指针异常问题解决方案 #### 问题背景 在使用Apache POI处理Word文档时,在Linux环境下遇到了`java.lang.NullPointerException`异常。异常的具体位置出现在`org.apache.poi....

    使用poi将word读取后替换指定内容后再次生成新word

    使用poi将word读取后替换指定内容后再次生成新word,本人经过测试,拿来即用!

    apache poi读取word内容

    在本案例中,我们将关注如何使用Apache POI来读取Word文档的内容,并将其以流的形式返回到Web应用程序的前端页面。 首先,Apache POI提供了一个名为`XWPFDocument`的类,用于处理`.docx`格式的Word文档。这个类允许...

    安卓使用poi XWPFDocument读取及修改word文档

    在Android平台上,处理Microsoft ...通过以上步骤,你可以在Android应用中利用Apache POI的XWPFDocument实现读取和修改Word文档的功能。尽管这需要一定的学习和调试,但一旦掌握,将大大扩展Android应用的功能性。

    poi解析word文档 及 试卷数学公式导入wmf图片转成png图片

    标题中的“poi解析word文档”指的是使用Apache POI库来处理Microsoft Word(.doc或.docx)文件。Apache POI是Java中一个流行的库,它允许开发者读取、写入和修改Microsoft Office格式的文件,包括Word、Excel和...

    POI读取word文件

    接下来,我们将探讨如何使用POI读取Word文件。对于.docx格式的文件,我们可以使用XWPFDocument类;而对于.doc格式的文件,需要使用HWPFDocument类。以下是一个简单的例子,展示如何读取.docx文件: ```java import ...

    Java POI读取word生成

    总结起来,Java POI库使得在Word文档中规范数据展示变得简单且灵活。通过熟练掌握POI的使用,开发者可以创建出专业且具有定制化排版的Word报告,适应各种业务需求。在实际项目中,结合数据库查询结果或其他数据源,...

    POI导出Word 页眉 页脚 标题设置

    这个过程涉及到对Word文档的高级布局控制,对于自动化报告生成或批量创建文档非常有用。 1. **Apache POI简介** Apache POI 提供了一套API,允许Java开发者读写Microsoft Office格式的文件。它支持HSSF...

    利用POI将word转换成html实现在线阅读

    1. **读取Word文档**:使用HWPFDocument或XWPFDocument类根据文档格式打开Word文件。如果是Word 2003格式(.doc),则使用HWPFDocument;如果是Word 2007及以上版本(.docx),则使用XWPFDocument。 2. **遍历文档...

    POI读取word文件内容

    总结来说,Apache POI是Java开发人员处理Word文档的强大工具,支持读取`.doc`和`.docx`文件,通过`HWPFDocument`和`XWPFDocument`类分别处理这两种格式,提供了便利的方法来获取和操作文档内容。在实际项目中,你...

    apache POI 读取 Word

    apach poi 读取word 文档 jar 包。 博文链接:https://wxinpeng.iteye.com/blog/231881

    POI生成word文档

    记得,处理复杂格式和模板时,可能需要对Word文档的XML结构有深入理解,以便正确设置样式和位置。 在实际应用中,可能还需要处理更多细节,如样式继承、页眉页脚的设置、列表的创建、书签和超链接的添加等。此外,...

Global site tag (gtag.js) - Google Analytics