`
RobustTm
  • 浏览: 23941 次
  • 性别: Icon_minigender_1
  • 来自: 武汉
社区版块
存档分类
最新评论

关于POI提取word中文本,除掉页眉页脚

 
阅读更多

需要相关七个jar

poi-3.7-20101029.jar

poi-ooxml-3.7-20101029.jar

poi-ooxml-schemas-3.7-20101029.jar

poi-scratchpad-3.7-20101029.jar

dom4j-1.6.1.jar

geronimo-stax-api_1.0_spec-1.0.jar

xmlbeans-2.3.0.jar

 

public static String wordExtractor(String fileName){
  try{
  InputStream in = new FileInputStream(fileName);
  String header,footer,allText;
  int end;
  if(getSuffix(fileName).equals("doc")){
  WordExtractor wordExtractor = new WordExtractor(in);
  header = wordExtractor.getHeaderText();
  footer = wordExtractor.getFooterText();
  allText = wordExtractor.getText();
  end = allText.indexOf(footer);
  return allText.substring(header.length(), end);
  }else if(getSuffix(fileName).equals("docx")){
   OPCPackage opcPackage =  POIXMLDocument.openPackage(fileName);   
   POIXMLTextExtractor ex = new XWPFWordExtractor(opcPackage);         
   return ex.getText();
  }else{
   return null;
  }
  }catch(IOException e){
   e.printStackTrace();
   return null;
  } catch (XmlException e) {
   // TODO Auto-generated catch block
   e.printStackTrace();
   return null;
  } catch (OpenXML4JException e) {
   // TODO Auto-generated catch block
   e.printStackTrace();
   return null; 
  }
 }

 

看到网上大部分也就是这个例子,利用getText()获取文本信息,但是这个信息中都包括了页眉和页脚吧,

如何处理能够除掉这些页眉页脚?

上面的代码只是能够除掉word2003中的页眉和页脚,不知道word2007如何处理

分享到:
评论

相关推荐

    POI导出Word 页眉 页脚 标题设置

    在本主题中,我们将深入探讨如何使用POI库来导出Word文档,并进行页眉、页脚和标题的设置。这个过程涉及到对Word文档的高级布局控制,对于自动化报告生成或批量创建文档非常有用。 1. **Apache POI简介** Apache ...

    用poi提取word中的图片和文字

    注意:先下载开源包poi,把jar文件加入到你的项目里。

    java html模板 itext 生成pdf 页眉页脚 合并pdf列子

    搜索了好多篇例子,算是强拼硬凑成现在的样子,还算比较满意吧。 此包中包含可测试成功代码,关联模板、字体文件、jar等 希望能帮助到大家。 这篇文章的作者蛮厉害,有不少借鉴。 ...

    poi合并多个word文档并设置页码

    Apache POI是一个流行的Java库,专门用于处理Microsoft Office格式的文件,如Word、Excel和PowerPoint。在"poi合并多个word文档并设置页码"这个主题中,我们将深入探讨如何利用POI API来实现这两个功能。 首先,让...

    [简单]poi读取word 2007简单文本框值

    标题中的“poi读取word 2007简单文本框值”指的是使用Apache POI库来读取Microsoft Word 2007文档中简单文本框内的文本内容。Apache POI是一个流行的开源Java库,用于处理Microsoft Office格式的文件,如Word(.docx...

    POI读取 word 2003 和 word 2007 的例子

    这是一个POI读取word 2003 和 word 2007的例子 是一个Eclipse工程 下载后直接导入工程 运行 src 目录下的 Test java 类即可 这个 rar 包中包含着 POI 读取word 2003 和 word 2007 所需要的 jar 包 也有需要读取的 ...

    POI-TL合并多个Word文档

    标题 "POI-TL合并多个Word文档" 涉及到的是使用Apache POI和POI-TL库在Java环境中合并多个Word文档的技术。Apache POI是一个流行的开源库,允许开发者处理Microsoft Office格式的文件,如Word、Excel和PowerPoint。...

    poi操作word在页眉上添加图片

    在这个场景中,"poi操作word在页眉上添加图片"指的是使用Apache POI API来编程地在Word文档的页眉部分插入图像。下面我们将深入探讨如何实现这一功能,以及相关的知识点。 首先,你需要导入Apache POI库到你的项目...

    word页眉_页脚_页码_word使用技巧

    关于word页眉页脚,目录自动生成,分节符的使用,页码的使用等等技巧。

    POI报表Word导出

    POI报表Word导出

    使用poi将word读取后替换指定内容后再次生成新word

    使用poi将word读取后替换指定内容后再次生成新word,本人经过测试,拿来即用!

    POI生成word文档

    在实际应用中,可能还需要处理更多细节,如样式继承、页眉页脚的设置、列表的创建、书签和超链接的添加等。此外,为了提高性能,可以考虑使用低内存模式或者延迟加载策略,尤其是在处理大型文档时。总之,Apache POI...

    poi完美word转html

    2. 只支持DOC不支持DOCX:代码示例仅适用于旧版的Word文档格式(.doc),对于新版的Word文档格式(.docx),需要使用不同的方法或更高版本的POI库。 六、扩展阅读与资源: 为了更深入地理解和应用Apache POI进行...

    基于poi导出word以及图片

    在本教程中,我们将重点讨论如何利用Apache POI 3.13版本来导出Word文档,并结合图片操作。 首先,Apache POI提供了一个叫做HWPF(Horrible Word Processor Format)的API来处理老版的Word(.doc)文件,而XWPF...

    poi导入word和图片

    本文档将详细介绍如何使用 POI 库来读取 Word 文档(包括 .doc 和 .docx 格式)中的文本内容以及提取其中的图片。 #### 二、环境配置与依赖 为了能够顺利地执行示例代码,需要确保项目的 build 环境包含了以下依赖...

    POI 生成Word文档

    本教程将深入探讨如何使用POI库生成Word文档。 1. **Apache POI 概述** - POI 是一个Java库,允许开发者在Java应用程序中操作Microsoft Office格式的文件。 - 主要支持的文件格式有HSSF(处理.xls Excel 97-2003...

    使用poi替换word中的图片

    本篇将深入探讨如何使用Apache POI库来替换Word文档中的图片,无论文档是.doc还是.docx格式。 首先,我们需要理解Apache POI的工作原理。POI提供了一个高级API,允许开发者读取、创建和修改Office文档。对于Word...

    poi解析word文档 及 试卷数学公式导入wmf图片转成png图片

    标题中的“poi解析word文档”指的是使用Apache POI库来处理Microsoft Word(.doc或.docx)文件。Apache POI是Java中一个流行的库,它允许开发者读取、写入和修改Microsoft Office格式的文件,包括Word、Excel和...

    利用poi+word模版书签,向word中插入数据

    本教程将深入讲解如何利用Apache POI的XWPF模块结合Word模板中的书签,实现数据的动态插入,从而创建个性化的Word文档。 首先,我们需要理解Apache POI的XWPF模块。XWPF(XML Word Processing)是POI项目的一部分,...

Global site tag (gtag.js) - Google Analytics