需要相关七个jar
poi-3.7-20101029.jar
poi-ooxml-3.7-20101029.jar
poi-ooxml-schemas-3.7-20101029.jar
poi-scratchpad-3.7-20101029.jar
dom4j-1.6.1.jar
geronimo-stax-api_1.0_spec-1.0.jar
xmlbeans-2.3.0.jar
public static String wordExtractor(String fileName){
try{
InputStream in = new FileInputStream(fileName);
String header,footer,allText;
int end;
if(getSuffix(fileName).equals("doc")){
WordExtractor wordExtractor = new WordExtractor(in);
header = wordExtractor.getHeaderText();
footer = wordExtractor.getFooterText();
allText = wordExtractor.getText();
end = allText.indexOf(footer);
return allText.substring(header.length(), end);
}else if(getSuffix(fileName).equals("docx")){
OPCPackage opcPackage = POIXMLDocument.openPackage(fileName);
POIXMLTextExtractor ex = new XWPFWordExtractor(opcPackage);
return ex.getText();
}else{
return null;
}
}catch(IOException e){
e.printStackTrace();
return null;
} catch (XmlException e) {
// TODO Auto-generated catch block
e.printStackTrace();
return null;
} catch (OpenXML4JException e) {
// TODO Auto-generated catch block
e.printStackTrace();
return null;
}
}
看到网上大部分也就是这个例子,利用getText()获取文本信息,但是这个信息中都包括了页眉和页脚吧,
如何处理能够除掉这些页眉页脚?
上面的代码只是能够除掉word2003中的页眉和页脚,不知道word2007如何处理
分享到:
相关推荐
在本主题中,我们将深入探讨如何使用POI库来导出Word文档,并进行页眉、页脚和标题的设置。这个过程涉及到对Word文档的高级布局控制,对于自动化报告生成或批量创建文档非常有用。 1. **Apache POI简介** Apache ...
注意:先下载开源包poi,把jar文件加入到你的项目里。
搜索了好多篇例子,算是强拼硬凑成现在的样子,还算比较满意吧。 此包中包含可测试成功代码,关联模板、字体文件、jar等 希望能帮助到大家。 这篇文章的作者蛮厉害,有不少借鉴。 ...
Apache POI是一个流行的Java库,专门用于处理Microsoft Office格式的文件,如Word、Excel和PowerPoint。在"poi合并多个word文档并设置页码"这个主题中,我们将深入探讨如何利用POI API来实现这两个功能。 首先,让...
标题中的“poi读取word 2007简单文本框值”指的是使用Apache POI库来读取Microsoft Word 2007文档中简单文本框内的文本内容。Apache POI是一个流行的开源Java库,用于处理Microsoft Office格式的文件,如Word(.docx...
这是一个POI读取word 2003 和 word 2007的例子 是一个Eclipse工程 下载后直接导入工程 运行 src 目录下的 Test java 类即可 这个 rar 包中包含着 POI 读取word 2003 和 word 2007 所需要的 jar 包 也有需要读取的 ...
标题 "POI-TL合并多个Word文档" 涉及到的是使用Apache POI和POI-TL库在Java环境中合并多个Word文档的技术。Apache POI是一个流行的开源库,允许开发者处理Microsoft Office格式的文件,如Word、Excel和PowerPoint。...
在这个场景中,"poi操作word在页眉上添加图片"指的是使用Apache POI API来编程地在Word文档的页眉部分插入图像。下面我们将深入探讨如何实现这一功能,以及相关的知识点。 首先,你需要导入Apache POI库到你的项目...
关于word页眉页脚,目录自动生成,分节符的使用,页码的使用等等技巧。
POI报表Word导出
使用poi将word读取后替换指定内容后再次生成新word,本人经过测试,拿来即用!
在实际应用中,可能还需要处理更多细节,如样式继承、页眉页脚的设置、列表的创建、书签和超链接的添加等。此外,为了提高性能,可以考虑使用低内存模式或者延迟加载策略,尤其是在处理大型文档时。总之,Apache POI...
2. 只支持DOC不支持DOCX:代码示例仅适用于旧版的Word文档格式(.doc),对于新版的Word文档格式(.docx),需要使用不同的方法或更高版本的POI库。 六、扩展阅读与资源: 为了更深入地理解和应用Apache POI进行...
在本教程中,我们将重点讨论如何利用Apache POI 3.13版本来导出Word文档,并结合图片操作。 首先,Apache POI提供了一个叫做HWPF(Horrible Word Processor Format)的API来处理老版的Word(.doc)文件,而XWPF...
本文档将详细介绍如何使用 POI 库来读取 Word 文档(包括 .doc 和 .docx 格式)中的文本内容以及提取其中的图片。 #### 二、环境配置与依赖 为了能够顺利地执行示例代码,需要确保项目的 build 环境包含了以下依赖...
本教程将深入探讨如何使用POI库生成Word文档。 1. **Apache POI 概述** - POI 是一个Java库,允许开发者在Java应用程序中操作Microsoft Office格式的文件。 - 主要支持的文件格式有HSSF(处理.xls Excel 97-2003...
本篇将深入探讨如何使用Apache POI库来替换Word文档中的图片,无论文档是.doc还是.docx格式。 首先,我们需要理解Apache POI的工作原理。POI提供了一个高级API,允许开发者读取、创建和修改Office文档。对于Word...
标题中的“poi解析word文档”指的是使用Apache POI库来处理Microsoft Word(.doc或.docx)文件。Apache POI是Java中一个流行的库,它允许开发者读取、写入和修改Microsoft Office格式的文件,包括Word、Excel和...
本教程将深入讲解如何利用Apache POI的XWPF模块结合Word模板中的书签,实现数据的动态插入,从而创建个性化的Word文档。 首先,我们需要理解Apache POI的XWPF模块。XWPF(XML Word Processing)是POI项目的一部分,...