java解析Office文档最有名的开源包当属Apache的Poi,目前的版本已支持Office 2007文档解析,同时向下兼容。
下面是简单的解析代码:
import java.io.File;
import org.apache.poi.POITextExtractor;
import org.apache.poi.extractor.ExtractorFactory;
public class DocxParser {
/**
* @param args
*/
public static void main(String[] args) {
try {
File inputFile = new File("D:\\test.docx");
//File inputFile = new File("D:\\test.pptx");
//File inputFile = new File("D:\\test.xlsx");
//File inputFile = new File("D:\\test.xls");
//File inputFile = new File("D:\\test.doc");
//File inputFile = new File("D:\\test.ppt");
POITextExtractor extractor = ExtractorFactory
.createExtractor(inputFile);
System.out.println("Document Text: ");
System.out.println("====================");
System.out.println(extractor.getText());
System.out.println("====================");
} catch (Exception ex) {
ex.printStackTrace();
}
}
}
我的包如下:
dom4j-1.6.1.jar
geronimo-stax-api_1.0_spec-1.0.jar
ooxml-schemas-1.0.jar
xmlbeans-2.3.0.jar
log4j-1.2.13.jar
poi-3.5-beta6-20090622.jar
poi-contrib-3.5-beta6-20090622.jar
poi-ooxml-3.5-beta6-20090622.jar
poi-scratchpad-3.5-beta6-20090622.jar
可从下列的URL下载最新包:
http://labs.xiaonei.com/apache-mirror/poi/
http://www.apache.org/dyn/closer.cgi/poi/
Log4j在Java WebApp的配置 http://fonter.iteye.com/blog/418570
J2ME to android之学习笔记 http://fonter.iteye.com/blog/416112
安装Jar提示“jar文件无效”的另一个奇怪原因 http://fonter.iteye.com/blog/414188
J2ME代码认证证书的支持情况 http://fonter.iteye.com/blog/413357
S40平台播放多媒体时内存优化 http://fonter.iteye.com/blog/413022
SUN的J2ME源代码下载 http://fonter.iteye.com/blog/412094
J2ME也玩GZIP,哈哈!http://fonter.iteye.com/blog/411284
开源一个J2ME解析类 http://fonter.iteye.com/blog/409830
手机中的重定向问题及处理 http://fonter.iteye.com/blog/400836
J2ME如何通过cmwap直接访问互连网 http://fonter.iteye.com/blog/400868
安装JAD时提示JAD无效原因之一 http://fonter.iteye.com/blog/400888
J2ME网络交互之优化 http://fonter.iteye.com/blog/405137
解决Eclipse无法调试J2ME程序的配置方法 http://fonter.iteye.com/blog/405697
J2ME模拟器加载RMS时突然失效的原因 http://fonter.iteye.com/blog/407576
J2ME飞信协议分析(初稿) http://fonter.iteye.com/blog/408385
分享到:
相关推荐
在Android平台上,处理Office文档(如doc、docx、xls、xlsx、ppt、pptx)以及PDF文件是一项常见的需求。Android本身并不直接支持这些文件格式的处理,因此开发者需要借助第三方库或者Google Drive等在线服务来实现。...
docx,xlsx,pptx,pdf文档搜索工具,可以在不打开docx,xlsx,pptx,pdf文档的情况下搜索文档中内容 当我们的文档内容特别多,又记不住以前的信息到底保存在哪个位置的哪个文档的时候,本软件可以帮助你火速找到你搜索的...
使用spring boot打造文件文档在线预览项目解决方案,支持doc、docx、ppt、pptx、xls、xlsx、zip、rar、mp4、mp3以及众多类文本如txt、html、xml、java、properties、sql、js、md、json、conf、ini、vue、php、py、...
首先,Apache POI是一个流行的Java API,专门用于处理Microsoft Office格式的文件,如Word(doc和docx)、Excel(xls和xlsx)和PowerPoint(ppt和pptx)。POI提供了丰富的API,使得开发者可以轻松地读取、写入甚至...
数擎XLSX/DOCX/PPTX文件恢复软件可以恢复Office2007、Office2010、Office2013、Office2016、Office2017、Office2019保存的扩展名是xlsx和docx和pptx的办公文件,具有碎片扫描恢复重组的功能。特别适合于U盘等FAT32...
在IT行业中,尤其是在Web开发领域,常常需要处理各种类型的办公文档,例如Microsoft Office的doc、docx、xls、xlsx、ppt、pptx等格式。这些文件通常用于存储文本、表格、图表、幻灯片等内容,而在Web应用中,提供...
本文将详细介绍如何使用Java通过JODConverter库将`.docx`, `.xlsx`, 和`.pptx`文件转换为`.pdf`格式,以及如何在实际项目中实现这个功能。 首先,`JODConverter`是一个强大的开源Java库,它利用LibreOffice或...
在现代Web应用中,用户经常需要预览Office文档,如docx、pptx和xlsx文件,而无需下载或使用特定的桌面软件。本教程将详细讲解如何使用纯前端JavaScript技术来实现这一功能,让用户体验更加流畅和便捷。 首先,我们...
txt 前端实现文件预览img、docx、xlsx、pptx、pdf、md、txt、audio、video
在IT行业中,处理和操作Microsoft Office文档(如Word的.docx、Excel的.xlsx和PowerPoint的.pptx)是常见的需求。"使用jacob,poi来实现在线访问docx,xlsx,pptx的文件"这一主题涉及到两个主要的Java库:Apache POI和...
"docx"和"xlsx"以及"pptx"是这个系列中最常见的三种文件格式,分别对应Word、Excel和PowerPoint的主要输出文件。 在压缩包子文件的文件名称列表中,只有一个条目"office文件",这可能意味着压缩包中包含了上述所有...
标题中的“PDF\DOCX\PPTX\XLSX 文件编辑、打印权限密码去除工具”是一款专门用于解除特定类型文档的编辑和打印权限限制的软件。这款工具的主要目标是帮助用户在没有原始密码的情况下,取消对OFFICE文件(如DOCX、...
docx,xlsx,pptx打不开office下载最小安装升级组件,解决office2007文件打不开等的问题。
读取txt、doc、docx、pptx、xls、xlsx,以及文件下载 需要下载jxl和tm
OOXML是微软推出的新一代Office文档格式,用于xlsx、docx和pptx等文件。此jar文件提供了对OOXML文档结构的解析和生成,使得Java程序能够理解并操作xlsx格式的Excel文件。 2. xmlbeans-2.6.0.jar:XMLBeans是另一个...
然而,随着技术的发展,文件格式也相应地进行了升级,如.docx、.pptx和.xlsx成为Office 2007及后续版本的默认格式。这些新格式虽然提供了更多功能和更好的兼容性,但有时可能在旧版系统或搜索工具中不被完全支持,...
在Android开发中,有时我们需要处理各种办公文档,如Word(doc、docx)、Excel(xlsx、xls)和PowerPoint(ppt、pptx)文件。在标题和描述中提到的,是利用Apache POI库实现一个Android应用,允许用户在本地设备上...
在Go语言中,创建和处理DOCX、XLSX、PPTX...总的来说,Go语言提供了丰富的库来处理DOCX、XLSX、PPTX文件,使得在Go中进行文档操作变得相对简单。通过熟悉和理解这些库的API,开发者可以高效地实现各种文档处理功能。
支持word2003的文件格式分析(doc, xls, ppt),也支持(docx, xlsx, pptx)文件格式分析,全图形化界面工具; 本人也在从事pdf, word2003, openxml文件格式相关开发
Apache POI是一个流行的开源库,专门用于读写Microsoft Office格式的文件,包括Word(.docx)、Excel(.xlsx)和PowerPoint(.pptx)等。对于.docx格式的Word文档,Apache POI提供了XWPF(XML Word Processing)API...