poi 3.9
import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream; import org.apache.poi.xwpf.converter.core.FileImageExtractor; import org.apache.poi.xwpf.converter.core.FileURIResolver; import org.apache.poi.xwpf.converter.xhtml.XHTMLConverter; import org.apache.poi.xwpf.converter.xhtml.XHTMLOptions; import org.apache.poi.xwpf.usermodel.XWPFDocument; import org.apache.poi.xwpf.usermodel.XWPFPictureData; //import org.junit.Assert; //import org.junit.Test; public class word07toHtml { //@Test public static void canExtractImage() throws IOException { File f = new File("d:/test/test.docx"); if (!f.exists()) { System.out.println("Sorry File does not Exists!"); } else { if (f.getName().endsWith(".docx") || f.getName().endsWith(".DOCX")) { // 1) Load DOCX into XWPFDocument InputStream in = new FileInputStream(f); XWPFDocument document = new XWPFDocument(in); // 2) Prepare XHTML options (here we set the IURIResolver to // load images from a "word/media" folder) File imageFolderFile = new File("d:/test/media"); XHTMLOptions options = XHTMLOptions.create().URIResolver( new FileURIResolver(imageFolderFile)); options.setExtractor(new FileImageExtractor(imageFolderFile)); //options.setIgnoreStylesIfUnused(false); //options.setFragment(true); // 3) Convert XWPFDocument to XHTML OutputStream out = new FileOutputStream(new File( "d:/test/test.htm")); XHTMLConverter.getInstance().convert(document, out, options); } else { System.out.println("Enter only MS Office 2007+ files"); } } } public static void main(String args[]) { try { canExtractImage(); } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } } }
其中org.apache.poi.xwpf.converter需要扩展包
如果你的项目用到了maven做如下配置即可,若果没用maven,请从本文附件下载
1.0.4 对应的是 poi 3.9
1.0.0 对应的是 poi 3.8
import org.apache.poi.xwpf.converter.xhtml.XHTMLConverter;
import org.apache.poi.xwpf.converter.xhtml.XHTMLOptions;
所需jar包
<dependencies> <dependency> <groupId> fr.opensagres.xdocreport</groupId> <artifactId> org.apache.poi.xwpf.converter.core</artifactId> <version> 1.0.4</version> </dependency> <dependency> <groupId> fr.opensagres.xdocreport</groupId> <artifactId> org.apache.poi.xwpf.converter.xhtml</artifactId> <version> 1.0.4</version> </dependency> </dependencies>
如果报错:
java.lang.ClassNotFoundException: org.openxmlformats.schemas.wordprocessingml.x2006.main.impl.CTSectPrImpl$1HeaderReferenceList
请添加 ooxml-schemas-1.1.jar
java.lang.ClassNotFoundException: org.openxmlformats.schemas.wordprocessingml.x2006.main.impl.CTBodyImpl$1TblList
也是需要 ooxml-schemas-1.1.jar
用maven的会自动下来,没用maven的请从本文附件下载ooxml-schemas-1.1.rar,需要解压
不过,发现转换后的table没有边框,有待解决
java word转html(03,07) jacob,openoffcie,poi
http://happyqing.iteye.com/blog/2086437
相关推荐
为了更深入地理解和应用Apache POI进行Word到HTML的转换,可以查阅官方文档和社区论坛,获取最新的库版本和支持的特性列表。此外,许多在线教程和示例代码也能提供帮助,特别是针对特定需求的解决方案,如支持更多...
在这个场景中,我们关注的是如何使用POI将Word2003(.doc)和Word2007(.docx)文档转换为HTML格式,同时保留其中的图片。 在Word到HTML的转换过程中,主要涉及以下几个关键知识点: 1. **Apache POI基础**:...
本主题聚焦于如何利用Apache POI库将Word文档转换为HTML格式,从而实现在线阅读。Apache POI是一个强大的开源Java库,它允许开发者读取、写入以及创建Microsoft Office格式的文件,包括Word(.doc)文档。 首先,让...
Apache POI 是一个开源项目,专门用于处理Microsoft Office格式的文件,如Word(.doc、.docx)、Excel(.xls、.xlsx)和PowerPoint(.ppt、.pptx)。在Java环境中,Apache POI 提供了API,使得开发者能够读取、创建...
"POI将word转HTML.zip"和"demo1.zip"可能包含具体的Java代码示例,用于演示如何实现Word到HTML的转换以及数据库数据导出到Excel的操作。解压后,开发者可以查看源代码并根据自己的需求进行调整和应用。 总结,Java...
"cms.rar_cms word_poi word html_poi word转HTML_poi转Word"这一标题提及的CMS可能是一个特定的项目或实现,它涉及到使用Apache POI库处理Microsoft Word文档,并将这些文档转换为HTML格式以供网页展示。Apache POI...
在本案例中,我们关注的是如何使用POI将Word文档转换为HTML格式。这个过程对于在网络上展示内容或者进行数据迁移非常有用。 首先,我们需要理解Apache POI的基本概念。POI提供了HWPF(Horrible Word Processor ...
本篇文章将详细讲解如何利用Apache POI库进行Word内容提取及Word转HTML的过程,以及涉及的相关知识点。 Apache POI是一个开源项目,专为处理Microsoft Office格式的文件而设计,包括Word(.doc/.docx)、Excel(....
在这个特定的场景中,我们利用POI将Word文档转换为HTML格式,以便于在网页上展示或者进行其他Web相关的操作。下面我们将深入探讨这个过程中的关键知识点。 1. **Java POI库**: POI是Apache软件基金会的一个开源项目...
Apache POI 提供了强大的工具来处理Word和Excel文件,将其转换为HTML格式可以方便在网络上传播和展示,同时也可以应用于数据迁移、文档预览等多个场景。在实践中,我们需要关注样式还原、兼容性处理以及性能优化等...
在"poi word转html架包"中,我们关注的是如何使用Apache POI库将Word文档转换为HTML格式。这个过程涉及到多个依赖库,如在给定的文件列表中所示,这些库支持POI在处理OOXML(Office Open XML)标准时的运作。 1. **...
本文将详细介绍如何使用Apache POI来操作Word文档,并将其转换为HTML格式。 首先,为了进行Word到HTML的转换,你需要确保你的项目中已经包含了Apache POI的相应jar包。这些jar文件通常包括poi-ooxml、poi-ooxml-...
`test.html`文件可能是博客文章的HTML版本,包含了关于如何使用POI处理Word目录的代码示例或详细步骤。 在实际应用中,Apache POI对于需要自动化处理大量Word文档的企业来说是一个强大的工具,尤其是在需要生成结构...
Apache POI 是一个流行的开源库,专为处理Microsoft Office格式的文件,如Word(.doc/.docx)和Excel(.xls/.xlsx)。本教程将深入探讨如何使用Apache POI库来实现这些文件向HTML的转换,以实现跨平台和浏览器的兼容...
POI提供了HWPFDocument(针对Word 2003及以下版本)和XWPFDocument(针对Word 2007及以上版本)类。这些类可以解析Word文档的段落、表格、图片等元素,将其转化为HTML的相应标签。需要注意的是,Word文档的复杂格式...
将Word文档转换为HTML是POI的一个关键应用。这一过程涉及到解析Word文档,提取文本、样式和图像,然后将它们重构为HTML结构。POI提供了一些工具和方法来实现这一转换,但需要注意的是,由于Word和HTML的内在差异,...
Java调用POI实现Word转HTML Java调用POI(Apache POI)实现Word文档转换为HTML文档是一种常见的文档转换方式。 Apache POI是Apache软件基金会的一个开源项目,提供了对Microsoft Office文档格式的读写能力,包括...