`

JAVA 通过使用 Openoffice3 将 MS word 解析成 html

    博客分类:
  • J2SE
阅读更多

我使用 jodconverter-core-3.0-beta-3.jar 将 MS word 解析成 Html,发现解析之后的html并不理想,如果word中zhong全是文字和图片,解析没有问题,如果word中有表格,解析之后将会出现问题。

 

java程序调用 jodconverter-core-3.0-beta-3.jar  程序如下:

 

package jod;

import java.io.File;

import org.artofsolving.jodconverter.OfficeDocumentConverter;
import org.artofsolving.jodconverter.office.DefaultOfficeManagerConfiguration;
import org.artofsolving.jodconverter.office.OfficeManager;

public class Test {
	public static void main(String[] args) {
	    OfficeManager officeManager = new DefaultOfficeManagerConfiguration().buildOfficeManager(); 
	    officeManager.start(); 
	    OfficeDocumentConverter converter = new OfficeDocumentConverter(officeManager); 
	    try{
	    	converter.convert(new File("c:/test.doc"), new File("c:/test.html")); 
	    	
	    }catch(Exception e){
	    	e.printStackTrace();
	    }
	    officeManager.stop();
	}
}

 

      我解析之后页面html页面,我发现有以下问题,如果word全是文字内容,解析基本没有问题,但是如果解析前word文件中有表格,表格将会解析成图片。有可能解析成若干个小图片,也可能解析成一张大图片。我使用MS word 的另存为html之后,发现没有解析成图片。

 

 

0
0
分享到:
评论
2 楼 zm870506 2011-02-18  
我也遇到同样的问题,我用的是2.2.2的jar包,在doc转成pdf时候还好一点,文档还能看,只不过目录没有了。而我在docx转pdf的时候,就发先文档如果大一点,几十页的话,就会卡死呢。
1 楼 flamenco 2010-12-30  
为什么,我安装了SDK,却没有jar包呢?

相关推荐

    JAVA动态生成word和pdf.doc

    3. Java2word方案:Java2word是一个在Java程序中调用MS Office Word文档的组件(类库)。该组件提供了一组简单的接口,以便Java程序调用他的服务操作Word文档。 4. iText方案:iText操作Excel还行,对于复杂的大量的...

    java开源包3

    J2C 将 Java 代码转成 C++ 代码,这是源码级别的转换,输出的 C++ 代码是有效的代码。 OSGi 分布式通讯组件 R-OSGi R-OSGi 是一套适用于任意满足 OSGi 架构的分布式通讯组件。它以 jar 的形式发布,部署容易,使用...

    java开源包8

    J2C 将 Java 代码转成 C++ 代码,这是源码级别的转换,输出的 C++ 代码是有效的代码。 OSGi 分布式通讯组件 R-OSGi R-OSGi 是一套适用于任意满足 OSGi 架构的分布式通讯组件。它以 jar 的形式发布,部署容易,使用...

    java开源包6

    J2C 将 Java 代码转成 C++ 代码,这是源码级别的转换,输出的 C++ 代码是有效的代码。 OSGi 分布式通讯组件 R-OSGi R-OSGi 是一套适用于任意满足 OSGi 架构的分布式通讯组件。它以 jar 的形式发布,部署容易,使用...

    java开源包4

    J2C 将 Java 代码转成 C++ 代码,这是源码级别的转换,输出的 C++ 代码是有效的代码。 OSGi 分布式通讯组件 R-OSGi R-OSGi 是一套适用于任意满足 OSGi 架构的分布式通讯组件。它以 jar 的形式发布,部署容易,使用...

    java开源包9

    J2C 将 Java 代码转成 C++ 代码,这是源码级别的转换,输出的 C++ 代码是有效的代码。 OSGi 分布式通讯组件 R-OSGi R-OSGi 是一套适用于任意满足 OSGi 架构的分布式通讯组件。它以 jar 的形式发布,部署容易,使用...

    java开源包101

    J2C 将 Java 代码转成 C++ 代码,这是源码级别的转换,输出的 C++ 代码是有效的代码。 OSGi 分布式通讯组件 R-OSGi R-OSGi 是一套适用于任意满足 OSGi 架构的分布式通讯组件。它以 jar 的形式发布,部署容易,使用...

    java开源包5

    J2C 将 Java 代码转成 C++ 代码,这是源码级别的转换,输出的 C++ 代码是有效的代码。 OSGi 分布式通讯组件 R-OSGi R-OSGi 是一套适用于任意满足 OSGi 架构的分布式通讯组件。它以 jar 的形式发布,部署容易,使用...

    java开源包10

    J2C 将 Java 代码转成 C++ 代码,这是源码级别的转换,输出的 C++ 代码是有效的代码。 OSGi 分布式通讯组件 R-OSGi R-OSGi 是一套适用于任意满足 OSGi 架构的分布式通讯组件。它以 jar 的形式发布,部署容易,使用...

    java开源包1

    J2C 将 Java 代码转成 C++ 代码,这是源码级别的转换,输出的 C++ 代码是有效的代码。 OSGi 分布式通讯组件 R-OSGi R-OSGi 是一套适用于任意满足 OSGi 架构的分布式通讯组件。它以 jar 的形式发布,部署容易,使用...

    Java资源包01

    J2C 将 Java 代码转成 C++ 代码,这是源码级别的转换,输出的 C++ 代码是有效的代码。 OSGi 分布式通讯组件 R-OSGi R-OSGi 是一套适用于任意满足 OSGi 架构的分布式通讯组件。它以 jar 的形式发布,部署容易,使用...

    Java仿百度文库,实现文件在线预览

    综上所述,Java实现文件在线预览的关键在于使用OpenOffice和JodConverter进行文件格式转换,通过Swftools的`pdf2swf`工具生成SWF,最后借助FlexPaper提供良好的用户体验。在实际开发中,还需要考虑性能优化、错误...

    JAVA上百实例源码以及开源项目源代码

    FTP的目标是:(1)提高文件的共享性(计算机程序和/或数据),(2)鼓励间接地(通过程序)使用远程计算机,(3)保护用户因主机之间的文件存储系统导致的变化,(4)为了可靠和高效地传输,虽然用户可以在终端上...

    java开源包2

    J2C 将 Java 代码转成 C++ 代码,这是源码级别的转换,输出的 C++ 代码是有效的代码。 OSGi 分布式通讯组件 R-OSGi R-OSGi 是一套适用于任意满足 OSGi 架构的分布式通讯组件。它以 jar 的形式发布,部署容易,使用...

    java开源包11

    J2C 将 Java 代码转成 C++ 代码,这是源码级别的转换,输出的 C++ 代码是有效的代码。 OSGi 分布式通讯组件 R-OSGi R-OSGi 是一套适用于任意满足 OSGi 架构的分布式通讯组件。它以 jar 的形式发布,部署容易,使用...

    java开源包7

    J2C 将 Java 代码转成 C++ 代码,这是源码级别的转换,输出的 C++ 代码是有效的代码。 OSGi 分布式通讯组件 R-OSGi R-OSGi 是一套适用于任意满足 OSGi 架构的分布式通讯组件。它以 jar 的形式发布,部署容易,使用...

    java实现类似百度文库预览pdf功能

    根据给定的文件信息,以下是对“java实现类似百度文库预览pdf功能”的详细解析与相关知识点: ### Java实现在线预览PDF功能的核心技术与流程 #### 转换方式概览 实现类似百度文库在线预览文档功能,核心在于将多种...

    topic-parser:文件格式规则解析

    总的来说,topic-parser项目展示了如何使用Java和Nutz框架来实现一个功能完善的在线文档解析服务,覆盖了多种常见的办公文档格式。通过对这些文件格式的深入解析,该工具可以广泛应用于文档预览、内容检索、数据分析...

    poi读取xlsx和xls

    Apache POI是一个流行的Java库,它允许开发人员在Java应用程序中创建、修改和显示MS Office文件。 Apache POI提供了对Excel文件的全面支持,包括读取和写入功能。在处理.xlsx文件时,它使用了OOXML(Open Office ...

Global site tag (gtag.js) - Google Analytics