`
sealbird
  • 浏览: 586238 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

文档格式批量转换(doc,txt,pdf等) openoffice unoconv

    博客分类:
  • Flex
阅读更多
2010-07-30 11:01

此页由Linux Wiki用户Chenxing于2008年3月11日 (星期二) 10:45的最后更改。
出自Linux Wiki
在Linux中常常涉及到多种文档格式,如doc、txt、html、rtf等等。为了方便文件传递,就可能需要在各种格式之间进行转换。 OpenOffice.Org可以方便的打开多各文档格式并按需进行转换,但要一次处理大量文件或要编写脚本进行转换时,仅用OpenOffice就难以胜任了。

unoconv利用OpenOffice.Org的UNO接口实现了命令行文档格式转换功能,支持所有OpenOffice支持的文件格式,为文档的批量转换提供了可能。

目录
[隐藏]
•1 下载及安装
•2 使用方法
◦2.1 单个文件转换
◦2.2 批量转换
•3 其它功能简介
◦3.1 支持的文件格式
◦3.2 服务器/客户端模式
•4 附:支持的输出文件格式
•5 相关资料

下载及安装
目前Debian的源已经有unoconv,如果你使用的发行版还没有unoconv,可以到它的主页下载: http://dag.wieers.com/home-made/unoconv/ 。

注意:
该软件依赖于OpenOffice.Org。
使用方法
单个文件转换
举一个例子:要转换一个doc文件为PDF格式,只需在命令中执行:

$ unoconv -f pdf myDoc.doc
即会生成一个名为myDoc.pdf的pdf文件。

批量转换
批量转换需要结合find命令或脚本使用,使用时需注意最好使用C/S模式以加快速度:

unoconv --listener &
unoconv -f pdf some-document.odt
unoconv -f doc other-document.odt
unoconv -f jpg some-image.png
unoconv -f xsl some-spreadsheet.csv
其它功能简介
支持的文件格式
可以执行unoconv --show查看截止到2008年3月11日,unoconv支持以下几种导出格式(见本文末尾)[1]

服务器/客户端模式
此模式使文档的集中处理成为可能。

附:支持的输出文件格式
bib      - BibTeX [.bib]
doc      - Microsoft Word 97/2000/XP [.doc]
doc6     - Microsoft Word 6.0 [.doc]
doc95    - Microsoft Word 95 [.doc]
docbook - DocBook [.xml]
html     - HTML Document (OpenOffice.org Writer) [.html]
odt      - Open Document Text [.odt]
ott      - Open Document Text [.ott]
ooxml    - Microsoft Office Open XML [.xml]
pdb      - AportisDoc (Palm) [.pdb]
pdf      - Portable Document Format [.pdf]
psw      - Pocket Word [.psw]
rtf      - Rich Text Format [.rtf]
latex    - LaTeX 2e [.ltx]
sdw      - StarWriter 5.0 [.sdw]
sdw4     - StarWriter 4.0 [.sdw]
sdw3     - StarWriter 3.0 [.sdw]
stw      - Open Office.org 1.0 Text Document Template [.stw]
sxw      - Open Office.org 1.0 Text Document [.sxw]
text     - Text Encoded [.txt]
txt      - Plain Text [.txt]
vor      - StarWriter 5.0 Template [.vor]
vor4     - StarWriter 4.0 Template [.vor]
vor3     - StarWriter 3.0 Template [.vor]
xhtml    - XHTML Document [.html]
图形格式:

bmp      - Windows Bitmap [.bmp]
emf      - Enhanced Metafile [.emf]
eps      - Encapsulated PostScript [.eps]
gif      - Graphics Interchange Format [.gif]
html     - HTML Document (OpenOffice.org Draw) [.html]
jpg      - Joint Photographic Experts Group [.jpg]
met      - OS/2 Metafile [.met]
odd      - OpenDocument Drawing [.odd]
otg      - OpenDocument Drawing Template [.otg]
pbm      - Portable Bitmap [.pbm]
pct      - Mac Pict [.pct]
pdf      - Portable Document Format [.pdf]
pgm      - Portable Graymap [.pgm]
png      - Portable Network Graphic [.png]
ppm      - Portable Pixelmap [.ppm]
ras      - Sun Raster Image [.ras]
std      - OpenOffice.org 1.0 Drawing Template [.std]
svg      - Scalable Vector Graphics [.svg]
svm      - StarView Metafile [.svm]
swf      - Macromedia Flash (SWF) [.swf]
sxd      - OpenOffice.org 1.0 Drawing [.sxd]
sxd3     - StarDraw 3.0 [.sxd]
sxd5     - StarDraw 5.0 [.sxd]
tiff     - Tagged Image File Format [.tiff]
vor      - StarDraw 5.0 Template [.vor]
vor3     - StarDraw 3.0 Template [.vor]
wmf      - Windows Metafile [.wmf]
xhtml    - XHTML [.xhtml]
xpm      - X PixMap [.xpm]
演示文稿:

bmp      - Windows Bitmap [.bmp]
emf      - Enhanced Metafile [.emf]
eps      - Encapsulated PostScript [.eps]
gif      - Graphics Interchange Format [.gif]
html     - HTML Document (OpenOffice.org Impress) [.html]
jpg      - Joint Photographic Experts Group [.jpg]
met      - OS/2 Metafile [.met]
odd      - OpenDocument Drawing (Impress) [.odd]
odg      - OpenOffice.org 1.0 Drawing (OpenOffice.org Impress) [.odg]
odp      - OpenDocument Presentation [.odp]
otp      - OpenDocument Presentation Template [.otp]
pbm      - Portable Bitmap [.pbm]
pct      - Mac Pict [.pct]
pdf      - Portable Document Format [.pdf]
pgm      - Portable Graymap [.pgm]
png      - Portable Network Graphic [.png]
pot      - Microsoft PowerPoint 97/2000/XP Template [.pot]
ppm      - Portable Pixelmap [.ppm]
ppt      - Microsoft PowerPoint 97/2000/XP [.ppt]
pwp      - PlaceWare [.pwp]
ras      - Sun Raster Image [.ras]
sda      - StarDraw 5.0 (OpenOffice.org Impress) [.sda]
sdd      - StarImpress 5.0 [.sdd]
sdd3     - StarDraw 3.0 (OpenOffice.org Impress) [.sdd]
sdd4     - StarImpress 4.0 [.sdd]
sti      - OpenOffice.org 1.0 Presentation Template [.sti]
stp      - OpenDocument Presentation Template [.stp]
svg      - Scalable Vector Graphics [.svg]
svm      - StarView Metafile [.svm]
swf      - Macromedia Flash (SWF) [.swf]
sxi      - OpenOffice.org 1.0 Presentation [.sxi]
tiff     - Tagged Image File Format [.tiff]
vor      - StarImpress 5.0 Template [.vor]
vor3     - StarDraw 3.0 Template (OpenOffice.org Impress) [.vor]
vor4     - StarImpress 4.0 Template [.vor]
vor5     - StarDraw 5.0 Template (OpenOffice.org Impress) [.vor]
wmf      - Windows Metafile [.wmf]
xhtml    - XHTML [.xml]
xpm      - X PixMap [.xpm]
电子表格:

csv      - Text CSV [.csv]
dbf      - dBase [.dbf]
dif      - Data Interchange Format [.dif]
html     - HTML Document (OpenOffice.org Calc) [.html]
ods      - Open Document Spreadsheet [.ods]
ooxml    - Microsoft Excel 2003 XML [.xml]
pdf      - Portable Document Format [.pdf]
pts      - OpenDocument Spreadsheet Template [.pts]
pxl      - Pocket Excel [.pxl]
sdc      - StarCalc 5.0 [.sdc]
sdc4     - StarCalc 4.0 [.sdc]
sdc3     - StarCalc 3.0 [.sdc]
slk      - SYLK [.slk]
stc      - OpenOffice.org 1.0 Spreadsheet Template [.stc]
sxc      - OpenOffice.org 1.0 Spreadsheet [.sxc]
vor3     - StarCalc 3.0 Template [.vor]
vor4     - StarCalc 4.0 Template [.vor]
vor      - StarCalc 5.0 Template [.vor]
xhtml    - XHTML [.xhtml]
xls      - Microsoft Excel 97/2000/XP [.xls]
xls5     - Microsoft Excel 5.0 [.xls]
xls95    - Microsoft Excel 95 [.xls]
xlt      - Microsoft Excel 97/2000/XP Template [.xlt]
xlt5     - Microsoft Excel 5.0 Template [.xlt]
xlt95    - Microsoft Excel 95 Template [.xlt]
相关资料
1.↑ http://dag.wieers.com/home-made/unoconv/

转自:http://www.linux-wiki.cn/index.php/%E6%96%87%E6%A1%A3%E6%A0%BC%E5%BC%8F%E6%89%B9%E9%87%8F%E8%BD%AC%E6%8D%A2(doc,txt,pdf%E7%AD%89)#.E5.8D.95.E4.B8.AA.E6.96.87.E4.BB.B6.E8.BD.AC.E6.8D.A2


本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/antony1029/archive/2010/04/30/5547767.aspx





官方网站:  http://www.artofsolving.com/opensource/jodconverter

下载地点:
  http://www.artofsolving.com/opensource/jodconverter
  http://zh.openoffice.org/new/zh_tw/downloads.html
  目前版本: JODConverter v2.2.1, OpenOffice v3.0.0
  使用需求: JDK1.4以上, 安装OpenOffice v2.0.3以上


  基本简介:
  JODConverter主要的功能是用来做各种档案的转换. 目前测试过, Word,Excel,PowerPoint转PDF都是没问题的.
  因为JODConverter是透过OpenOffice来做转换, 所以使用前需要先安装OpenOffice, 并且将OpenOffice的Service启动, 才可以使用.


OpenOffice.org具有一个鲜为人知的特性就是其能够作为一个服务来运行,而这种能力具有一定的妙用。举例来说,你可以把openoffice.og变成一个转换引擎,利用这种转换引擎你可以通过网络接口或命令行工具对文件的格式进行转换,JODConverter可以帮助你实现OpenOffice.org的这种文件转换功能。

为了将OpenOffice.org作为一个转换引擎,你必须以服务的方式将它启动,使它在某个特定的端口监听连接,在Linux平台你可以用如下的命令启动openoffice.org:
soffice -headless -accept=”socket,port=8100;urp;”(我在linux下使用soffice -headless -accept=”socket,host=127.0.0.1,port=8100;urp;”,open office server是开启来了,但是文件转换不成功,异常是连接失败,这个很可以是你用jodconverter来转换时使用的是localhost,而当你的机有host配置文件里没有将localhost与127.0.0.1对应起来时,就无法解析了,这里可以修改host文件或去掉host=127.0.0.1,这样我试过可以成功)

在Windows平台, 使用如下命令:
“C:\Program Files\OpenOffice.org 2.2\program\soffice” -accept=”socket,port=8100;urp;”

  使用教学:
  Step1: 安装OpenOffice
  Step2: 启动OpenOffice Service




   

     1 cd C:\Program Files\OpenOffice.org 3\program

   2 soffice -headless -accept="socket,host=127.0.0.1,port=8100;urp;" -nofirststartwizard

  Step3:将JODConverter的Jar档放进专案中的Library, 请检查你的专案是否包含以下的Jar档:

  jodconverter-2.2.1.jar
  jurt-2.3.0.jar
  xstream-1.2.2.jar
  ridl-2.3.0.jar
  commons-io-1.3.1.jar
  juh-2.3.0.jar
  slf4j-api-1.4.3.jar
  unoil-2.3.0.jar
  slf4j-jdk14-1.4.3.jar

  Step4: 准备一个word档放在c:/document.rtf
  Step5: 执行以下程式




Java代码  01.<span style="font-size: medium;">import java.io.File;  
02. 
03.  import com.artofsolving.jodconverter.DocumentConverter;  
04. 
05.  import com.artofsolving.jodconverter.openoffice.connection.OpenOfficeConnection;  
06. 
07.  import com.artofsolving.jodconverter.openoffice.connection.SocketOpenOfficeConnection;  
08. 
09.  import com.artofsolving.jodconverter.openoffice.converter.OpenOfficeDocumentConverter;  
10. 
11.  public class JodDemo {  
12. 
13.  public static void main(String[] args) throws Exception{  
14. 
15.  File inputFile = new File("c:/document.rtf");  
16. 
17.  File outputFile = new File("c:/document.doc");  
18. 
19.  // connect to an OpenOffice.org instance running on port 8100  
20. 
21.  OpenOfficeConnection connection = new SocketOpenOfficeConnection(8100);  
22. 
23.  connection.connect();  
24. 
25.  // convert  
26. 
27.  DocumentConverter converter = new OpenOfficeDocumentConverter(connection);  
28. 
29.  converter.convert(inputFile, outputFile);  
30. 
31.  // close the connection  
32. 
33.  connection.disconnect();  
34. 
35.  }  
36. 
37.  } </span> 
程式说明:


  程式的部份相当简洁, 特别要注意的地方是第12行连线的port必须与你启动OpenOffice的Port相同,
  另外JODConverter预设是用副档名作文件种类的判断, 所以副档名必须要正确才行.
    如果副档名比较特别的话, 就必须在convert()的时候强制指定Document Type.

心得:
  JODConverter使用起来相当方便, 官网也提供War档让JODConverter变成Web Service提供给不同的语言来呼叫.
  特别要注意的是, OpenOffice Service并不是ThreadSafe的, 多个Web AP在使用的时候必须要注意.







那我也來補充一些好了
之前也在試這個檔案轉換的程式
程式最好加上 try-catch
因為之前发現有些檔案 format 不能转,发生 Exception 后,connection 不會自动切断,程序会hand 住
所以改成如下方式:




Java代码  01.<span style="font-size: medium;">public void convert(String input, String output){  
02.        File inputFile = new File(input);  
03.        File outputFile = new File(output);  
04.        OpenOfficeConnection connection = new SocketOpenOfficeConnection(8100);  
05.        try {  
06.            connection.connect();  
07.            DocumentConverter converter = new OpenOfficeDocumentConverter(connection);  
08.            converter.convert(inputFile, outputFile);  
09.        } catch(Exception e) {  
10.            e.printStackTrace();  
11.        } finally {  
12.            try{ if(connection != null){connection.disconnect(); connection = null;}}catch(Exception e){}  
13.        }  
14.    } </span> 



再來,明明就是 open office 的檔案,卻生不能轉換的問題。例如:*.STW, *.SXD, *.ODF 等,後來才知道可以自行指定來源檔和輸出檔的 mime-type,程式如下:




Java代码  01.<span style="font-size: medium;">public void convertSTW(String input, String output){  
02.        DocumentFormat stw = new DocumentFormat("OpenOffice.org 1.0 Template", DocumentFamily.TEXT, "application/vnd.sun.xml.writer", "stw");  
03.        DefaultDocumentFormatRegistry formatReg = new DefaultDocumentFormatRegistry();  
04.        DocumentFormat pdf = formatReg.getFormatByFileExtension("pdf");  
05.        File inputFile = new File(input);  
06.        File outputFile = new File(output);  
07.        OpenOfficeConnection connection = new SocketOpenOfficeConnection(8100);  
08.        try {  
09.            connection.connect();  
10.            DocumentConverter converter = new OpenOfficeDocumentConverter(connection);  
11.            converter.convert(inputFile, stw, outputFile, pdf);  
12.        } catch(Exception e) {  
13.            e.printStackTrace();  
14.        } finally {  
15.            try{ if(connection != null){connection.disconnect(); connection = null;}}catch(Exception e){}  
16.        }  
17.    } </span> 
上面的程式是轉換 STW 到 PDF,如果是 SXD / ODF 則只需要變更 DocumentFormat 的內容即可。




Java代码  01.<span style="font-size: medium;">DocumentFormat sxd = new DocumentFormat("OpenOffice.org 1.0 Drawing", DocumentFamily.DRAWING, "application/vnd.sun.xml.sraw", "sxd");  
02. 
03.DocumentFormat odf = new DocumentFormat("OpenDocument Math", DocumentFamily.TEXT, "application/vnd.oasis.opendocument.formula", "odf"); </span> 
所有 default support 的 DocumentFormat 都在 com.artofsolving.jodconverter.DefaultDocumentFormatRegistry 裡,但並非所有 open office 支援的 file format 都有,所以要像上面的方法自行去定义 DocumentFormat,至于它里面的参数可以从jodconverter-2.2.2.jar包的com.artofsolving.jodconverter包下的document-formats.xml文件里面得到,这样就可以完成多种格式的转换,如open office,ms office , wps office及所有的纯文本文件。

分享到: 上一篇:如何写一个RTF阅读器
下一篇:InputStream,OutputStream,byte[]转化
分享到:
评论
1 楼 qqpedily 2011-12-21  
挺详细的,挺

相关推荐

    Python-unoconv在LibreOfficeOpenOffice支持的任意文件格式之间进行转换

    Unoconv 是一个强大的 Python 脚本工具,它利用 LibreOffice 或 OpenOffice 的内在转换能力,在各种文件格式间进行转换。这个工具对于处理文档转换需求非常有用,特别是当你需要批量转换大量文件时。下面我们将深入...

    office文档通过openoffice或者microsoft多线程转换成pdf文档并通过pdfjs显示

    标题提到的"office文档通过openoffice或者microsoft多线程转换成pdf文档"涉及到的技术主要包括办公软件API接口利用、多线程处理以及文件转换技术。首先,OpenOffice和Microsoft Office都提供了能够读取和操作Office...

    openoffice的C#应用各种文档格式转换pdf

    本教程将详细讲解如何利用OpenOffice的API和C#编程语言来实现Word、Excel和PowerPoint文档转换为PDF格式。 一、OpenOffice的API简介 OpenOffice提供了一套名为UNO(Universal Network Objects)的接口,允许开发者...

    openoffice3doc转pdf

    标题中的"openoffice3doc转pdf"指的是使用OpenOffice 3.0版本将Microsoft Word(doc格式)文档转换成PDF格式。OpenOffice是一款开源的办公软件套件,它提供了文字处理、电子表格、演示文稿等多种功能,同时也支持...

    openOffice转换doc文档类型代码

    OpenOffice支持多种文件格式,包括创建、编辑和转换不同的文档类型,如DOC(Microsoft Word文档)。本话题将深入探讨如何利用OpenOffice的API或命令行工具来实现DOC文档类型的转换。 首先,OpenOffice提供了两种...

    Openoffice转换多列EXCEL为PDF行列对应解决方法

    在IT行业中,转换数据格式是一项常见的任务,尤其是将电子表格(如Excel)转换为便携式文档格式(PDF)。OpenOffice是一款开源的办公软件套件,它提供了与Microsoft Office相似的功能,包括创建、编辑和转换文件。在...

    Openoffice转换多列EXCEL为PDF行列对应解决方法.rar

    在OpenOffice中将多列Excel转换为PDF时,可能会遇到行与列对应不正确的问题,尤其是在数据排列复杂或格式设置不当时。以下是一份详细的解决方法,旨在帮助用户正确地进行转换,确保PDF中的数据保持原始Excel文件的...

    Word、Excel等常用文档格式通过OpenOffice转换为pdf及图片

    Word、Excel等常用文档格式通过OpenOffice转换为pdf及图片,亲测,可用。Word、Excel等常用文档格式通过OpenOffice转换为pdf及图片,亲测,可用。Word、Excel等常用文档格式通过OpenOffice转换为pdf及图片,亲测,可用...

    利用openoffice将文档转化为PDF

    将"doc", "docx", "xls", "xlsx", "ppt", "pptx",txt等转化为PDF,原理是用到我们的工具OpenOffice。还有PDF转化img图片。具体操作请看我博客"doc", "docx", "xls", "xlsx", "ppt", "pptx",txt。等文件转化为pdf

    利用 unoconv 转换失败文档

    unoconv 是一个开源命令行工具,它利用 LibreOffice 或 OpenOffice 的能力来转换各种文档格式,如 .doc、.xls、.ppt 等,支持多种格式之间的互相转换。它特别适用于自动化脚本和批量转换任务。 首先,我们需要理解 ...

    Java用OpenOffice将office转换为PDF

    Java使用OpenOffice转换Office文档为PDF是一种常见的技术需求,尤其在企业级应用中,为了保持一致性和跨平台兼容性,可能会需要将Word、Excel或PowerPoint文档转换为PDF格式。以下将详细介绍如何在Java环境中利用...

    OpenOffice转换Office文档为PDF、HTML

    PDF(Portable Document Format)是一种通用的文件格式,能够保留原始文档的样式和布局,方便阅读和打印。HTML(HyperText Markup Language)则是网页的标准标记语言,适合在线查看和分享,且具有良好的跨平台兼容性...

    OpenOffice实现word、excel、ppt等文本文件转换pdf

    这个工具的强大之处在于它不仅能够创建和编辑这些类型的文档,还支持文件格式的互转,包括将Word、Excel、PowerPoint等Microsoft Office格式的文件转换为PDF。 转换过程主要依赖于OpenOffice的API(应用程序编程...

    java OpenOffice wordExcel转换PDF

    JODConverter是基于OpenOffice的Java转换器,可以将Word、Excel、PowerPoint文档转换为PDF或者其他OpenDocument格式。这个压缩包中的jar包可能就包含了JODConverter的相关组件。 使用JODConverter进行转换的基本...

    OpenOffice转换成Pdf

    通过`convert()`方法,我们可以指定源文件和目标文件路径,实现OpenOffice文档到Pdf的转换。 需要注意的是,在实际部署时,确保OpenOffice服务已经在后台运行,并且Java程序能够正确连接到该服务。此外,根据系统...

    利用OpenOffice对html、word、pdf进行转换

    这与OpenOffice的转换功能相关,因为OpenOffice Writer可以导出为DOC格式,而Java库如Apache POI允许开发者创建和修改微软的DOC文件。 在这个主题中,我们可以探讨以下几个方面的知识点: 1. **OpenOffice API**:...

    ASP.NET利用OpenOffice转换文件至PDF

    在本篇文章中,我们将探讨如何使用 OpenOffice 将各种 Office 文档转换为 PDF 格式,这项技术可以应用于 ASP.NET 平台下。为了实现这项功能,我们需要安装 OpenOffice 和相应的 SDK,同时还需要引入特定的 DLL 文件...

    各种文档格式转pdf或doc

    "各种文档格式转pdf或doc"这个主题涉及到的是如何将不同类型的文档(如.docx, .pptx, .xlsx等)转换为PDF或DOC格式,以便于保持格式一致性、易于分发或保护内容不被编辑。OpenOffice是一款开源的办公软件套件,它...

    web项目使用OpenOffice实现前端在线预览office、pdf等文档源码

    JODConverter是基于OpenOffice的Java转换库,它可以将各种Office文档转换为PDF或者其他格式。在Web项目中,你可以创建一个服务,使用JODConverter的API来调用OpenOffice服务,将上传的文档转换为HTML,然后在前端...

Global site tag (gtag.js) - Google Analytics