`

java操作word,pdf的四种武器

阅读更多

今天看到别人的博客上有这么一篇文章,觉得挺好的。

1。用jacob.
    其实jacob是一个bridage,连接java和com或者win32函数的一个中间件,jacob并不能直接抽取word,excel等文件,需要自己写dll哦,不过已经有为你写好的了,就是jacob的作者一并提供了。
   jacob下载:http://www.matrix.org.cn/down_view.asp?id=13
    下载了jacob并放到指定的路径之后(dll放到path,jar文件放到classpath),就可以写你自己的抽取程序了,下面是一个例子:
import java.io.File;
import com.jacob.com.*;
import com.jacob.activeX.*;

public class FileExtracter{

 public static void main(String[] args) {

  ActiveXComponent app = new ActiveXComponent("Word.Application");
  String inFile = "c:\\test.doc";
 String tpFile = "c:\\temp.htm";
  String otFile = "c:\\temp.xml";
  boolean flag = false;
  try {
   app.setProperty("Visible", new Variant(false));
   Object docs = app.getProperty("document.").toDispatch();
   Object doc = Dispatch.invoke(docs,"Open", Dispatch.Method, new Object[]{inFile,new Variant(false), new Variant(true)}, new int[1]).toDispatch();
   Dispatch.invoke(doc,"SaveAs", Dispatch.Method, new Object[]{tpFile,new Variant(8)}, new int[1]);
   Variant f = new Variant(false);
   Dispatch.call(doc, "Close", f);
   flag = true;
  } catch (Exception e) {
   e.printStackTrace();
  } finally {
   app.invoke("Quit", new Variant[] {});
  }

 }
}
    2。用apache的poi来抽取word,excel。
    poi是apache的一个项目,不过就算用poi你可能都觉得很烦,不过不要紧,这里提供了更加简单的一个接口给你:
    下载经过封装后的poi包:http://www.matrix.org.cn/down_view.asp?id=14
    下载之后,放到你的classpath就可以了,下面是如何使用它的一个例子:
   import java.io.*;
import  org.textmining.text.extraction.WordExtractor;
/**
 * <p>Title: pdf extraction</p>
 * <p>Description: email:chris@matrix.org.cn</p>
 * <p>Copyright: Matrix Copyright (c) 2003</p>
 * <p>Company: Matrix.org.cn</p>
 * @author chris
 * @version 1.0,who use this example pls remain the declare
 */

public class PdfExtractor {
  public PdfExtractor() {
  }
  public static void main(String args[]) throws Exception
  {
  FileInputStream in = new FileInputStream ("c:\\a.doc");
  WordExtractor extractor = new WordExtractor();
  String str = extractor.extractText(in);
  System.out.println("the result length is"+str.length());
   System.out.println("the result is"+str);
}
}
   
    3。pdfbox-用来抽取pdf文件
   但是pdfbox对中文支持还不好,先下载pdfbox:http://www.matrix.org.cn/down_view.asp?id=12
下面是一个如何使用pdfbox抽取pdf文件的例子:
import org.pdfbox.pdmodel.PDdocument.
import org.pdfbox.pdfparser.PDFParser;
import java.io.*;
import org.pdfbox.util.PDFTextStripper;
import java.util.Date;
/**
 * <p>Title: pdf extraction</p>
 * <p>Description: email:chris@matrix.org.cn</p>
 * <p>Copyright: Matrix Copyright (c) 2003</p>
 * <p>Company: Matrix.org.cn</p>
 * @author chris
 * @version 1.0,who use this example pls remain the declare
 */

public class PdfExtracter{

public PdfExtracter(){
  }
public String GetTextFromPdf(String filename) throws Exception
  {
  String temp=null;
  PDdocument.nbsppdfdocument.null;
  FileInputStream is=new FileInputStream(filename);
  PDFParser parser = new PDFParser( is );
  parser.parse();
  pdfdocument.nbsp= parser.getPDdocument.);
  ByteArrayOutputStream out = new ByteArrayOutputStream();
  OutputStreamWriter writer = new OutputStreamWriter( out );
  PDFTextStripper stripper = new PDFTextStripper();
  stripper.writeText(pdfdocument.getdocument.), writer );
  writer.close();
  byte[] contents = out.toByteArray();

  String ts=new String(contents);
  System.out.println("the string length is"+contents.length+"");
  return ts;
}
public static void main(String args[])
{
PdfExtracter pf=new PdfExtracter();
PDdocument.nbsppdfdocument.nbsp= null;

try{
String ts=pf.GetTextFromPdf("c:\\a.pdf");
System.out.println(ts);
}
catch(Exception e)
  {
  e.printStackTrace();
  }
}

}
 
     4.抽取支持中文的pdf文件-xpdf
xpdf是一个开源项目,我们可以调用他的本地方法来实现抽取中文pdf文件。
下载xpdf函数包:http://www.matrix.org.cn/down_view.asp?id=15
同时需要下载支持中文的补丁包:http://www.matrix.org.cn/down_view.asp?id=16
按照readme放好中文的patch,就可以开始写调用本地方法的java程序了
下面是一个如何调用的例子:
import java.io.*;
/**
 * <p>Title: pdf extraction</p>
 * <p>Description: email:chris@matrix.org.cn</p>
 * <p>Copyright: Matrix Copyright (c) 2003</p>
 * <p>Company: Matrix.org.cn</p>
 * @author chris
 * @version 1.0,who use this example pls remain the declare
 */


public class PdfWin {
  public PdfWin() {
  }
  public static void main(String args[]) throws Exception
  {
    String PATH_TO_XPDF="C:\\Program Files\\xpdf\\pdftotext.exe";
    String filename="c:\\a.pdf";
    String[] cmd = new String[] { PATH_TO_XPDF, "-enc", "UTF-8", "-q", filename, "-"};
    Process p = Runtime.getRuntime().exec(cmd);
    BufferedInputStream bis = new BufferedInputStream(p.getInputStream());
    InputStreamReader reader = new InputStreamReader(bis, "UTF-8");
    StringWriter out = new StringWriter();
    char [] buf = new char[10000];
    int len;
    while((len = reader.read(buf))>= 0) {
    //out.write(buf, 0, len);
    System.out.println("the length is"+len);
    }
    reader.close();
    String ts=new String(buf);
    System.out.println("the str is"+ts);
  }
}


本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/soleghost/archive/2006/09/30/1311888.aspx

分享到:
评论

相关推荐

    java实现word转pdf

    在Java编程环境中,将Word文档转换为PDF是一项常见的任务,特别是在文档处理和自动化流程中。Aspose.Words是一个强大的第三方库,它提供了丰富的API来处理各种文档格式,包括Word(.doc, .docx)和PDF。本篇文章将...

    JAVA实现Linux中word转换pdf

    在Java编程环境中,我们可以利用各种库来实现在Linux系统中将Word文档转换为PDF。这个过程通常涉及到对文件格式的理解,以及对操作系统调用的掌握。以下是一个详细的知识点介绍: 1. **Java与Linux交互**: Java...

    java操作word(包含书签插值)

    Java作为一种广泛使用的编程语言,提供了多种库来操作Word文档,实现自动化填充模板,例如书签插值,这在合同制作中非常有用。本文将详细讲解如何使用Java操作Word,特别是针对书签插值的方法,以及相关的技术和工具...

    java将Word转换成PDF插件

    "java将Word转换成PDF插件"的标题暗示了我们讨论的是一个用于Java的解决方案,它可以将Microsoft Word文档转换成PDF。 在这个场景中,描述中提到的“JACOB”是一个关键角色。全称为“JavaCOM Bridge”,它是一个...

    Aspose.Words Java实现word转pdf文件(高效不失真)

    Aspose.Words Java实现word转pdf文件(高效不失真)。提供license文件。提供源代码。提供jar。下载即可直接使用。Word2PdfUtil.java、license.xml、Aspose.Words-jdk16.jar

    java操作word书签

    java操作word 实现了三个功能:模板填充,模板数据提取,格式颜色验证,具体解压jar包WordTest实例,注意针对word2007以上,书签要对应

    java+poi+word转pdf的简单demo,执行转换main方法不会抛异常

    在Java开发中,有时我们需要将Word文档转换为PDF格式,以满足不同的应用场景需求。Apache POI是一个流行的Java库,用于处理Microsoft Office格式的文件,包括Word(.doc/.docx)。在本示例中,我们将深入探讨如何...

    java将word转图片转pdf_jacob.zip

    在Java中,Word转PDF的实现方式通常有两种:一种是利用Jacob将Word文档渲染成图片序列,然后将这些图片合并成PDF;另一种是通过使用支持PDF生成的库,如iText或Apache POI,直接解析Word文档内容并重新构建为PDF格式...

    java实现office、wps转pdf,pdf转word

    标题“java实现office、wps转pdf,pdf转word”指的是利用Java编程来实现在不同办公文档格式间的转换,特别是从Microsoft Office和WPS格式转换为PDF,以及从PDF反向转换为Word文档。 首先,让我们讨论从Office和WPS...

    JAVA利用poi完成word转pdf,内容包括两个现成工具类和使用到的所有jar包

    在Java开发中,有时我们需要将Word文档转换为PDF格式,以满足不同的应用场景或者跨平台兼容的需求。Apache POI是一个流行的库,主要用于处理Microsoft Office格式的文件,如Word(.doc/.docx)和Excel(.xls/.xlsx)...

    JavaPDF操作类库API_Free Spire.PDF for Java_5.1.0

    1.功能:该API为适用于Java平台下,通过后端程序代码调用API接口操作PDF文档,可实现如下功能: 1.1 文档转换:PDF转图片/Word/SVG/XPS/HTML/XPS/TIFF、图片转PDF 1.2 文档操作:文档创建、合并、拆分、压缩、复制...

    Java实现word转PDF文件

    本教程主要关注如何使用Java实现Word(doc和docx)文件向PDF的转换。这个过程涉及到一个名为Jacob的库,它是一个Java和COM(Component Object Model)桥接库,允许Java程序调用COM组件,如Microsoft Office。 首先...

    java实现导出excel、word、 pdf

    在Java编程中,导出Excel、Word和PDF是常见的数据呈现和报告生成需求。这些文件格式广泛用于数据存储、报表生成、文档分享等场景。以下将详细介绍如何使用Java实现这三种文件类型的导出。 首先,让我们关注Excel的...

    Java读取Word文档页数

    总结来说,Java读取Word文档页数可以通过两种主要途径:一是直接使用Jacob库操作Word文档;二是先将Word转换为PDF,再使用iTextPDF库读取PDF的页数。这两种方法各有优劣,应根据具体项目需求和环境选择合适的方法。

    java将WORD转图片,转PDF来回转.zip

    在Java编程环境中,将Word文档转换为图片或PDF,以及进行图片与PDF之间的相互转换,是一种常见的需求。这种转换在处理大量文档时尤其有用,例如自动化报告生成、文档预览或者格式互换。本资源提供的"java将WORD转...

    纯Java实现的WORD转PDF,免费

    纯Java实现的Word转PDF解决方案,如JODConverter,提供了一种灵活且跨平台的方法来处理文档格式转换。虽然可能需要额外的配置步骤(如安装Office套件),但其免费且不受操作系统限制的特点使其成为许多开发者的首选...

    使用Java将word转换成pdf文件

    本教程将详细介绍如何使用Java实现从Microsoft Word(.doc或.docx)文件转换为PDF格式。这个过程涉及到对文件内容的理解、解析以及重新构建,通常会用到第三方库,因为Java标准库并不直接支持这样的转换。 首先,...

    java 实现word 转PDF

    全面支持DOC, DOCX, OOXML, RTF HTML, OpenDocument, PDF, EPUB, XPS, SWF 相互转换 ,word转pdf已做测试很好用!

    PDF转WORD,WORD转任何格式的JAVA代码调研报告。

    ### PDF转WORD与WORD转任何格式的JAVA代码调研报告 #### 一、引言 随着文档格式多样化的需求不断增加,能够高效地将不同格式的文档进行转换成为了一个重要的技术点。本报告将详细介绍如何使用Aspose.PDF和Aspose....

Global site tag (gtag.js) - Google Analytics