`
newleague
  • 浏览: 1499928 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类

java读取(操作)word,pdf的四种方法

阅读更多

1 。用 jacob.
     其实jacob是一个bridage,连接java和com或者win32函数的一个中间件,jacob并不能直接抽取word,excel等文件,需要自己写dll哦,不过已经有为你写好的了,就是jacob的作者一并提供了。
     下载了jacob并放到指定的路径之后(dll放到path,jar文件放到classpath),就可以写你自己的抽取程序了,下面是一个例子:

import java.io.File;
import com.jacob.com.*;
import com.jacob.activeX.*;
public class FileExtracter{
public static void main(String[] args) {
   ActiveXComponent app = new ActiveXComponent("Word.Application");
   String inFile = "c:\\test.doc";
String tpFile = "c:\\temp.htm";
   String otFile = "c:\\temp.xml";
   boolean flag = false;
   try {
   app.setProperty("Visible", new Variant(false));
   Object docs = app.getProperty("Documents").toDispatch();
   Object doc = Dispatch.invoke(docs,"Open", Dispatch.Method, new Object[]{inFile,new Variant(false), new Variant(true)}, new int[1]).toDispatch();
   Dispatch.invoke(doc,"SaveAs", Dispatch.Method, new Object[]{tpFile,new Variant(8)}, new int[1]);
   Variant f = new Variant(false);
   Dispatch.call(doc, "Close", f);
   flag = true;
   } catch (Exception e) {
   e.printStackTrace();
   } finally {
   app.invoke("Quit", new Variant[] {});
   }
}
}
    
2 。用 apache poi 来抽取 word excel
     poi
apache 的一个项目,不过就算用 poi 你可能都觉得很烦,不过不要紧,这里提供了更加简单的一个接口给你:
       
先下载 poi jar 包,下载之后,放到你的 classpath 就可以了,下面是如何使用它的一个例子:
   import java.io.*;
import   org.textmining.text.extraction.WordExtractor;
public class PdfExtractor {
   public PdfExtractor() {
   }
   public static void main(String args[]) throws Exception
   {
   FileInputStream in = new FileInputStream ("c:\\a.doc");
   WordExtractor extractor = new WordExtractor();
   String str = extractor.extractText(in);
   System.out.println("the result length is"+str.length());
   System.out.println("the result is"+str);
}
}
    
  
3 pdfbox- 用来抽取 pdf 文件
  
但是 pdfbox 对中文支持还不好,先下载 pdfbox
下面是一个如何使用 pdfbox 抽取 pdf 文件的例子:
import org.pdfbox.pdmodel.PDDocument;
import org.pdfbox.pdfparser.PDFParser;
import java.io.*;
import org.pdfbox.util.PDFTextStripper;
import java.util.Date;
public class PdfExtracter{
public PdfExtracter(){
   }
public String GetTextFromPdf(String filename) throws Exception
   {
   String temp=null;
   PDDocument pdfdocument=null;
   FileInputStream is=new FileInputStream(filename);
   PDFParser parser = new PDFParser( is );
   parser.parse();
   pdfdocument = parser.getPDDocument();
   ByteArrayOutputStream out = new ByteArrayOutputStream();
   OutputStreamWriter writer = new OutputStreamWriter( out );
   PDFTextStripper stripper = new PDFTextStripper();
   stripper.writeText(pdfdocument.getDocument(), writer );
   writer.close();
   byte[] contents = out.toByteArray();

   String ts=new String(contents);
   System.out.println("the string length is"+contents.length+"\n");
   return ts;
}
public static void main(String args[])
{
PdfExtracter pf=new PdfExtracter();
PDDocument pdfDocument = null;

try{
String ts=pf.GetTextFromPdf("c:\\a.pdf");
System.out.println(ts);
}
catch(Exception e)
   {
   e.printStackTrace();
   }
}
}

  
   4. 抽取支持中文的 pdf 文件- xpdf
xpdf
是一个开源项目,我们可以调用他的本地方法来实现抽取中文 pdf 文件。
下载 xpdf 函数包,同时需要下载支持中文的补丁包。
按照 readme 放好中文的 patch ,就可以开始写调用本地方法的 java 程序了
下面是一个如何调用的例子:
import java.io.*;
public class PdfWin {
   public PdfWin() {
   }
   public static void main(String args[]) throws Exception
   {
     String PATH_TO_XPDF="C:\\Program Files\\xpdf\\pdftotext.exe";
     String filename="c:\\a.pdf";
     String[] cmd = new String[] { PATH_TO_XPDF, "-enc", "UTF-8", "-q", filename, "-"};
     Process p = Runtime.getRuntime().exec(cmd);
     BufferedInputStream bis = new BufferedInputStream(p.getInputStream());
     InputStreamReader reader = new InputStreamReader(bis, "UTF-8");
     StringWriter out = new StringWriter();
     char [] buf = new char[10000];
     int len;
     while((len = reader.read(buf))>= 0) {
     //out.write(buf, 0, len);
     System.out.println("the length is"+len);
     }
     reader.close();
     String ts=new String(buf);
     System.out.println("the str is"+ts);
   }
}

分享到:
评论

相关推荐

    java读取word,pdf格式文档方法

    本文将介绍 Java 如何读取 Word、PDF 格式文档的几种方法。 使用 Jacob Jacob 是一个桥接工具,连接 Java 和 COM 或 Win32 函数的一个中间件。使用 Jacob 可以读取 Word 文档的内容。首先,需要下载 Jacob 的 jar ...

    JAVA读取WORD_EXCEL_POWERPOINT_PDF文件的方法(poi)

    JAVA 读取 WORD_EXCEL_POWERPOINT_PDF 文件的方法(poi) JAVA 读取 WORD_EXCEL_POWERPOINT_PDF 文件的方法是使用 Apache POI 库来实现的。POI 库是一个开放源代码的 Java 库,提供了对 Microsoft Office 文件格式...

    Java读取Word文档页数

    总结来说,Java读取Word文档页数可以通过两种主要途径:一是直接使用Jacob库操作Word文档;二是先将Word转换为PDF,再使用iTextPDF库读取PDF的页数。这两种方法各有优劣,应根据具体项目需求和环境选择合适的方法。

    java读取word文档.pdf

    首先,标题“java读取word文档.pdf”和描述“java读取word文档.pdf”暗示了文章内容可能涉及使用Java语言读取Word文档的技术。 从片段中可以提取到的关键技术点包括: 1. Apache POI库:Apache POI是一个开源的...

    java 读取 word pdf 等

    ### JAVA读取Word、Excel、PowerPoint及PDF文件方法详解 #### 一、概述 在企业级应用开发中,经常需要处理Office文档(如Word、Excel、PowerPoint)以及PDF文件。这些文件格式广泛用于存储数据和信息。本文将详细...

    java操作wordpdf图片生成图片水印

    本篇将详细介绍如何使用Java来操作Word和PDF文档,并在其中的图片上生成水印。 首先,我们关注的是Java对Word文档的操作。Apache POI是一个非常流行的Java库,用于读写Microsoft Office格式的文件,包括Word(.docx...

    java读取word,pdf,txt文件

    收集的java操作文件的例子,很全面,需要的朋友可以看下

    JAVA读取WORD,EXCEL,POWERPOINT,PDF文件的方法

    ### JAVA读取WORD, EXCEL, POWERPOINT, PDF文件的方法 在日常开发工作中,经常会遇到需要处理各种格式文档的需求,例如Word、Excel、PowerPoint以及PDF等。这些文档可能需要被解析、转换或者提取其中的数据进行...

    java读取doc、docx文件,java pdf转word

    zip文件解压,直接导入到eclipse里 有两个类 分别支持读取word和pdf转word,pdf转word样式百分百保留,license证书已pj,如需商业用途请购买正版证书

    java读取word、PDF、txt、excel

    下面将详细讲解这四种文件格式的读取技术及其在Java环境下的实现方法。 1. **Word文件读取** - Java中处理Word文件主要依赖于Apache POI库。Apache POI是一个开源项目,提供API来处理Microsoft Office格式的文件,...

    Java读取word文档内容并输出成网页(含图片,公式)

    在这个场景中,我们将重点讨论如何使用Java POI读取Word文档并将其内容转换为HTML网页,同时确保图片和公式等复杂元素能够正确显示。 首先,你需要在你的Java项目中引入Apache POI库。可以通过Maven或Gradle来添加...

    aspose.word 解析word读取及word转pdf、转html

    Aspose.Word提供了详细的API,可以方便地读取Word文档的各个方面。例如,你可以通过以下步骤来读取一个Word文档: 1. 创建`Document`对象:首先,你需要创建一个`Document`实例,传入Word文档的路径作为参数。 2. ...

    java读取word,excel,pdf等文本

    ### Java读取Word、Excel及PDF文档的知识点详解 #### 一、概述 在实际开发过程中,经常需要处理各种格式的文档,如Word、Excel、PDF等。这些文档的读取通常涉及到不同的技术和库。本篇文章将详细介绍如何使用Java...

    java+pdf转word+word转pdf 无水印 无页数限制

    - **Apache POI**:同样可以反向操作,读取Word文档内容并生成PDF。需要注意的是,Word文档的格式、图片和布局可能在转换过程中有所损失。 - **Aspose.Words for Java**:商业库,提供强大的Word到PDF转换功能,...

    JAVA读取WORD_pdf等.docx

    【JAVA读取WORD/PDF等】的技术领域主要集中在Java编程语言中对Microsoft Office文档(如Word、Excel、PowerPoint)以及PDF格式文件的处理。在Java中,有多种方法可以实现对这些文件的读取、操作和转换。以下将详细...

    JAVA实现Linux中word转换pdf

    - 首先,使用Apache POI读取Word文档,获取其内容(文本、样式、图像等)。 - 然后,使用PDFBox或iText创建一个新的PDF文档,并将从Word中提取的内容写入PDF。 - 或者,如果你选择使用命令行工具,如`unoconv`或`...

    java+poi+word转pdf的简单demo,执行转换main方法不会抛异常

    1. **读取Word文档**:使用Apache POI的`XWPFDocument`类打开Word文档。 ```java FileInputStream fis = new FileInputStream("path_to_your_word_file.docx"); XWPFDocument document = new XWPFDocument(fis); ``...

    JAVA读取PDF、WORD、EXCEL等文件的方法

    在Java编程中,读取PDF、Word和Excel等文件通常涉及到使用特定的库来处理不同格式的数据。以下是对这些操作的详细说明: 1. **读取PDF文件**: Java中,可以使用Apache PDFBox库来读取PDF文件。PDFBox提供了一套...

    java读取PDF所需要的包(pdfbox.jar)

    今天用到java读取PDF和WORD文档的,网上找了大把没有看到jar包,找了别人要的包,分享给用的到的人,1分是强制的。。。

Global site tag (gtag.js) - Google Analytics