`

Java抽取Word,PDF的四种武器

    博客分类:
  • J2SE
阅读更多
很多人用java进行文档操作时经常会遇到一个问题,就是如何获得word,excel,pdf等文档的内容?我研究了一下,在这里总结一下抽取word,pdf的几种方法。
1. 用jacob
其实jacob是一个bridage,连接java和com或者win32函数的一个中间件,jacob并不能直接抽取word,excel等文件,需要自己写dll哦,不过已经有为你写好的了,就是jacob的作者一并提供了。
jacob jar与dll文件下载: http://danadler.com/jacob/
下载了jacob并放到指定的路径之后(dll放到path,jar文件放到classpath),就可以写你自己的抽取程序了,下面是一个简单的例子:
import java.io.File; 
import com.jacob.com.*; 
import com.jacob.activeX.*; 
/** 
* Title: pdf extraction 
* Description: email:chris@matrix.org.cn 
* Copyright: Matrix Copyright (c) 2003 
* Company: Matrix.org.cn 
* @author chris 
* @version 1.0,who use this example pls remain the declare 
*/ 
public class FileExtracter{ 
public static void main(String[] args) { 
ActiveXComponent component = new ActiveXComponent("Word.Application"); 
String inFile = "c:\\test.doc"; 
String tpFile = "c:\\temp.htm"; 
String otFile = "c:\\temp.xml"; 
boolean flag = false; 
try { 
component.setProperty("Visible", new Variant(false)); 
Object wordacc = component.getProperty("document.").toDispatch(); 
Object wordfile = Dispatch.invoke(wordacc,"Open", Dispatch.Method, 
new Object[]{inFile,new Variant(false), new Variant(true)}, 
new int[1] ).toDispatch(); 
Dispatch.invoke(wordfile,"SaveAs", Dispatch.Method, new Object[]{tpFile,new Variant(8)}, new int[1]); 
Variant f = new Variant(false); 
Dispatch.call(wordfile, "Close", f); 
flag = true; 
} catch (Exception e) { 
e.printStackTrace(); 
} finally { 
component.invoke("Quit", new Variant[] {}); 
} 
} 
} 


2. 用apache的poi来抽取word,excel。
poi是apache的一个项目,不过就算用poi你可能都觉得很烦,不过不要紧,这里提供了更加简单的一个接口给你:
下载经过封装后的poi包: http://jakarta.apache.org/poi/
下载之后,放到你的classpath就可以了,下面是如何使用它的一个例子:
import java.io.*; 
import org.textmining.text.extraction.WordExtractor; 
/** 
* <p>Title: word extraction</p> 
* <p>Description: email:chris@matrix.org.cn</p> 
* <p>Copyright: Matrix Copyright (c) 2003</p> 
* <p>Company: Matrix.org.cn</p> 
* @author chris 
* @version 1.0,who use this example pls remain the declare 
*/ 

public class PdfExtractor { 
public PdfExtractor() { 
} 
public static void main(String args[]) throws Exception 
{ 
FileInputStream in = new FileInputStream ("c:\\a.doc"); 
WordExtractor extractor = new WordExtractor(); 
String str = extractor.extractText(in); 
System.out.println("the result length is"+str.length()); 
System.out.println("the result is"+str); 
} 
} 

3. pdfbox-用来抽取pdf文件
但是pdfbox对中文支持还不好,先下载pdfbox: http://www.pdfbox.org/
下面是一个如何使用pdfbox抽取pdf文件的例子:
import org.pdfbox.pdmodel.PDdocument. 
import org.pdfbox.pdfparser.PDFParser; 
import java.io.*; 
import org.pdfbox.util.PDFTextStripper; 
import java.util.Date; 
/** 
* <p>Title: pdf extraction</p> 
* <p>Description: email:chris@matrix.org.cn</p> 
* <p>Copyright: Matrix Copyright (c) 2003</p> 
* <p>Company: Matrix.org.cn</p> 
* @author chris 
* @version 1.0,who use this example pls remain the declare 
*/ 

public class PdfExtracter{ 

public PdfExtracter(){ 
} 
public String GetTextFromPdf(String filename) throws Exception 
{ 
String temp=null; 
PDdocument.nbsppdfdocument.null; 
FileInputStream is=new FileInputStream(filename); 
PDFParser parser = new PDFParser( is ); 
parser.parse(); 
pdfdocument.nbsp= parser.getPDdocument.); 
ByteArrayOutputStream out = new ByteArrayOutputStream(); 
OutputStreamWriter writer = new OutputStreamWriter( out ); 
PDFTextStripper stripper = new PDFTextStripper(); 
stripper.writeText(pdfdocument.getdocument.), writer ); 
writer.close(); 
byte[] contents = out.toByteArray(); 

String ts=new String(contents); 
System.out.println("the string length is"+contents.length+"\n"); 
return ts; 
} 
public static void main(String args[]) 
{ 
PdfExtracter pf=new PdfExtracter(); 
PDdocument.nbsppdfdocument.nbsp= null; 

try{ 
String ts=pf.GetTextFromPdf("c:\\a.pdf"); 
System.out.println(ts); 
} 
catch(Exception e) 
{ 
e.printStackTrace(); 
} 
} 

} 




4. 抽取支持中文的pdf文件-xpdf
xpdf是一个开源项目,我们可以调用他的本地方法来实现抽取中文pdf文件。
下载xpdf函数包: http://www.foolabs.com/xpdf/
同时需要下载支持中文的补丁包,按照readme放好中文的patch,就可以开始写调用本地方法的java程序了。
下面是一个如何调用的例子:
import java.io.*; 
/** 
* <p>Title: pdf extraction</p> 
* <p>Description: email:chris@matrix.org.cn</p> 
* <p>Copyright: Matrix Copyright (c) 2003</p> 
* <p>Company: Matrix.org.cn</p> 
* @author chris 
* @version 1.0,who use this example pls remain the declare 
*/ 


public class PdfWin { 
public PdfWin() { 
} 
public static void main(String args[]) throws Exception 
{ 
String PATH_TO_XPDF="C:\\Program Files\\xpdf\\pdftotext.exe"; 
String filename="c:\\a.pdf"; 
String[] cmd = new String[] { PATH_TO_XPDF, "-enc", "UTF-8", "-q", filename, "-"}; 
Process p = Runtime.getRuntime().exec(cmd); 
BufferedInputStream bis = new BufferedInputStream(p.getInputStream()); 
InputStreamReader reader = new InputStreamReader(bis, "UTF-8"); 
StringWriter out = new StringWriter(); 
char [] buf = new char[10000]; 
int len; 
while((len = reader.read(buf))>= 0) { 
//out.write(buf, 0, len); 
System.out.println("the length is"+len); 
} 
reader.close(); 
String ts=new String(buf); 
System.out.println("the str is"+ts); 
} 
}   

原文地址:
http://www.itepub.net/html/article/bianchengkaifa/Java/APPLETyuSWING/2006/0428/2649.html
分享到:
评论
1 楼 acemars 2009-04-30  
谢谢分享!

相关推荐

    java抽取word,pdf的四种武器

    总结这四种武器,Java在处理Word和PDF文件时具备了强大的能力。Apache POI处理Word文档,PDFBox专攻PDF,iText则在PDF处理上表现出色,而Tika则作为通用的解析器,能够应对多种文件格式。了解并熟练掌握这些工具,将...

    Java抽取Word及PDF编程

    ### Java抽取Word及PDF编程 #### 一、引言 在日常工作中,处理Word和PDF文档的需求非常普遍,尤其是在企业级应用中。无论是自动化办公流程还是数据处理任务,能够有效地从这些格式的文档中提取信息变得至关重要。...

    Java抽取Word和PDF格式文件

    本篇文章将探讨四种不同的方法来实现Java抽取Word和PDF格式文件。 1. 使用JACOB库 JACOB(Java COM Bridge)是一个允许Java调用COM组件的库。在Java中操作Word和PDF文件时,JACOB通过桥接Java和COM接口来实现。...

    Java抽取Word和PDF格式文件的四种武器.doc

    本文将介绍四种主要的Java库,它们可以帮助开发者有效地抽取Word和PDF文档的内容。 首先,我们来看JACOB(Java COM Bridge)。JACOB是一个Java库,用于连接Java和COM组件,允许Java程序调用Windows API和Microsoft ...

    Java抽取Word.rar_Java Word

    在Java编程环境中,抽取Word文档数据内容是一项常见的任务,尤其在数据处理、文档解析或信息提取等场景下。本文将详细讲解如何使用Java API来读取和操作Microsoft Word(.doc或.docx)文件。 首先,Java标准库并...

    java word转pdf

    总结来说,这个Java程序展示了如何利用Aspose.Words for Java库无水印地将Word文档转换为PDF。它涉及到的关键知识点包括: 1. 引入Aspose.Words库 2. 配置Aspose产品许可证 3. 加载和操作Word文档(`Document`类) ...

    JAVA读取WORD-pdf等.docx

    Java 语言提供了多种方式来处理和读取不同的文件格式,如Word、Excel、PowerPoint以及PDF。以下将详细讲解如何使用各种库和工具来实现这些功能。 1. **读取Word文档** - 使用 Apache POI 库中的 `HWPFDocument` 类...

    java-pdf&word-jar.zip

    以上就是`java-pdf&word-jar.zip`压缩包中涉及到的Java库的关键功能和应用场景。开发者可以结合这些库,轻松地在Java程序中实现对PDF和Word文档的高效操作,满足各种业务需求。在实际开发中,根据项目的具体需求选择...

    springboot+es实现对word,pdf,txt等文件的非结构化数据全文内容检索

    在现代的信息化环境中,非结构化数据如Word文档、PDF和TXT文本的处理变得日益重要。Spring Boot结合Elasticsearch的解决方案为这类问题提供了一种高效且灵活的途径。本教程将详细介绍如何利用Spring Boot集成Elastic...

    JAVA读取WORD,EXCEL,POWERPOINT,PDF文件的方法

    在Java编程中,读取和处理各种文档格式如Word、Excel、PowerPoint和PDF是非常常见的需求。这些文件的处理可以通过不同的库来实现。以下分别介绍如何使用Apache POI处理Microsoft Office文档(Word、Excel和...

    基于深度学习的简历信息实体抽取方法.pdf

    基于深度学习的简历信息实体抽取方法.pdf 该论文提出了一种基于深度学习的简历信息实体抽取方法,旨在解决传统的简历信 息实体抽取方法泛化能力差、难以维护的问题。该方法通过将非结构化的简历文本信 息处理为词...

    PDF文档解密/解除限制/提取文本图片/转Word 全能工具超好用

    PDF文档解密/解除限制/提取文本图片/转Word 全能工具超好用 PDF文档解密/解除限制/提取文本图片/转Word 全能工具超好用

    java初学者或开发者查询手册.pdf

    ### Java初学者或开发者查询手册知识点汇总 #### 一、XML文件处理 ...2. **PDFRenderer**: 采用纯Java实现的PDF阅读器和渲染器。 - **特性**: - 可以在应用中查看PDF文件。 - 在导出PDF文件之前进行预览。 ...

    Java编程快捷键.pdf

    Java 编程快捷键大全 Java 编程快捷键是 Java 开发者在编程时常用的快捷键,旨在提高编程效率和提高生产力。下面是常用的 Java 编程快捷键: 基本快捷键 * Ctrl+Shift+F:代码排版格式化 * Ctrl+/:单行注释 * ...

    xbrl解析(java)

    XBRL相比Excel、PDF、网页等财务信息格式有众多优势,原因就在于它将业务报告整体拆分为一个个元素而存在,使报告由静态变为动态,让计算机可以对报告内容进行抽取和组合。 例如,对于Word格式财务报告,尽管人们...

    java开发知识库管理系统.zip

    在知识库系统中,文档可能包括各种格式,如PDF、Word等。Java的Apache POI库可以用于读写Microsoft Office格式的文档,而PDFBox则用于处理PDF文件。对于非结构化文本,可以考虑将其内容抽取并存储在数据库中,便于...

    PDF图片提取,专门提PDF文档中的图片

    3. **编程接口(APIs)**:对于开发者,可以使用各种编程语言的库来实现图片提取,如Python的PyPDF2和PDFMiner,Java的PDFBox,JavaScript的PDF.js等。这些库提供了API,允许开发者编写脚本来自动化处理大量PDF文档...

    用VBA在Word中二次开发试题库.pdf

    这种方式充分利用了Word强大的文字处理能力,结合VBA的编程优势,为教育机构提供了一种高效、实用的试题库解决方案。未来,随着技术的不断进步,这一领域的应用有望进一步拓展,满足更加多样化和复杂化的教育需求。 ...

    java开源包6

    parboiled 是一个纯Java库提供了一种轻量级,易于使用,功能强大和优雅的PEG(解析表达式语法)分析设施。你定义的Java源代码的语法规则,直接,没有必要专门编写和维护,外部语法文件。同时保持蒸提供全面的支持,...

    java开源包4

    parboiled 是一个纯Java库提供了一种轻量级,易于使用,功能强大和优雅的PEG(解析表达式语法)分析设施。你定义的Java源代码的语法规则,直接,没有必要专门编写和维护,外部语法文件。同时保持蒸提供全面的支持,...

Global site tag (gtag.js) - Google Analytics