`
JAVA天地
  • 浏览: 673490 次
  • 性别: Icon_minigender_1
  • 来自: 太原
文章分类
社区版块
存档分类
最新评论

Java抽取Word,PDF的四种武器

阅读更多

作者:chris来自:IBM

很多人用java进行文档操作时经常会遇到一个问题,就是如何获得word,excel,pdf等文档的内容?我研究了一下,在这里总结一下抽取word,pdf的几种方法。


1. 用jacob

其实jacob是一个bridage,连接java和com或者win32函数的一个中间件,jacob并不能直接抽取word,excel等文件,需要自己写dll哦,不过已经有为你写好的了,就是jacob的作者一并提供了。

jacob jar与dll文件下载: http://danadler.com/jacob/

下载了jacob并放到指定的路径之后(dll放到path,jar文件放到classpath),就可以写你自己的抽取程序了,下面是一个简单的例子:

import java.io.File;
import com.jacob.com.*;
import com.jacob.activeX.*;
/**
* Title: pdf extraction
* Description: email:chris@matrix.org.cn
* Copyright: Matrix Copyright (c) 2003
* Company: Matrix.org.cn
* @author chris
* @version 1.0,who use this example pls remain the declare
*/
public class FileExtracter{
public static void main(String[] args) {
ActiveXComponent component = new ActiveXComponent("Word.Application");
String inFile = "c:\\test.doc";
String tpFile = "c:\\temp.htm";
String otFile = "c:\\temp.xml";
boolean flag = false;
try {
component.setProperty("Visible", new Variant(false));
Object wordacc = component.getProperty("document.").toDispatch();
Object wordfile = Dispatch.invoke(wordacc,"Open", Dispatch.Method,
new Object[]{inFile,new Variant(false), new Variant(true)},
new int[1] ).toDispatch();
Dispatch.invoke(wordfile,"SaveAs", Dispatch.Method, new Object[]{tpFile,new Variant(8)}, new int[1]);
Variant f = new Variant(false);
Dispatch.call(wordfile, "Close", f);
flag = true;
} catch (Exception e) {
e.printStackTrace();
} finally {
component.invoke("Quit", new Variant[] {});
}
}
}

2. 用apache的poi来抽取word,excel。

poi是apache的一个项目,不过就算用poi你可能都觉得很烦,不过不要紧,这里提供了更加简单的一个接口给你:

下载经过封装后的poi包: http://jakarta.apache.org/poi/

下载之后,放到你的classpath就可以了,下面是如何使用它的一个例子:

import java.io.*;
import org.textmining.text.extraction.WordExtractor;
/**
* <p>Title: word extraction</p>
* <p>Description: email:chris@matrix.org.cn</p>
* <p>Copyright: Matrix Copyright (c) 2003</p>
* <p>Company: Matrix.org.cn</p>
* @author chris
* @version 1.0,who use this example pls remain the declare
*/

public class PdfExtractor {
public PdfExtractor() {
}
public static void main(String args[]) throws Exception
{
FileInputStream in = new FileInputStream ("c:\\a.doc");
WordExtractor extractor = new WordExtractor();
String str = extractor.extractText(in);
System.out.println("the result length is"+str.length());
System.out.println("the result is"+str);
}
}

3. pdfbox-用来抽取pdf文件

但是pdfbox对中文支持还不好,先下载pdfbox: http://www.pdfbox.org/

下面是一个如何使用pdfbox抽取pdf文件的例子:

import org.pdfbox.pdmodel.PDdocument.
import org.pdfbox.pdfparser.PDFParser;
import java.io.*;
import org.pdfbox.util.PDFTextStripper;
import java.util.Date;
/**
* <p>Title: pdf extraction</p>
* <p>Description: email:chris@matrix.org.cn</p>
* <p>Copyright: Matrix Copyright (c) 2003</p>
* <p>Company: Matrix.org.cn</p>
* @author chris
* @version 1.0,who use this example pls remain the declare
*/

public class PdfExtracter{

public PdfExtracter(){
}
public String GetTextFromPdf(String filename) throws Exception
{
String temp=null;
PDdocument.nbsppdfdocument.null;
FileInputStream is=new FileInputStream(filename);
PDFParser parser = new PDFParser( is );
parser.parse();
pdfdocument.nbsp= parser.getPDdocument.);
ByteArrayOutputStream out = new ByteArrayOutputStream();
OutputStreamWriter writer = new OutputStreamWriter( out );
PDFTextStripper stripper = new PDFTextStripper();
stripper.writeText(pdfdocument.getdocument.), writer );
writer.close();
byte[] contents = out.toByteArray();

String ts=new String(contents);
System.out.println("the string length is"+contents.length+"\n");
return ts;
}
public static void main(String args[])
{
PdfExtracter pf=new PdfExtracter();
PDdocument.nbsppdfdocument.nbsp= null;

try{
String ts=pf.GetTextFromPdf("c:\\a.pdf");
System.out.println(ts);
}
catch(Exception e)
{
e.printStackTrace();
}
}

}

4. 抽取支持中文的pdf文件-xpdf

xpdf是一个开源项目,我们可以调用他的本地方法来实现抽取中文pdf文件。

下载xpdf函数包: http://www.foolabs.com/xpdf/

同时需要下载支持中文的补丁包,按照readme放好中文的patch,就可以开始写调用本地方法的java程序了。

下面是一个如何调用的例子:

import java.io.*;
/**
* <p>Title: pdf extraction</p>
* <p>Description: email:chris@matrix.org.cn</p>
* <p>Copyright: Matrix Copyright (c) 2003</p>
* <p>Company: Matrix.org.cn</p>
* @author chris
* @version 1.0,who use this example pls remain the declare
*/


public class PdfWin {
public PdfWin() {
}
public static void main(String args[]) throws Exception
{
String PATH_TO_XPDF="C:\\Program Files\\xpdf\\pdftotext.exe";
String filename="c:\\a.pdf";
String[] cmd = new String[] { PATH_TO_XPDF, "-enc", "UTF-8", "-q", filename, "-"};
Process p = Runtime.getRuntime().exec(cmd);
BufferedInputStream bis = new BufferedInputStream(p.getInputStream());
InputStreamReader reader = new InputStreamReader(bis, "UTF-8");
StringWriter out = new StringWriter();
char [] buf = new char[10000];
int len;
while((len = reader.read(buf))>= 0) {
//out.write(buf, 0, len);
System.out.println("the length is"+len);
}
reader.close();
String ts=new String(buf);
System.out.println("the str is"+ts);
}
}

分享到:
评论

相关推荐

    java抽取word,pdf的四种武器

    总结这四种武器,Java在处理Word和PDF文件时具备了强大的能力。Apache POI处理Word文档,PDFBox专攻PDF,iText则在PDF处理上表现出色,而Tika则作为通用的解析器,能够应对多种文件格式。了解并熟练掌握这些工具,将...

    Java抽取Word及PDF编程

    ### Java抽取Word及PDF编程 #### 一、引言 在日常工作中,处理Word和PDF文档的需求非常普遍,尤其是在企业级应用中。无论是自动化办公流程还是数据处理任务,能够有效地从这些格式的文档中提取信息变得至关重要。...

    Java抽取Word和PDF格式文件

    本篇文章将探讨四种不同的方法来实现Java抽取Word和PDF格式文件。 1. 使用JACOB库 JACOB(Java COM Bridge)是一个允许Java调用COM组件的库。在Java中操作Word和PDF文件时,JACOB通过桥接Java和COM接口来实现。...

    Java抽取Word和PDF格式文件的四种武器.doc

    本文将介绍四种主要的Java库,它们可以帮助开发者有效地抽取Word和PDF文档的内容。 首先,我们来看JACOB(Java COM Bridge)。JACOB是一个Java库,用于连接Java和COM组件,允许Java程序调用Windows API和Microsoft ...

    Java抽取Word.rar_Java Word

    在Java编程环境中,抽取Word文档数据内容是一项常见的任务,尤其在数据处理、文档解析或信息提取等场景下。本文将详细讲解如何使用Java API来读取和操作Microsoft Word(.doc或.docx)文件。 首先,Java标准库并...

    java word转pdf

    总结来说,这个Java程序展示了如何利用Aspose.Words for Java库无水印地将Word文档转换为PDF。它涉及到的关键知识点包括: 1. 引入Aspose.Words库 2. 配置Aspose产品许可证 3. 加载和操作Word文档(`Document`类) ...

    JAVA读取WORD-pdf等.docx

    Java 语言提供了多种方式来处理和读取不同的文件格式,如Word、Excel、PowerPoint以及PDF。以下将详细讲解如何使用各种库和工具来实现这些功能。 1. **读取Word文档** - 使用 Apache POI 库中的 `HWPFDocument` 类...

    java-pdf&word-jar.zip

    以上就是`java-pdf&word-jar.zip`压缩包中涉及到的Java库的关键功能和应用场景。开发者可以结合这些库,轻松地在Java程序中实现对PDF和Word文档的高效操作,满足各种业务需求。在实际开发中,根据项目的具体需求选择...

    springboot+es实现对word,pdf,txt等文件的非结构化数据全文内容检索

    在现代的信息化环境中,非结构化数据如Word文档、PDF和TXT文本的处理变得日益重要。Spring Boot结合Elasticsearch的解决方案为这类问题提供了一种高效且灵活的途径。本教程将详细介绍如何利用Spring Boot集成Elastic...

    JAVA读取WORD,EXCEL,POWERPOINT,PDF文件的方法

    在Java编程中,读取和处理各种文档格式如Word、Excel、PowerPoint和PDF是非常常见的需求。这些文件的处理可以通过不同的库来实现。以下分别介绍如何使用Apache POI处理Microsoft Office文档(Word、Excel和...

    基于深度学习的简历信息实体抽取方法.pdf

    基于深度学习的简历信息实体抽取方法.pdf 该论文提出了一种基于深度学习的简历信息实体抽取方法,旨在解决传统的简历信 息实体抽取方法泛化能力差、难以维护的问题。该方法通过将非结构化的简历文本信 息处理为词...

    PDF文档解密/解除限制/提取文本图片/转Word 全能工具超好用

    PDF文档解密/解除限制/提取文本图片/转Word 全能工具超好用 PDF文档解密/解除限制/提取文本图片/转Word 全能工具超好用

    java初学者或开发者查询手册.pdf

    ### Java初学者或开发者查询手册知识点汇总 #### 一、XML文件处理 ...2. **PDFRenderer**: 采用纯Java实现的PDF阅读器和渲染器。 - **特性**: - 可以在应用中查看PDF文件。 - 在导出PDF文件之前进行预览。 ...

    Java编程快捷键.pdf

    Java 编程快捷键大全 Java 编程快捷键是 Java 开发者在编程时常用的快捷键,旨在提高编程效率和提高生产力。下面是常用的 Java 编程快捷键: 基本快捷键 * Ctrl+Shift+F:代码排版格式化 * Ctrl+/:单行注释 * ...

    xbrl解析(java)

    XBRL相比Excel、PDF、网页等财务信息格式有众多优势,原因就在于它将业务报告整体拆分为一个个元素而存在,使报告由静态变为动态,让计算机可以对报告内容进行抽取和组合。 例如,对于Word格式财务报告,尽管人们...

    java开发知识库管理系统.zip

    在知识库系统中,文档可能包括各种格式,如PDF、Word等。Java的Apache POI库可以用于读写Microsoft Office格式的文档,而PDFBox则用于处理PDF文件。对于非结构化文本,可以考虑将其内容抽取并存储在数据库中,便于...

    PDF图片提取,专门提PDF文档中的图片

    3. **编程接口(APIs)**:对于开发者,可以使用各种编程语言的库来实现图片提取,如Python的PyPDF2和PDFMiner,Java的PDFBox,JavaScript的PDF.js等。这些库提供了API,允许开发者编写脚本来自动化处理大量PDF文档...

    用VBA在Word中二次开发试题库.pdf

    这种方式充分利用了Word强大的文字处理能力,结合VBA的编程优势,为教育机构提供了一种高效、实用的试题库解决方案。未来,随着技术的不断进步,这一领域的应用有望进一步拓展,满足更加多样化和复杂化的教育需求。 ...

    java开源包6

    parboiled 是一个纯Java库提供了一种轻量级,易于使用,功能强大和优雅的PEG(解析表达式语法)分析设施。你定义的Java源代码的语法规则,直接,没有必要专门编写和维护,外部语法文件。同时保持蒸提供全面的支持,...

    java开源包4

    parboiled 是一个纯Java库提供了一种轻量级,易于使用,功能强大和优雅的PEG(解析表达式语法)分析设施。你定义的Java源代码的语法规则,直接,没有必要专门编写和维护,外部语法文件。同时保持蒸提供全面的支持,...

Global site tag (gtag.js) - Google Analytics