很多人用java进行文档操作时经常会遇到一个问题,就是如何获得word,excel,pdf等文档的内容?我研究了一下,在这里总结一下抽取word,pdf的几种方法。
1. 用jacob
其实jacob是一个bridage,连接java和com或者win32函数的一个中间件,jacob并不能直接抽取word,excel等文件,需要自己写dll哦,不过已经有为你写好的了,就是jacob的作者一并提供了。
jacob jar与dll文件下载: http://danadler.com/jacob/
下载了jacob并放到指定的路径之后(dll放到path,jar文件放到classpath),就可以写你自己的抽取程序了,下面是一个简单的例子:
import java.io.File;
import com.jacob.com.*;
import com.jacob.activeX.*;
/**
* Title: pdf extraction
* Description: email:chris@matrix.org.cn
* Copyright: Matrix Copyright (c) 2003
* Company: Matrix.org.cn
* @author chris
* @version 1.0,who use this example pls remain the declare
*/
public class FileExtracter{
public static void main(String[] args) {
ActiveXComponent component = new ActiveXComponent("Word.Application");
String inFile = "c:\\test.doc";
String tpFile = "c:\\temp.htm";
String otFile = "c:\\temp.xml";
boolean flag = false;
try {
component.setProperty("Visible", new Variant(false));
Object wordacc = component.getProperty("document.").toDispatch();
Object wordfile = Dispatch.invoke(wordacc,"Open", Dispatch.Method,
new Object[]{inFile,new Variant(false), new Variant(true)},
new int[1] ).toDispatch();
Dispatch.invoke(wordfile,"SaveAs", Dispatch.Method, new Object[]{tpFile,new Variant(8)}, new int[1]);
Variant f = new Variant(false);
Dispatch.call(wordfile, "Close", f);
flag = true;
} catch (Exception e) {
e.printStackTrace();
} finally {
component.invoke("Quit", new Variant[] {});
}
}
}
2. 用apache的poi来抽取word,excel。
poi是apache的一个项目,不过就算用poi你可能都觉得很烦,不过不要紧,这里提供了更加简单的一个接口给你:
下载经过封装后的poi包: http://jakarta.apache.org/poi/
下载之后,放到你的classpath就可以了,下面是如何使用它的一个例子:
import java.io.*;
import org.textmining.text.extraction.WordExtractor;
/**
* <p>Title: word extraction</p>
* <p>Description: email:chris@matrix.org.cn</p>
* <p>Copyright: Matrix Copyright (c) 2003</p>
* <p>Company: Matrix.org.cn</p>
* @author chris
* @version 1.0,who use this example pls remain the declare
*/
public class PdfExtractor {
public PdfExtractor() {
}
public static void main(String args[]) throws Exception
{
FileInputStream in = new FileInputStream ("c:\\a.doc");
WordExtractor extractor = new WordExtractor();
String str = extractor.extractText(in);
System.out.println("the result length is"+str.length());
System.out.println("the result is"+str);
}
}
3. pdfbox-用来抽取pdf文件
但是pdfbox对中文支持还不好,先下载pdfbox: http://www.pdfbox.org/
下面是一个如何使用pdfbox抽取pdf文件的例子:
import org.pdfbox.pdmodel.PDdocument.
import org.pdfbox.pdfparser.PDFParser;
import java.io.*;
import org.pdfbox.util.PDFTextStripper;
import java.util.Date;
/**
* <p>Title: pdf extraction</p>
* <p>Description: email:chris@matrix.org.cn</p>
* <p>Copyright: Matrix Copyright (c) 2003</p>
* <p>Company: Matrix.org.cn</p>
* @author chris
* @version 1.0,who use this example pls remain the declare
*/
public class PdfExtracter{
public PdfExtracter(){
}
public String GetTextFromPdf(String filename) throws Exception
{
String temp=null;
PDdocument.nbsppdfdocument.null;
FileInputStream is=new FileInputStream(filename);
PDFParser parser = new PDFParser( is );
parser.parse();
pdfdocument.nbsp= parser.getPDdocument.);
ByteArrayOutputStream out = new ByteArrayOutputStream();
OutputStreamWriter writer = new OutputStreamWriter( out );
PDFTextStripper stripper = new PDFTextStripper();
stripper.writeText(pdfdocument.getdocument.), writer );
writer.close();
byte[] contents = out.toByteArray();
String ts=new String(contents);
System.out.println("the string length is"+contents.length+"\n");
return ts;
}
public static void main(String args[])
{
PdfExtracter pf=new PdfExtracter();
PDdocument.nbsppdfdocument.nbsp= null;
try{
String ts=pf.GetTextFromPdf("c:\\a.pdf");
System.out.println(ts);
}
catch(Exception e)
{
e.printStackTrace();
}
}
}
4. 抽取支持中文的pdf文件-xpdf
xpdf是一个开源项目,我们可以调用他的本地方法来实现抽取中文pdf文件。
下载xpdf函数包: http://www.foolabs.com/xpdf/
同时需要下载支持中文的补丁包,按照readme放好中文的patch,就可以开始写调用本地方法的java程序了。
下面是一个如何调用的例子:
分享到:
相关推荐
总结这四种武器,Java在处理Word和PDF文件时具备了强大的能力。Apache POI处理Word文档,PDFBox专攻PDF,iText则在PDF处理上表现出色,而Tika则作为通用的解析器,能够应对多种文件格式。了解并熟练掌握这些工具,将...
### Java抽取Word及PDF编程 #### 一、引言 在日常工作中,处理Word和PDF文档的需求非常普遍,尤其是在企业级应用中。无论是自动化办公流程还是数据处理任务,能够有效地从这些格式的文档中提取信息变得至关重要。...
本篇文章将探讨四种不同的方法来实现Java抽取Word和PDF格式文件。 1. 使用JACOB库 JACOB(Java COM Bridge)是一个允许Java调用COM组件的库。在Java中操作Word和PDF文件时,JACOB通过桥接Java和COM接口来实现。...
本文将介绍四种主要的Java库,它们可以帮助开发者有效地抽取Word和PDF文档的内容。 首先,我们来看JACOB(Java COM Bridge)。JACOB是一个Java库,用于连接Java和COM组件,允许Java程序调用Windows API和Microsoft ...
在Java编程环境中,抽取Word文档数据内容是一项常见的任务,尤其在数据处理、文档解析或信息提取等场景下。本文将详细讲解如何使用Java API来读取和操作Microsoft Word(.doc或.docx)文件。 首先,Java标准库并...
总结来说,这个Java程序展示了如何利用Aspose.Words for Java库无水印地将Word文档转换为PDF。它涉及到的关键知识点包括: 1. 引入Aspose.Words库 2. 配置Aspose产品许可证 3. 加载和操作Word文档(`Document`类) ...
Java 语言提供了多种方式来处理和读取不同的文件格式,如Word、Excel、PowerPoint以及PDF。以下将详细讲解如何使用各种库和工具来实现这些功能。 1. **读取Word文档** - 使用 Apache POI 库中的 `HWPFDocument` 类...
以上就是`java-pdf&word-jar.zip`压缩包中涉及到的Java库的关键功能和应用场景。开发者可以结合这些库,轻松地在Java程序中实现对PDF和Word文档的高效操作,满足各种业务需求。在实际开发中,根据项目的具体需求选择...
在现代的信息化环境中,非结构化数据如Word文档、PDF和TXT文本的处理变得日益重要。Spring Boot结合Elasticsearch的解决方案为这类问题提供了一种高效且灵活的途径。本教程将详细介绍如何利用Spring Boot集成Elastic...
在Java编程中,读取和处理各种文档格式如Word、Excel、PowerPoint和PDF是非常常见的需求。这些文件的处理可以通过不同的库来实现。以下分别介绍如何使用Apache POI处理Microsoft Office文档(Word、Excel和...
基于深度学习的简历信息实体抽取方法.pdf 该论文提出了一种基于深度学习的简历信息实体抽取方法,旨在解决传统的简历信 息实体抽取方法泛化能力差、难以维护的问题。该方法通过将非结构化的简历文本信 息处理为词...
PDF文档解密/解除限制/提取文本图片/转Word 全能工具超好用 PDF文档解密/解除限制/提取文本图片/转Word 全能工具超好用
### Java初学者或开发者查询手册知识点汇总 #### 一、XML文件处理 ...2. **PDFRenderer**: 采用纯Java实现的PDF阅读器和渲染器。 - **特性**: - 可以在应用中查看PDF文件。 - 在导出PDF文件之前进行预览。 ...
Java 编程快捷键大全 Java 编程快捷键是 Java 开发者在编程时常用的快捷键,旨在提高编程效率和提高生产力。下面是常用的 Java 编程快捷键: 基本快捷键 * Ctrl+Shift+F:代码排版格式化 * Ctrl+/:单行注释 * ...
XBRL相比Excel、PDF、网页等财务信息格式有众多优势,原因就在于它将业务报告整体拆分为一个个元素而存在,使报告由静态变为动态,让计算机可以对报告内容进行抽取和组合。 例如,对于Word格式财务报告,尽管人们...
在知识库系统中,文档可能包括各种格式,如PDF、Word等。Java的Apache POI库可以用于读写Microsoft Office格式的文档,而PDFBox则用于处理PDF文件。对于非结构化文本,可以考虑将其内容抽取并存储在数据库中,便于...
3. **编程接口(APIs)**:对于开发者,可以使用各种编程语言的库来实现图片提取,如Python的PyPDF2和PDFMiner,Java的PDFBox,JavaScript的PDF.js等。这些库提供了API,允许开发者编写脚本来自动化处理大量PDF文档...
这种方式充分利用了Word强大的文字处理能力,结合VBA的编程优势,为教育机构提供了一种高效、实用的试题库解决方案。未来,随着技术的不断进步,这一领域的应用有望进一步拓展,满足更加多样化和复杂化的教育需求。 ...
parboiled 是一个纯Java库提供了一种轻量级,易于使用,功能强大和优雅的PEG(解析表达式语法)分析设施。你定义的Java源代码的语法规则,直接,没有必要专门编写和维护,外部语法文件。同时保持蒸提供全面的支持,...
parboiled 是一个纯Java库提供了一种轻量级,易于使用,功能强大和优雅的PEG(解析表达式语法)分析设施。你定义的Java源代码的语法规则,直接,没有必要专门编写和维护,外部语法文件。同时保持蒸提供全面的支持,...