内容: 很多人问到如何抽取word,excel,pdf阿。这里我总结一下抽取word,pdf的
几种方法。
1。用jacob.
其实jacob是一个bridage,连接java和com或者win32函数的一个中间件,jacob并不能直接抽取word,excel等文件,需要自己写dll哦,不过已经有为你写好的了,就是jacob的作者一并提供了。
jacob下载:http://www.matrix.org.cn/down_view.asp?id=13
下载了jacob并放到指定的路径之后(dll放到path,jar文件放到classpath),就可以写你自己的抽取程序了,下面是一个例子:
import java.io.File;
import com.jacob.com.*;
import com.jacob.activeX.*;
public class FileExtracter{
public static void main(String[] args) {
ActiveXComponent app = new ActiveXComponent("Word.Application");
String inFile = "c:\\test.doc";
String tpFile = "c:\\temp.htm";
String otFile = "c:\\temp.xml";
boolean flag = false;
try {
app.setProperty("Visible", new Variant(false));
Object docs = app.getProperty("Documents").toDispatch();
Object doc = Dispatch.invoke(docs,"Open", Dispatch.Method, new Object[]{inFile,new Variant(false), new Variant(true)}, new int[1]).toDispatch();
Dispatch.invoke(doc,"SaveAs", Dispatch.Method, new Object[]{tpFile,new Variant(8)}, new int[1]);
Variant f = new Variant(false);
Dispatch.call(doc, "Close", f);
flag = true;
} catch (Exception e) {
e.printStackTrace();
} finally {
app.invoke("Quit", new Variant[] {});
}
}
}
2。用apache的poi来抽取word,excel。
poi是apache的一个项目,不过就算用poi你可能都觉得很烦,不过不要紧,这里提供了更加简单的一个接口给你:
下载经过封装后的poi包:http://www.matrix.org.cn/down_view.asp?id=14
下载之后,放到你的classpath就可以了,下面是如何使用它的一个例子:
import java.io.*;
import org.textmining.text.extraction.WordExtractor;
/**
*
Title: pdf extraction
*
Description: email:chris@matrix.org.cn
*
Copyright: Matrix Copyright (c) 2003
*
Company: Matrix.org.cn
* @author chris* @version 1.0,who use this example pls remain the declare*/public class PdfExtractor {public PdfExtractor() {}public static void main(String args[]) throws Exception{FileInputStream in = new FileInputStream ("c:\\a.doc");WordExtractor extractor = new WordExtractor();String str = extractor.extractText(in);System.out.println("the result length is"+str.length());System.out.println("the result is"+str);}}3。pdfbox-用来抽取pdf文件但是pdfbox对中文支持还不好,先下载pdfbox:http://www.matrix.org.cn/down_view.asp?id=12下面是一个如何使用pdfbox抽取pdf文件的例子:import org.pdfbox.pdmodel.PDDocument;import org.pdfbox.pdfparser.PDFParser;import java.io.*;import org.pdfbox.util.PDFTextStripper;import java.util.Date;/***
Title: pdf extraction
*
Description: email:chris@matrix.org.cn
*
Copyright: Matrix Copyright (c) 2003
*
Company: Matrix.org.cn
* @author chris* @version 1.0,who use this example pls remain the declare*/public class PdfExtracter{public PdfExtracter(){}public String GetTextFromPdf(String filename) throws Exception{String temp=null;PDDocument pdfdocument=null;FileInputStream is=new FileInputStream(filename);PDFParser parser = new PDFParser( is );parser.parse();pdfdocument = parser.getPDDocument();ByteArrayOutputStream out = new ByteArrayOutputStream();OutputStreamWriter writer = new OutputStreamWriter( out );PDFTextStripper stripper = new PDFTextStripper();stripper.writeText(pdfdocument.getDocument(), writer );writer.close();byte[] contents = out.toByteArray();String ts=new String(contents);System.out.println("the string length is"+contents.length+"\n");return ts;}public static void main(String args[]){PdfExtracter pf=new PdfExtracter();PDDocument pdfDocument = null;try{String ts=pf.GetTextFromPdf("c:\\a.pdf");System.out.println(ts);}catch(Exception e){e.printStackTrace();}}}4.抽取支持中文的pdf文件-xpdfxpdf是一个开源项目,我们可以调用他的本地方法来实现抽取中文pdf文件。下载xpdf函数包:http://www.matrix.org.cn/down_view.asp?id=15同时需要下载支持中文的补丁包:http://www.matrix.org.cn/down_view.asp?id=16按照readme放好中文的patch,就可以开始写调用本地方法的java程序了下面是一个如何调用的例子:import java.io.*;/***
Title: pdf extraction
*
Description: email:chris@matrix.org.cn
*
Copyright: Matrix Copyright (c) 2003
*
Company: Matrix.org.cn
* @author chris
* @version 1.0,who use this example pls remain the declare
*/
public class PdfWin {
public PdfWin() {
}
public static void main(String args[]) throws Exception
{
String PATH_TO_XPDF="C:\\Program Files\\xpdf\\pdftotext.exe";
String filename="c:\\a.pdf";
String[] cmd = new String[] { PATH_TO_XPDF, "-enc", "UTF-8", "-q", filename, "-"};
Process p = Runtime.getRuntime().exec(cmd);
BufferedInputStream bis = new BufferedInputStream(p.getInputStream());
InputStreamReader reader = new InputStreamReader(bis, "UTF-8");
StringWriter out = new StringWriter();
char [] buf = new char[10000];
int len;
while((len = reader.read(buf))>= 0) {
//out.write(buf, 0, len);
System.out.println("the length is"+len);
}
reader.close();
String ts=new String(buf);
System.out.println("the str is"+ts);
}
}
转自http://www.javanb.com/java/1/8645.html
分享到:
相关推荐
### Java抽取Word及PDF编程 #### 一、引言 在日常工作中,处理Word和PDF文档的需求非常普遍,尤其是在企业级应用中。无论是自动化办公流程还是数据处理任务,能够有效地从这些格式的文档中提取信息变得至关重要。...
本篇文章将探讨四种不同的方法来实现Java抽取Word和PDF格式文件。 1. 使用JACOB库 JACOB(Java COM Bridge)是一个允许Java调用COM组件的库。在Java中操作Word和PDF文件时,JACOB通过桥接Java和COM接口来实现。...
本文将介绍四种主要的Java库,它们可以帮助开发者有效地抽取Word和PDF文档的内容。 首先,我们来看JACOB(Java COM Bridge)。JACOB是一个Java库,用于连接Java和COM组件,允许Java程序调用Windows API和Microsoft ...
在Java编程环境中,抽取Word文档数据内容是一项常见的任务,尤其在数据处理、文档解析或信息提取等场景下。本文将详细讲解如何使用Java API来读取和操作Microsoft Word(.doc或.docx)文件。 首先,Java标准库并...
总结来说,这个Java程序展示了如何利用Aspose.Words for Java库无水印地将Word文档转换为PDF。它涉及到的关键知识点包括: 1. 引入Aspose.Words库 2. 配置Aspose产品许可证 3. 加载和操作Word文档(`Document`类) ...
Java 语言提供了多种方式来处理和读取不同的文件格式,如Word、Excel、PowerPoint以及PDF。以下将详细讲解如何使用各种库和工具来实现这些功能。 1. **读取Word文档** - 使用 Apache POI 库中的 `HWPFDocument` 类...
以上就是`java-pdf&word-jar.zip`压缩包中涉及到的Java库的关键功能和应用场景。开发者可以结合这些库,轻松地在Java程序中实现对PDF和Word文档的高效操作,满足各种业务需求。在实际开发中,根据项目的具体需求选择...
在现代的信息化环境中,非结构化数据如Word文档、PDF和TXT文本的处理变得日益重要。Spring Boot结合Elasticsearch的解决方案为这类问题提供了一种高效且灵活的途径。本教程将详细介绍如何利用Spring Boot集成Elastic...
在Java编程中,读取和处理各种文档格式如Word、Excel、PowerPoint和PDF是非常常见的需求。这些文件的处理可以通过不同的库来实现。以下分别介绍如何使用Apache POI处理Microsoft Office文档(Word、Excel和...
基于深度学习的简历信息实体抽取方法.pdf 该论文提出了一种基于深度学习的简历信息实体抽取方法,旨在解决传统的简历信 息实体抽取方法泛化能力差、难以维护的问题。该方法通过将非结构化的简历文本信 息处理为词...
PDF文档解密/解除限制/提取文本图片/转Word 全能工具超好用 PDF文档解密/解除限制/提取文本图片/转Word 全能工具超好用
### Java初学者或开发者查询手册知识点汇总 #### 一、XML文件处理 ...2. **PDFRenderer**: 采用纯Java实现的PDF阅读器和渲染器。 - **特性**: - 可以在应用中查看PDF文件。 - 在导出PDF文件之前进行预览。 ...
Java 编程快捷键大全 Java 编程快捷键是 Java 开发者在编程时常用的快捷键,旨在提高编程效率和提高生产力。下面是常用的 Java 编程快捷键: 基本快捷键 * Ctrl+Shift+F:代码排版格式化 * Ctrl+/:单行注释 * ...
XBRL相比Excel、PDF、网页等财务信息格式有众多优势,原因就在于它将业务报告整体拆分为一个个元素而存在,使报告由静态变为动态,让计算机可以对报告内容进行抽取和组合。 例如,对于Word格式财务报告,尽管人们...
在知识库系统中,文档可能包括各种格式,如PDF、Word等。Java的Apache POI库可以用于读写Microsoft Office格式的文档,而PDFBox则用于处理PDF文件。对于非结构化文本,可以考虑将其内容抽取并存储在数据库中,便于...
3. **编程接口(APIs)**:对于开发者,可以使用各种编程语言的库来实现图片提取,如Python的PyPDF2和PDFMiner,Java的PDFBox,JavaScript的PDF.js等。这些库提供了API,允许开发者编写脚本来自动化处理大量PDF文档...
这种方式充分利用了Word强大的文字处理能力,结合VBA的编程优势,为教育机构提供了一种高效、实用的试题库解决方案。未来,随着技术的不断进步,这一领域的应用有望进一步拓展,满足更加多样化和复杂化的教育需求。 ...
parboiled 是一个纯Java库提供了一种轻量级,易于使用,功能强大和优雅的PEG(解析表达式语法)分析设施。你定义的Java源代码的语法规则,直接,没有必要专门编写和维护,外部语法文件。同时保持蒸提供全面的支持,...
parboiled 是一个纯Java库提供了一种轻量级,易于使用,功能强大和优雅的PEG(解析表达式语法)分析设施。你定义的Java源代码的语法规则,直接,没有必要专门编写和维护,外部语法文件。同时保持蒸提供全面的支持,...