很多人问到如何抽取word,excel,pdf阿。这里我总结一下抽取word,pdf的
几种方法。
1。用jacob.其实jacob是一个bridage,连接java和com或者win32函数的一个中间件,jacob并不能直接抽取word,excel等文件,需要自己写dll哦,不过已经有为你写好的了,就是jacob的作者一并提供了。
jacob下载:http://www.matrix.org.cn/down_view.asp?id=13
下载了jacob并放到指定的路径之后(dll放到path,jar文件放到classpath),就可以写你自己的抽取程序了,下面是一个例子:
import java.io.File;
import com.jacob.com.*;
import com.jacob.activeX.*;
public class FileExtracter{
public static void main(String[] args) {
ActiveXComponent app = new ActiveXComponent("Word.Application");
String inFile = "c:\\test.doc";
String tpFile = "c:\\temp.htm";
String otFile = "c:\\temp.xml";
boolean flag = false;
try {
app.setProperty("Visible", new Variant(false));
Object docs = app.getProperty("Documents").toDispatch();
Object doc = Dispatch.invoke(docs,"Open", Dispatch.Method, new Object[]{inFile,new Variant(false), new Variant(true)}, new int[1]).toDispatch();
Dispatch.invoke(doc,"SaveAs", Dispatch.Method, new Object[]{tpFile,new Variant(8)}, new int[1]);
Variant f = new Variant(false);
Dispatch.call(doc, "Close", f);
flag = true;
} catch (Exception e) {
e.printStackTrace();
} finally {
app.invoke("Quit", new Variant[] {});
}
}
}
2。用apache的poi来抽取word,excel。poi是apache的一个项目,不过就算用poi你可能都觉得很烦,不过不要紧,这里提供了更加简单的一个接口给你:
下载经过封装后的poi包:http://www.matrix.org.cn/down_view.asp?id=14
下载之后,放到你的classpath就可以了,下面是如何使用它的一个例子:
import java.io.*;
import org.textmining.text.extraction.WordExtractor;
/**
* <p>Title: pdf extraction</p>
* <p>Description: email:chris@matrix.org.cn</p>
* <p>Copyright: Matrix Copyright (c) 2003</p>
* <p>Company: Matrix.org.cn</p>
* @author chris
* @version 1.0,who use this example pls remain the declare
*/
public class PdfExtractor {
public PdfExtractor() {
}
public static void main(String args[]) throws Exception
{
FileInputStream in = new FileInputStream ("c:\\a.doc");
WordExtractor extractor = new WordExtractor();
String str = extractor.extractText(in);
System.out.println("the result length is"+str.length());
System.out.println("the result is"+str);
}
}
3。pdfbox-用来抽取pdf文件但是pdfbox对中文支持还不好,先下载pdfbox:http://www.matrix.org.cn/down_view.asp?id=12
下面是一个如何使用pdfbox抽取pdf文件的例子:
import org.pdfbox.pdmodel.PDDocument;
import org.pdfbox.pdfparser.PDFParser;
import java.io.*;
import org.pdfbox.util.PDFTextStripper;
import java.util.Date;
/**
* <p>Title: pdf extraction</p>
* <p>Description: email:chris@matrix.org.cn</p>
* <p>Copyright: Matrix Copyright (c) 2003</p>
* <p>Company: Matrix.org.cn</p>
* @author chris
* @version 1.0,who use this example pls remain the declare
*/
public class PdfExtracter{
public PdfExtracter(){
}
public String GetTextFromPdf(String filename) throws Exception
{
String temp=null;
PDDocument pdfdocument=null;
FileInputStream is=new FileInputStream(filename);
PDFParser parser = new PDFParser( is );
parser.parse();
pdfdocument = parser.getPDDocument();
ByteArrayOutputStream out = new ByteArrayOutputStream();
OutputStreamWriter writer = new OutputStreamWriter( out );
PDFTextStripper stripper = new PDFTextStripper();
stripper.writeText(pdfdocument.getDocument(), writer );
writer.close();
byte[] contents = out.toByteArray();
String ts=new String(contents);
System.out.println("the string length is"+contents.length+"\n");
return ts;
}
public static void main(String args[])
{
PdfExtracter pf=new PdfExtracter();
PDDocument pdfDocument = null;
try{
String ts=pf.GetTextFromPdf("c:\\a.pdf");
System.out.println(ts);
}
catch(Exception e)
{
e.printStackTrace();
}
}
}
4.抽取支持中文的pdf文件-xpdfxpdf是一个开源项目,我们可以调用他的本地方法来实现抽取中文pdf文件。
下载xpdf函数包:http://www.matrix.org.cn/down_view.asp?id=15
同时需要下载支持中文的补丁包:http://www.matrix.org.cn/down_view.asp?id=16
按照readme放好中文的patch,就可以开始写调用本地方法的java程序了
下面是一个如何调用的例子:
import java.io.*;
/**
* <p>Title: pdf extraction</p>
* <p>Description: email:chris@matrix.org.cn</p>
* <p>Copyright: Matrix Copyright (c) 2003</p>
* <p>Company: Matrix.org.cn</p>
* @author chris
* @version 1.0,who use this example pls remain the declare
*/
public class PdfWin {
public PdfWin() {
}
public static void main(String args[]) throws Exception
{
String PATH_TO_XPDF="C:\\Program Files\\xpdf\\pdftotext.exe";
String filename="c:\\a.pdf";
String[] cmd = new String[] { PATH_TO_XPDF, "-enc", "UTF-8", "-q", filename, "-"};
Process p = Runtime.getRuntime().exec(cmd);
BufferedInputStream bis = new BufferedInputStream(p.getInputStream());
InputStreamReader reader = new InputStreamReader(bis, "UTF-8");
StringWriter out = new StringWriter();
char [] buf = new char[10000];
int len;
while((len = reader.read(buf))>= 0) {
//out.write(buf, 0, len);
System.out.println("the length is"+len);
}
reader.close();
String ts=new String(buf);
System.out.println("the str is"+ts);
}
}
如果大家谁有更好的办法,请告诉作者:
chris@matrix.org.cn
相关推荐
Java 读取 Word、PDF 格式文档方法 ...本文介绍了使用 Java 读取 Word、PDF 格式文档的几种方法,包括使用 Jacob、Apache POI 和 iText 库。这些方法可以帮助开发者快速读取文档内容,提高开发效率。
1、NPOI读取Word,只支持后缀名为.docx的,用iTextSharp生成pdf文件,存在读取word的段落,表格及先后顺序,导致生成的也不一致。 2、通过读取字节判断。 3、通过Aspose.Words来操作,在项目WordConvertPdf_WebA中的...
本主题将深入探讨如何利用给定的`itextpdf-5.5.9.jar`和`jacob.jar`这两个库来实现Java读取Word文档页数的功能。 `jacob.jar`是一个Java到COM桥接库,它允许Java应用程序调用Microsoft Office组件,如Word,从而...
在IT行业中,转换文档格式是一项常见的任务,尤其在办公环境中,Word文档和PDF文件的互换经常被需求。"word to pdf word xml to pdf"这个主题聚焦于将Microsoft Word文档转换为PDF格式,以及XML数据如何转化为PDF。...
3. 工具读取Word文件的内容,包括文本、图像、表格、页眉页脚等元素,并将其按照原始布局转换为PDF格式。 4. 转换完成后,用户可以选择保存位置,保存生成的PDF文件。 5. "下载说明.html"和"下载安装说明.txt"可能是...
PDF文件是静态的,而Word文档可以进行编辑和格式调整。 2. 库的选择:在.NET中,有许多第三方库可以帮助我们实现PDF到Word的转换,如PDFium、iTextSharp、PDFBox、Aspose.Words等。其中,Aspose.Words是常用的商业...
PDF文件常用于保持文档的原始格式和布局,而Word文件则更适合编辑和修改内容。当需要从PDF转换为Word时,可能会遇到批量处理的需求,这正是"批量PDF文件转换成Word转换器"所解决的问题。 批量转换工具如...
转换方法有以下几种: 1. 使用内置功能:某些版本的Word提供了“另存为PDF”或“导出为PDF”的选项,可以直接完成转换。 2. 第三方工具:市面上有许多第三方软件或在线服务,如Adobe Acrobat,它们提供了将Word文档...
通过这个库,我们可以读取Word文档内容,然后将其转换为PDF。首先,你需要安装Apache POI库,然后利用它的API来解析Word文档,并将其内容写入PDF。这种方法需要对Word文档的结构有深入理解,编程工作量相对较大。 2...
在给定的描述中提到了几种常用的库,包括Apache POI、java2Word、jacob和iText。 1. **Apache POI**:Apache POI是一个流行的开源库,主要用于处理Microsoft Office格式的文件,如Excel、Word和PowerPoint。对于...
iTextSharp是一个开源的PDF处理库,可以用来读取、创建和修改PDF文件;Aspose.Words则是一个强大的文档处理组件,能够处理多种文档格式,包括Word文档。 转换过程通常包括以下几个步骤: 1. 使用iTextSharp读取PDF...
1. **转换工具**:安装包中可能包含一个转换软件,如Adobe Acrobat、Nuance PowerPDF、FreeOffice等,这些工具能够读取Word文档,并将其导出为PDF格式。它们通常具有用户友好的界面和一键转换功能。 2. **兼容性**...
接下来,软件会自动读取Word文件,并将其转换为PDF格式。用户可以选择保存的位置,然后点击“转换”或“保存”按钮完成转换。转换后的PDF文件应保持原Word文档的文本内容、图片、表格和页面布局不变。 在试用期间,...
在Java中,我们可以使用Apache PDFBox库来创建和编辑PDF文件。PDFBox提供了API来添加文本、图像、表格等元素,并可以设置字体、颜色、页面大小等属性。例如,你可以创建一个PDFDocument对象,然后通过...
1. **页面解析**:工具首先需要读取PDF文件的元数据,解析每个页面的布局、文本和图像。PDF文件的结构复杂,包括矢量图形、字体、图像和多层元素,解析时需确保这些元素在Word中保持原样。 2. **文本提取**:PDF中...
1. 分析PDF文件:工具首先读取PDF文件的元数据和内容结构。 2. 解析内容:将PDF中的文字、图像和页面布局解析出来。 3. 转换为Word格式:将解析出的内容按照原始布局重新组织,生成Word文档。 4. 保存和编辑:转换后...
总之,PDF转Word工具通过一系列复杂的步骤将PDF文件的内容和格式转化为Word文档,使得用户能够在Word环境中进行编辑和进一步处理。这些工具的性能和准确性直接影响到转换结果的质量,因此选择一个高质量的转换工具...
iTextSharp提供了丰富的API,可以创建、编辑和合并PDF文件。要将其他格式的文件(如HTML、Word文档或图片)转换为PDF,首先需要将这些文件解析成iTextSharp能理解的结构。例如,对于HTML,可以使用...
这个“C#中PDF文件转WORD文件--201903”的主题涉及的知识点主要包括以下几个方面: 1. **C#基础**:C#是一种面向对象的编程语言,由微软开发,用于构建Windows应用程序、网络服务、游戏等多种项目。在处理文件转换...
开发者可以通过调用这个类的方法,传入Word文件的路径和目标PDF文件的路径,实现一键转换。 在实际应用中,需要注意的是,由于不同格式之间的差异,转换可能无法完美保留所有原始格式,尤其是涉及到复杂的表格、...