1
。用
jacob.
其实jacob是一个bridage,连接java和com或者win32函数的一个中间件,jacob并不能直接抽取word,excel等文件,需要自己写dll哦,不过已经有为你写好的了,就是jacob的作者一并提供了。
下载了jacob并放到指定的路径之后(dll放到path,jar文件放到classpath),就可以写你自己的抽取程序了,下面是一个例子:
import java.io.File;
import com.jacob.com.*;
import com.jacob.activeX.*;
public class FileExtracter{
public static void main(String[] args) {
ActiveXComponent app = new ActiveXComponent("Word.Application");
String inFile = "c:\\test.doc";
String tpFile = "c:\\temp.htm";
String otFile = "c:\\temp.xml";
boolean flag = false;
try {
app.setProperty("Visible", new Variant(false));
Object docs = app.getProperty("Documents").toDispatch();
Object doc = Dispatch.invoke(docs,"Open", Dispatch.Method, new
Object[]{inFile,new Variant(false), new Variant(true)}, new
int[1]).toDispatch();
Dispatch.invoke(doc,"SaveAs", Dispatch.Method, new Object[]{tpFile,new Variant(8)}, new int[1]);
Variant f = new Variant(false);
Dispatch.call(doc, "Close", f);
flag = true;
} catch (Exception e) {
e.printStackTrace();
} finally {
app.invoke("Quit", new Variant[] {});
}
}
}
2
。用
apache
的
poi
来抽取
word
,
excel
。
poi
是
apache
的一个项目,不过就算用
poi
你可能都觉得很烦,不过不要紧,这里提供了更加简单的一个接口给你:
先下载
poi
的
jar
包,下载之后,放到你的
classpath
就可以了,下面是如何使用它的一个例子:
import java.io.*;
import org.textmining.text.extraction.WordExtractor;
public class PdfExtractor {
public PdfExtractor() {
}
public static void main(String args[]) throws Exception
{
FileInputStream in = new FileInputStream ("c:\\a.doc");
WordExtractor extractor = new WordExtractor();
String str = extractor.extractText(in);
System.out.println("the result length is"+str.length());
System.out.println("the result is"+str);
}
}
3
。
pdfbox-
用来抽取
pdf
文件
但是
pdfbox
对中文支持还不好,先下载
pdfbox
:
下面是一个如何使用
pdfbox
抽取
pdf
文件的例子:
import org.pdfbox.pdmodel.PDDocument;
import org.pdfbox.pdfparser.PDFParser;
import java.io.*;
import org.pdfbox.util.PDFTextStripper;
import java.util.Date;
public class PdfExtracter{
public PdfExtracter(){
}
public String GetTextFromPdf(String filename) throws Exception
{
String temp=null;
PDDocument pdfdocument=null;
FileInputStream is=new FileInputStream(filename);
PDFParser parser = new PDFParser( is );
parser.parse();
pdfdocument = parser.getPDDocument();
ByteArrayOutputStream out = new ByteArrayOutputStream();
OutputStreamWriter writer = new OutputStreamWriter( out );
PDFTextStripper stripper = new PDFTextStripper();
stripper.writeText(pdfdocument.getDocument(), writer );
writer.close();
byte[] contents = out.toByteArray();
String ts=new String(contents);
System.out.println("the string length is"+contents.length+"\n");
return ts;
}
public static void main(String args[])
{
PdfExtracter pf=new PdfExtracter();
PDDocument pdfDocument = null;
try{
String ts=pf.GetTextFromPdf("c:\\a.pdf");
System.out.println(ts);
}
catch(Exception e)
{
e.printStackTrace();
}
}
}
4.
抽取支持中文的
pdf
文件-
xpdf
xpdf
是一个开源项目,我们可以调用他的本地方法来实现抽取中文
pdf
文件。
下载
xpdf
函数包,同时需要下载支持中文的补丁包。
按照
readme
放好中文的
patch
,就可以开始写调用本地方法的
java
程序了
下面是一个如何调用的例子:
import java.io.*;
public class PdfWin {
public PdfWin() {
}
public static void main(String args[]) throws Exception
{
String PATH_TO_XPDF="C:\\Program Files\\xpdf\\pdftotext.exe";
String filename="c:\\a.pdf";
String[] cmd = new String[] { PATH_TO_XPDF, "-enc", "UTF-8", "-q", filename, "-"};
Process p = Runtime.getRuntime().exec(cmd);
BufferedInputStream bis = new BufferedInputStream(p.getInputStream());
InputStreamReader reader = new InputStreamReader(bis, "UTF-8");
StringWriter out = new StringWriter();
char [] buf = new char[10000];
int len;
while((len = reader.read(buf))>= 0) {
//out.write(buf, 0, len);
System.out.println("the length is"+len);
}
reader.close();
String ts=new String(buf);
System.out.println("the str is"+ts);
}
}
分享到:
相关推荐
本文将介绍 Java 如何读取 Word、PDF 格式文档的几种方法。 使用 Jacob Jacob 是一个桥接工具,连接 Java 和 COM 或 Win32 函数的一个中间件。使用 Jacob 可以读取 Word 文档的内容。首先,需要下载 Jacob 的 jar ...
JAVA 读取 WORD_EXCEL_POWERPOINT_PDF 文件的方法(poi) JAVA 读取 WORD_EXCEL_POWERPOINT_PDF 文件的方法是使用 Apache POI 库来实现的。POI 库是一个开放源代码的 Java 库,提供了对 Microsoft Office 文件格式...
总结来说,Java读取Word文档页数可以通过两种主要途径:一是直接使用Jacob库操作Word文档;二是先将Word转换为PDF,再使用iTextPDF库读取PDF的页数。这两种方法各有优劣,应根据具体项目需求和环境选择合适的方法。
首先,标题“java读取word文档.pdf”和描述“java读取word文档.pdf”暗示了文章内容可能涉及使用Java语言读取Word文档的技术。 从片段中可以提取到的关键技术点包括: 1. Apache POI库:Apache POI是一个开源的...
### JAVA读取Word、Excel、PowerPoint及PDF文件方法详解 #### 一、概述 在企业级应用开发中,经常需要处理Office文档(如Word、Excel、PowerPoint)以及PDF文件。这些文件格式广泛用于存储数据和信息。本文将详细...
本篇将详细介绍如何使用Java来操作Word和PDF文档,并在其中的图片上生成水印。 首先,我们关注的是Java对Word文档的操作。Apache POI是一个非常流行的Java库,用于读写Microsoft Office格式的文件,包括Word(.docx...
收集的java操作文件的例子,很全面,需要的朋友可以看下
### JAVA读取WORD, EXCEL, POWERPOINT, PDF文件的方法 在日常开发工作中,经常会遇到需要处理各种格式文档的需求,例如Word、Excel、PowerPoint以及PDF等。这些文档可能需要被解析、转换或者提取其中的数据进行...
zip文件解压,直接导入到eclipse里 有两个类 分别支持读取word和pdf转word,pdf转word样式百分百保留,license证书已pj,如需商业用途请购买正版证书
下面将详细讲解这四种文件格式的读取技术及其在Java环境下的实现方法。 1. **Word文件读取** - Java中处理Word文件主要依赖于Apache POI库。Apache POI是一个开源项目,提供API来处理Microsoft Office格式的文件,...
在这个场景中,我们将重点讨论如何使用Java POI读取Word文档并将其内容转换为HTML网页,同时确保图片和公式等复杂元素能够正确显示。 首先,你需要在你的Java项目中引入Apache POI库。可以通过Maven或Gradle来添加...
Aspose.Word提供了详细的API,可以方便地读取Word文档的各个方面。例如,你可以通过以下步骤来读取一个Word文档: 1. 创建`Document`对象:首先,你需要创建一个`Document`实例,传入Word文档的路径作为参数。 2. ...
### Java读取Word、Excel及PDF文档的知识点详解 #### 一、概述 在实际开发过程中,经常需要处理各种格式的文档,如Word、Excel、PDF等。这些文档的读取通常涉及到不同的技术和库。本篇文章将详细介绍如何使用Java...
- **Apache POI**:同样可以反向操作,读取Word文档内容并生成PDF。需要注意的是,Word文档的格式、图片和布局可能在转换过程中有所损失。 - **Aspose.Words for Java**:商业库,提供强大的Word到PDF转换功能,...
1. **读取Word文档**:使用Apache POI的`XWPFDocument`类打开Word文档。 ```java FileInputStream fis = new FileInputStream("path_to_your_word_file.docx"); XWPFDocument document = new XWPFDocument(fis); ``...
【JAVA读取WORD/PDF等】的技术领域主要集中在Java编程语言中对Microsoft Office文档(如Word、Excel、PowerPoint)以及PDF格式文件的处理。在Java中,有多种方法可以实现对这些文件的读取、操作和转换。以下将详细...
- 首先,使用Apache POI读取Word文档,获取其内容(文本、样式、图像等)。 - 然后,使用PDFBox或iText创建一个新的PDF文档,并将从Word中提取的内容写入PDF。 - 或者,如果你选择使用命令行工具,如`unoconv`或`...
在Java编程中,读取PDF、Word和Excel等文件通常涉及到使用特定的库来处理不同格式的数据。以下是对这些操作的详细说明: 1. **读取PDF文件**: Java中,可以使用Apache PDFBox库来读取PDF文件。PDFBox提供了一套...
今天用到java读取PDF和WORD文档的,网上找了大把没有看到jar包,找了别人要的包,分享给用的到的人,1分是强制的。。。