- 浏览: 116725 次
- 性别:
- 来自: 杭州
最新评论
-
张斌梁林:
楼上有高手为啥不说出具体办法呢?还是楼主最好了!!!!
关于豆丁在线文档,百度文库总结 -
bigarden:
LZ分析的很好,学习了
JAVA SSH框架简介 -
s103y:
q8q8q8 写道顶你 兄弟
谢啦,初步使用,感觉还不错
SSO单点登录 -
s103y:
finalljx 写道我最近也在研究这个,我觉得百度很可能是和 ...
关于豆丁在线文档,百度文库总结 -
gaowei52306:
挺好的
ANT简明教程[转载]
1、用jacob.
其实jacob是一个bridage,连接java和com或者win32函数的一个中间件,jacob并不能直接抽取word,excel等文件,需要自己写dll哦,不过已经有为你写好的了,就是jacob的作者一并提供了。
jacob下载:http://www.matrix.org.cn/down_view.asp?id=13
下载了jacob并放到指定的路径之后(dll放到path,jar文件放到classpath),就可以写你自己的抽取程序了,下面是一个例子:
import java.io.File;
import com.jacob.com.*;
import com.jacob.activeX.*;
public class FileExtracter{
public static void main(String[] args) {
ActiveXComponent app = new ActiveXComponent("Word.Application");
String inFile = "c:\test.doc";
String tpFile = "c:\temp.htm";
String otFile = "c:\temp.xml";
boolean flag = false;
try {
app.setProperty("Visible", new Variant(false));
Object docs = app.getProperty("document.").toDispatch();
Object doc = Dispatch.invoke(docs,"Open", Dispatch.Method, new Object[]{
inFile,new Variant(false), new Variant(true)}, new int[1]).toDispatch();
Dispatch.invoke(doc,"SaveAs", Dispatch.Method, new Object[]{
tpFile,new Variant(8)}, new int[1]);
Variant f = new Variant(false);
Dispatch.call(doc, "Close", f);
flag = true;
} catch (Exception e) {
e.printStackTrace();
} finally {
app.invoke("Quit", new Variant[] {});
}
}
}
2、用apache的poi来抽取word,excel
poi是apache的一个项目,不过就算用poi你可能都觉得很烦,不过不要紧,这里提供了更加简单的一个接口给你:
下载经过封装后的poi包:http://www.matrix.org.cn/down_view.asp?id=14
下载之后,放到你的classpath就可以了,下面是如何使用它的一个例子:
import java.io.*;
import org.textmining.text.extraction.WordExtractor;
/**
* <p>Title: pdf extraction</p>
* <p>Description: email:chris@matrix.org.cn</p>
* <p>Copyright: Matrix Copyright (c) 2003</p>
* <p>Company: Matrix.org.cn</p>
* @author chris
* @version 1.0,who use this example pls remain the declare
*/
public class PdfExtractor {
public PdfExtractor() {
}
public static void main(String args[]) throws Exception
{
FileInputStream in = new FileInputStream ("c:\a.doc");
WordExtractor extractor = new WordExtractor();
String str = extractor.extractText(in);
System.out.println("the result length is"+str.length());
System.out.println("the result is"+str);
}
}
3、pdfbox-用来抽取pdf文件
但是pdfbox对中文支持还不好,先下载pdfbox:http://www.matrix.org.cn/down_view.asp?id=12
下面是一个如何使用pdfbox抽取pdf文件的例子:
import org.pdfbox.pdmodel.PDdocument.
import org.pdfbox.pdfparser.PDFParser;
import java.io.*;
import org.pdfbox.util.PDFTextStripper;
import java.util.Date;
/**
* <p>Title: pdf extraction</p>
* <p>Description: email:chris@matrix.org.cn</p>
* <p>Copyright: Matrix Copyright (c) 2003</p>
* <p>Company: Matrix.org.cn</p>
* @author chris
* @version 1.0,who use this example pls remain the declare
*/
public class PdfExtracter{
public PdfExtracter(){
}
public String GetTextFromPdf(String filename) throws Exception
{
String temp=null;
PDdocument.nbsppdfdocument.null;
FileInputStream is=new FileInputStream(filename);
PDFParser parser = new PDFParser( is );
parser.parse();
pdfdocument.nbsp= parser.getPDdocument.);
ByteArrayOutputStream out = new ByteArrayOutputStream();
OutputStreamWriter writer = new OutputStreamWriter( out );
PDFTextStripper stripper = new PDFTextStripper();
stripper.writeText(pdfdocument.getdocument.), writer );
writer.close();
byte[] contents = out.toByteArray();
String ts=new String(contents);
System.out.println("the string length is"+contents.length+"
");
return ts;
}
public static void main(String args[])
{
PdfExtracter pf=new PdfExtracter();
PDdocument.nbsppdfdocument.nbsp= null;
try{
String ts=pf.GetTextFromPdf("c:\a.pdf");
System.out.println(ts);
}
catch(Exception e)
{
e.printStackTrace();
}
}
}
4、抽取支持中文的pdf文件-xpdf
xpdf是一个开源项目,我们可以调用他的本地方法来实现抽取中文pdf文件。
下载xpdf函数包:http://www.matrix.org.cn/down_view.asp?id=15
同时需要下载支持中文的补丁包:http://www.matrix.org.cn/down_view.asp?id=16
按照readme放好中文的patch,就可以开始写调用本地方法的java程序了
下面是一个如何调用的例子:
import java.io.*;
/**
* <p>Title: pdf extraction</p>
* <p>Description: email:chris@matrix.org.cn</p>
* <p>Copyright: Matrix Copyright (c) 2003</p>
* <p>Company: Matrix.org.cn</p>
* @author chris
* @version 1.0,who use this example pls remain the declare
*/
public class PdfWin {
public PdfWin() {
}
public static void main(String args[]) throws Exception
{
String PATH_TO_XPDF="C:\Program Files\xpdf\pdftotext.exe";
String filename="c:\a.pdf";
String[] cmd = new String[] { PATH_TO_XPDF, "-enc", "UTF-8", "-q", filename, "-"};
Process p = Runtime.getRuntime().exec(cmd);
BufferedInputStream bis = new BufferedInputStream(p.getInputStream());
InputStreamReader reader = new InputStreamReader(bis, "UTF-8");
StringWriter out = new StringWriter();
char [] buf = new char[10000];
int len;
while((len = reader.read(buf))>= 0) {
//out.write(buf, 0, len);
System.out.println("the length is"+len);
}
reader.close();
String ts=new String(buf);
System.out.println("the str is"+ts);
}
}
发表评论
-
jsp和servlet的区别
2011-07-22 14:15 1276上次被别人问到这个问 ... -
ANT简明教程[转载]
2011-07-11 10:56 1208一、ant关键元素 1. project元素 ... -
ant copy命令
2011-07-08 10:31 1365Ant真是太方便了,以前 ... -
Java各种集合框架使用
2011-07-06 09:35 1048前言: 本文是对Java集合框架做了一个概括性的解说 ... -
java中四种操作xml方式
2011-07-06 09:34 7281. 介绍 1)DOM(JAXP ... -
web.xml配置详解
2011-07-06 09:32 6591 定义头和根元素部署描述符文件就像所有XML文件一样,必 ... -
MVC处理过程
2011-07-06 09:31 957MVC处理过程: 1. 控制器接受用户请求,然后决 ... -
Idap AD 验证用户名和密码
2011-07-06 09:29 3951import java.util.HashMap; im ... -
Hibernate 包介绍
2011-07-06 09:19 791Hibernate一共包括了23个jar包,令人眼花缭乱 ... -
doGet()和doPost()的区别
2011-07-06 09:17 840get只有一个流,参数附加在url后,地址行显示要传送 ... -
java,hibernate,标准sql数据类型之间的对应表
2011-07-06 09:16 762Hibernate API简介 其接口分为以下 ... -
用正则表达式限制文本框的输入
2011-07-06 09:14 9971.文本框只能输入数字代码(小数点也不能输入) ... -
进程和并发
2011-07-05 16:04 717一.为何需要多进程(或者多线程),为何需要并发? 这个问题或 ... -
java浮点数
2011-06-15 17:03 785虽然几乎每种处理器和编程语言都支持浮点运算,但大 ... -
排序算法
2011-05-31 16:42 1011十四、排序(Sort) 这可能是最有趣的一节。排序的考题, ... -
Hibernate缓存机制
2011-03-31 14:39 832Hibernate缓存机制 缓 ... -
SSO单点登录
2011-03-08 11:22 1455一、教程前言 教程目的:从头到尾细细道来单点登录服务器及客 ... -
JS数据库(SQL)操作小例
2011-03-03 11:38 1112JS数据库(SQL)操作小例 IT 2010-03-15 1 ... -
session与cookie的区别?
2011-02-14 10:26 832session与cookie的区别? 我所知道的有以下区 ... -
HashMap与Hashtable的区别
2011-02-14 08:46 918HashMap与Hashtable的区别 HashTabl ...
相关推荐
在IT行业中,尤其是在文本处理和数据提取领域,Java是一种广泛使用的编程语言。当我们需要从Word文档和PDF文件中抽取信息时,Java提供了多种强大的工具和库。以下将详细介绍四种常用的Java武器,帮助开发者高效地...
### Java抽取Word及PDF编程 #### 一、引言 在日常工作中,处理Word和PDF文档的需求非常普遍,尤其是在企业级应用中。无论是自动化办公流程还是数据处理任务,能够有效地从这些格式的文档中提取信息变得至关重要。...
本篇文章将探讨四种不同的方法来实现Java抽取Word和PDF格式文件。 1. 使用JACOB库 JACOB(Java COM Bridge)是一个允许Java调用COM组件的库。在Java中操作Word和PDF文件时,JACOB通过桥接Java和COM接口来实现。...
本文将介绍四种主要的Java库,它们可以帮助开发者有效地抽取Word和PDF文档的内容。 首先,我们来看JACOB(Java COM Bridge)。JACOB是一个Java库,用于连接Java和COM组件,允许Java程序调用Windows API和Microsoft ...
以上内容是关于在Java中抽取Word文档数据的基本方法和关键知识点。通过这些技术,你可以根据实际需求实现文档内容的提取、分析和处理。在具体应用中,可能还需要结合其他技术,如正则表达式进行文本清洗,或者使用...
Aspose是一家提供多种文件处理组件的公司,其Aspose.Words for Java库允许开发者在Java应用程序中处理Microsoft Word文档,包括转换为其他格式,如PDF。 代码中的`getLicense()`方法用于设置Aspose.Words的许可证。...
4. 文本提取:从PDF中抽取文本,用于索引、搜索或分析。 5. 图形操作:绘制2D图形,创建复杂的PDF页面结构。 6. PDF签名:添加数字签名,验证文档完整性和来源。 7. 与其他格式互转:支持PDF与XML、TXT、图片等格式...
基于深度学习的简历信息实体抽取方法.pdf 该论文提出了一种基于深度学习的简历信息实体抽取方法,旨在解决传统的简历信 息实体抽取方法泛化能力差、难以维护的问题。该方法通过将非结构化的简历文本信 息处理为词...
Java 语言提供了多种方式来处理和读取不同的文件格式,如Word、Excel、PowerPoint以及PDF。以下将详细讲解如何使用各种库和工具来实现这些功能。 1. **读取Word文档** - 使用 Apache POI 库中的 `HWPFDocument` 类...
要提取文本,可以使用`PDFTextStripper`类,它可以从PDF中抽取文本。 总结来说,处理这些文件格式的Java库提供了丰富的API,使得开发者可以方便地读取和操作各种文档内容。在实际应用中,需要注意选择适合的库版本...
在现代的信息化环境中,非结构化数据如Word文档、PDF和TXT文本的处理变得日益重要。Spring Boot结合Elasticsearch的解决方案为这类问题提供了一种高效且灵活的途径。本教程将详细介绍如何利用Spring Boot集成Elastic...
Java开发语言是全球范围内广泛应用的编程语言,尤其在企业级应用和服务器端开发中占据主导地位。本资料"java开发知识库管理系统.zip"提供了一个完整的源码参考,旨在帮助开发者深入理解Java在构建知识库管理系统中的...
3. **编程接口(APIs)**:对于开发者,可以使用各种编程语言的库来实现图片提取,如Python的PyPDF2和PDFMiner,Java的PDFBox,JavaScript的PDF.js等。这些库提供了API,允许开发者编写脚本来自动化处理大量PDF文档...
PDF文档解密/解除限制/提取文本图片/转Word 全能工具超好用 PDF文档解密/解除限制/提取文本图片/转Word 全能工具超好用
* Alt+Shift+M:抽取方法 * Alt+Shift+C:修改函数结构 * Alt+Shift+L:抽取本地变量 * Alt+Shift+F:把 Class 中的 local 变量变为 field 变量 * Alt+Shift+I:合并变量 * Alt+Shift+V:移动函数和变量 * Alt+Shift...
1. **Barcode4j**: 由Java语言编写而成,可以灵活地生成条形码。 - **特性**: - 支持多种输出格式:SVG、EPS、位图和Java2D。 - 支持多种条形码类型:DataMatrix、PDF417等。 - **示例代码**: ```java import ...
github-java-api 是 Github 网站 API 的 Java 语言版本。 java缓存工具 SimpleCache SimpleCache 是一个简单易用的java缓存工具,用来简化缓存代码的编写,让你摆脱单调乏味的重复工作!1. 完全透明的缓存支持,对...
github-java-api 是 Github 网站 API 的 Java 语言版本。 java缓存工具 SimpleCache SimpleCache 是一个简单易用的java缓存工具,用来简化缓存代码的编写,让你摆脱单调乏味的重复工作!1. 完全透明的缓存支持,对...
github-java-api 是 Github 网站 API 的 Java 语言版本。 java缓存工具 SimpleCache SimpleCache 是一个简单易用的java缓存工具,用来简化缓存代码的编写,让你摆脱单调乏味的重复工作!1. 完全透明的缓存支持,对...
github-java-api 是 Github 网站 API 的 Java 语言版本。 java缓存工具 SimpleCache SimpleCache 是一个简单易用的java缓存工具,用来简化缓存代码的编写,让你摆脱单调乏味的重复工作!1. 完全透明的缓存支持,对...