- 浏览: 142777 次
- 性别:
- 来自: 上海
文章分类
最新评论
-
ling凌yue月:
Yes,it's good!
JavaScript实现ReplaceAll 方法 -
lj1214388:
请问楼主,我导入了struts-jquery-plugin 的 ...
Jquery Ui 日期控件
import java.io.ByteArrayOutputStream;
import java.io.File;
import java.io.OutputStreamWriter;
import org.pdfbox.pdmodel.PDDocument;
import org.pdfbox.util.PDFTextStripper;
public class Pdftext {
public static String getTxt(File f) throws Exception {
String ts = "";
try {
String temp = "";
PDDocument pdfdocument = PDDocument.load(f);
ByteArrayOutputStream out = new ByteArrayOutputStream();
OutputStreamWriter writer = new OutputStreamWriter(out);
PDFTextStripper stripper = new PDFTextStripper();
stripper.writeText(pdfdocument.getDocument(), writer);
pdfdocument.close();
out.close();
writer.close();
byte[] contents = out.toByteArray();
ts = new String(contents);
System.out.println(f.getName() + "length is:" + contents.length
+ "\n");
} catch (Exception e) {
e.printStackTrace();
} finally {
return ts;
}
}
public static void main(String[] args) throws Exception {
File file = new File("d:/hello.pdf");
System.out.println(Pdftext.getTxt(file));
/*
File file = new File("d:/hello.pdf");
FileInputStream fis = new FileInputStream(file);
BufferedInputStream bis = new BufferedInputStream(fis);
PDFParser parser = new PDFParser(bis);
//
parser.parse();
PDDocument document = parser.getPDDocument();
PDFTextStripper stripper = new PDFTextStripper();
String s = stripper.getText(document);
// ////////////
document.close();// /////////
bis.close();
// //////////
File ff = new File("d:/hello.pdf");
ff.createNewFile();
if (ff.exists())
{
ff.createNewFile();
}
FileWriter fw = new FileWriter(ff);
BufferedWriter bw = new BufferedWriter(fw);
bw.write(s);
bw.close();*/
}
}
- ParsePDF.rar (3.1 MB)
- 下载次数: 184
发表评论
-
Goole 地图 根据经纬度获取地址
2012-12-10 22:40 827package com.jueyue; import jav ... -
百度地图根据地址获取经纬度
2012-12-10 21:31 8434package com.jueyue; import jav ... -
Java对象的序列化和反序列化实践
2012-12-10 19:52 647当两个进程在进行 ... -
HttpClient 实现访问 HTTPS
2012-11-08 11:24 0避免HttpClient的”javax.net.ssl.SSL ... -
实现一个线程池
2012-05-17 22:40 797public class SjgxrwStartQuest e ... -
通过 HttpClient 下载 文件
2011-10-27 13:49 1009需要有的Jar; * commons-httpclie ... -
Java 文件拷贝
2011-10-26 18:26 783public static void saveFiles(S ... -
生成jar文件的方法
2011-10-13 01:20 716JAR --Java Archive File,顾 ... -
文件下载
2011-08-30 13:58 711public ModelAndView downloadFil ... -
根据Map 动态生成一个类 动态打印
2011-07-15 23:28 907import java.lang.reflect.Field; ... -
Java实现类排序
2011-07-12 16:07 896用Java实现类排序 如下步骤: 1 待排序的类实现 ... -
web service(axis)例子HelloService步骤说明
2011-07-12 11:36 9581.将axis1.1目录下webapps下的axis包拷贝到t ... -
解决一台机器同时运行多个Tomcat服务
2011-07-12 10:07 881如果不加任何修改,在一台服务器上同时运行两个Tomcat服务显 ... -
Java 解析 Word Word 中的表格
2011-07-04 22:15 4374import java.io.File; import ... -
Java 页面表格导出Word
2011-06-21 10:28 1765StringBuffer sb = new StringBuf ... -
Java 页面表格导出Word
2011-06-21 10:25 1324StringBuffer sb = new StringBuf ... -
利用lucene对整个数据库建立索引(lucene,SQL,JDBC)(
2011-06-16 23:38 1065导言: 如果要对整个数据库做精确查询或模糊查询,我们怎么才可 ... -
Java Mail 收发邮件
2011-06-15 22:24 855import javax.mail.Address;impor ... -
Java对象序列化
2011-03-09 22:47 721被序列化的类要implements Serializab ... -
JavaScript 为Select添加节点
2011-03-01 09:53 972function addOption(){ var ...
相关推荐
Apache PDFBox是一个开源Java库,支持PDF文档的开发和转换。 我们可以使用PDFBox开发可以创建,转换和操作PDF文档的Java程序。PDFBox的主要功能: Extract Text – 使用PDFBox,您可以从PDF文件中提取Unicode文本。 ...
本资源包含PDFBox的Java解析PDF文档所需的jar包,源代码,帮助文档以及示例(example),对于学习和使用PDFBox进行PDF操作具有极大的帮助。 首先,让我们深入了解一下PDFBox的主要功能: 1. **读取PDF文档**:...
3. 使用PDFBox解析PDF 要解析PDF文档,首先需要加载文档: ```java PDDocument document = PDDocument.load(new File("123.pdf")); ``` 然后可以使用PDFTextStripper来提取文本: ```java PDFTextStripper ...
最近有个项目是要求将PDF版的电子发票,解析成文本格式,要求各个名称都对应,刚开始用的是PDFTextStripper.getText(),发现不能准确的抓到自己想要的数据,后来想了个办法,使用Rectangle,画多个矩形,精准定位,...
pdf文档的内容都是坐标定位的,文档内容主要包含文本、图片、线条;需要用到pdfbox和pdf2dom两个依赖包
在Java编程环境中,读取PDF文件中的内容是一个常见的任务,特别是在处理文档自动化或者数据分析时。PDF(Portable Document Format)是一种跨平台的文件格式,用于精确地保留文档的格式和内容。下面将详细介绍如何...
Java解析PDF主要依赖于第三方库,如Apache PDFBox、iText、PDFRenderer等。这里我们将重点介绍Apache PDFBox,它是一个开源的Java库,提供了丰富的API来读取、创建、编辑PDF文档。 1. **Apache PDFBox简介** ...
接下来,我们将探讨如何使用Java解析PDF文件为TXT文本。同样,可以使用Apache PDFBox库来实现这一功能。以下是一个基本的PDF解析示例: 1. 打开PDF文档:使用`PDDocument`加载PDF文件。 ```java PDDocument ...
PDFBox是Apache软件基金会的一个...总之,PDFBox是Java开发中处理PDF文档的强大工具,能够有效地帮助你解析PDF中的图片和文字,以及其他各种PDF元素。通过熟练掌握PDFBox的API,你可以构建出功能丰富的PDF处理应用。
使用PDFBox读取PDF数据的基本步骤如下: ```java import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.text.PDFTextStripper; public class PdfBoxExample { public static void main(String...
在这个“pdfbox读取Pdf”的示例中,我们将深入探讨如何使用PDFBox库读取PDF文件中的文字、数字和英文。 首先,要使用PDFBox读取PDF文档,你需要在项目中引入PDFBox的依赖。如果你使用的是Maven,可以在pom.xml文件...
PDFBox是由Apache软件基金会开发的Java库,其主要功能包括PDF文档的解析、生成、修改和显示。在PDFBox 2.0.8版本中,包含了对PDF文档处理的多种优化和增强,使得开发者能够更高效地处理PDF任务。 要使用PDFBox打印...
在压缩包文件"Demo"中,可能包含了一个简单的Java项目,演示了如何结合使用jsoup抓取网页上的PDF链接,并用PDFBox读取下载的PDF内容。项目可能分为两个部分:一个用于下载PDF,另一个用于解析PDF。 总结,这个实例...
利用pdfbox读取pdf内容 ,对于大部分未加过密或不是用图片生成的pdf能读出来. 引入pdfbox-app-2.0.12, IKVM.Runtime, IKVM.OpenJDK.Util, IKVM.OpenJKD.Text IKVM.OpenJKD.SwingAWT IKVM.OpenJKD.Core 后运行按照...
在标题中提到的"pdfbox读取pdf内容",我们将深入探讨如何使用PDFBox来实现这一功能。 首先,我们需要了解PDFBox的基本结构。PDFBox主要由两个核心模块组成,它们是`pdfbox-1.8.2.jar`和`fontbox-1.8.2.jar`。`...
总结来说,Java解析PDF文件的关键在于利用PDFBox和FontBox这两个库。PDFBox提供了一套强大的工具集,用于读取、修改和创建PDF文档,而FontBox则专注于处理PDF中的字体,确保文本的正确呈现。通过熟练掌握这两个库,...
这个库允许开发者读取PDF文件内容,包括文本、图像、链接等,还能编辑PDF元数据,添加或删除页面,甚至创建新的PDF文档。例如,你可以使用`PDFTextStripper`类来提取PDF中的文本。 2. **FontBox**: `fontbox-...
首先,Java解析PDF文件通常需要依赖特定的库,例如Apache PDFBox。在这个压缩包中,我们找到了PDFBox-0.6.6.jar,这是Apache PDFBox的一个旧版本,它提供了读取、写入和操作PDF文件的功能。PDFBox库包含了一系列的...