- 浏览: 1501359 次
- 性别:
- 来自: 深圳
文章分类
- 全部博客 (798)
- struts2 (42)
- servlet (20)
- quartz (4)
- jquery & ajax (24)
- tomcat (5)
- javascript (15)
- struts1 (8)
- 搜索关键字及链接 (3)
- fckeditor (3)
- Apache (5)
- spring (22)
- linux (3)
- 企业应用 (8)
- 综合应用 (13)
- 服务器 (2)
- 数据库 (85)
- 性能调优 (21)
- 网络应用 (15)
- 缓存技术 (8)
- 设计模式 (39)
- 面试题 (7)
- 程序人生&前辈程序员 (29)
- java基础 (59)
- hibernate (75)
- log4j (4)
- http (11)
- 架构设计 (28)
- 网页设计 (12)
- java邮件 (4)
- 相关工具 (11)
- ognl (7)
- 工作笔记 (18)
- 知识面扩展 (12)
- oracle异常 (1)
- 正则表达式 (2)
- java异常 (5)
- 项目实践&管理 (1)
- 专业术语 (11)
- 网站参考 (1)
- 论坛话题 (2)
- web应用 (11)
- cxf&webservice (22)
- freemarker (3)
- 开源项目 (9)
- eos (1)
- ibatis (6)
- 自定义标签 (3)
- jsp (3)
- 内部非公开文档(注意:保存为草稿) (0)
- 国内外知名企业 (2)
- 网店 (3)
- 分页 (1)
- 消费者习惯 (2)
- 每日关注 (1)
- 商业信息 (18)
- 关注商业网站 (1)
- 生活常识 (3)
- 新闻 (2)
- xml&JSON (5)
- solaris (1)
- apache.common (3)
- BLOB/CLOB (1)
- lucene (2)
- JMS (14)
- 社会进程 (8)
- SSH扩展 (2)
- 消费心理 (1)
- 珠三角 (1)
- 设计文档 (1)
- XWork&webwork (1)
- 软件工程 (3)
- 数据库及链接 (1)
- RMI (2)
- 国内外知名企业&人物 (1)
最新评论
-
司c马:
简介易懂、
OutputStream和InputStream的区别 -
在世界的中心呼喚愛:
解决我的问题
Java获取客户端的真实IP地址 -
bo_hai:
都是些基本的概念呀!
SSO -
tian_4238:
哥们,你也是搞水利这块的吧。
巧用SQLQuery中的addScalar -
loveEVERYday:
java.util.Date、java.sql.Date、java.sql.Time、java.sql.Timestamp小结
因为在apache官网上下载PDFBOX1.2jar包时,数据文件有丢失,未成功下载。所以用旧版本PDFBox-0.7.3的。
下载PDFBox-0.7.3后,可以找到需要的两个jar包,在不同的文件夹里。
1、准备两个jar包 PDFBox-0.7.3.jar,FontBox-0.1.0-dev.jar
2、
import org.pdfbox.pdmodel.PDDocument;
import org.pdfbox.pdfparser.PDFParser;
import java.io.*;
import org.pdfbox.util.PDFTextStripper;
import java.util.Date;
public class PdfExtracter {
public PdfExtracter() {
}
public String GetTextFromPdf(String filename) throws Exception {
String temp = null;
PDDocument pdfdocument = null;
FileInputStream is = new FileInputStream(filename);
PDFParser parser = new PDFParser(is);
parser.parse();
pdfdocument = parser.getPDDocument();
ByteArrayOutputStream out = new ByteArrayOutputStream();
OutputStreamWriter writer = new OutputStreamWriter(out);
PDFTextStripper stripper = new PDFTextStripper();
stripper.writeText(pdfdocument.getDocument(), writer);
writer.close();
byte[] contents = out.toByteArray();
String ts = new String(contents);
System.out.println("the string length is" + contents.length + "\n");
return ts;
}
public static void main(String args[]) {
PdfExtracter pf = new PdfExtracter();
PDDocument pdfDocument = null;
try {
String ts = pf.GetTextFromPdf("d:\\test.pdf");
System.out.println(ts);
} catch (Exception e) {
e.printStackTrace();
}
}
}
3、在D盘准备一份test.pdf文件
4、运行以上代码
发表评论
-
ISO-8859_1统一编码 java
2011-08-19 11:07 2030Java中文问题一直困扰着很多初学者,如果了解了Java系统的 ... -
UTF-8 GBK UTF8 GB2312
2011-08-19 10:46 1925UTF-8:Unicode TransformationFor ... -
Properties 类读取配置文件
2011-08-17 22:37 14621、使用java.util.Properties类的load( ... -
Java编程之四大名著
2011-08-06 10:07 1460中文第四版 http://download.csdn.n ... -
JDK5.0 新特性
2011-07-28 20:02 13871.AutoBoxing 原来int是非 ... -
JDK6的新特性
2011-07-28 19:57 1784JDK6的新特性 JDK6的新特性之一_Desktop类和Sy ... -
线程同步
2011-07-25 11:34 1278作者 : buaawhl http://www.iteye.c ... -
ZipInputStream类
2011-07-22 11:33 18770《Java开发实战经典》第12章Java IO,Java ... -
String、StringBuffer和StringBuilder的区别
2011-07-14 15:04 1368String是不可变的,StringBuffer是可变的;St ... -
精通JAVA核心技术
2011-07-11 11:31 1285http://www.2cto.com/ebook/20100 ... -
Java多线程sleep(),join(),interrupt(),wait(),notify()
2011-07-06 22:51 4909浅析 Java Thread.join() 一、在研究j ... -
FileInputStream/FileOutputStream的应用
2011-07-06 15:06 1410这是一对继承于InputStream和OutputStream ... -
Java基础之理解JNI原理
2011-07-05 14:55 1313JNI是JAVA标准平台中的一个重要功能,它弥补了JAVA ... -
面向对象和面向过程的区别
2011-07-04 09:52 1411面向过程就是分析出解 ... -
Java参数传值还是传引用
2011-07-03 20:52 3637参数是按值而不是按 ... -
JAVA排序汇总
2011-06-29 18:07 1486package com.softeem.jbs.lesson4 ... -
Java流操作,InputStream、OutputStream及子类FileInputStream、FileOutputStream;BufferedInpu
2011-06-27 18:09 19255Java将数据于目的地及来 ... -
线程综合文章
2011-06-27 10:48 1116http://lavasoft.blog.51cto.com/ ... -
由Java中的Set,List,Map引出的排序技巧
2011-06-24 14:18 2377一。关于概念: ... -
Date、String、Timestamp之间的转换
2011-03-20 16:59 2419public static Timestamp pars ...
相关推荐
在本示例中,我们将专注于如何使用PDFBox读取PDF的内容。 首先,你需要在你的项目中引入PDFBox库。如果你使用的是Maven,可以在pom.xml文件中添加以下依赖: ```xml <groupId>org.apache.pdfbox <artifactId>...
它可以创建一个新PDF文档,操作现有PDF文档并提取文档中的内容。 它具有以下特性: 1.将一个PDF文档转换输出为一个文本文件。 2.可以从文本文件创建一个PDF文档。 3.加密/解密PDF文档。 4.向已有PDF文档中追加内容。 ...
本篇文章将详细介绍如何在C#环境中利用PDFBox库来读取PDF文件的内容,并将其转换为TXT格式进行保存。 首先,我们需要在C#项目中引入PDFBox的相关依赖。由于PDFBox是用Java编写的,所以我们需要使用 IKVM.NET 这个...
Extract Text – 使用PDFBox,您可以从PDF文件中提取Unicode文本。 Split & Merge – 使用PDFBox,您可以将单个PDF文件分成多个文件,并将它们合并为一个文件。 Fill Forms – 使用PDFBox,您可以在文档中填写表单...
在这个“pdfbox读取Pdf”的示例中,我们将深入探讨如何使用PDFBox库读取PDF文件中的文字、数字和英文。 首先,要使用PDFBox读取PDF文档,你需要在项目中引入PDFBox的依赖。如果你使用的是Maven,可以在pom.xml文件...
在标题中提到的"pdfbox读取pdf内容",我们将深入探讨如何使用PDFBox来实现这一功能。 首先,我们需要了解PDFBox的基本结构。PDFBox主要由两个核心模块组成,它们是`pdfbox-1.8.2.jar`和`fontbox-1.8.2.jar`。`...
下面我们将深入探讨如何使用C#和PDFBox的IKVM版本来读取PDF文件: 1. **安装IKVM**: 首先,你需要获取PDFBox的Java库,并且下载IKVM的.NET版本。将IKVM的dll文件添加到你的C#项目引用中,同时也要包含PDFBox的Java...
下面将详细介绍如何使用Java来读取PDF文件中的文本内容。 首先,我们需要一个库来处理PDF文件。Apache PDFBox是一个开源的Java库,它提供了读取、创建、修改PDF文件的功能。要使用PDFBox,首先要在项目中引入其依赖...
通过这个例子,我们可以看到PDFBox库在处理PDF文档时的强大功能,它不仅可以用来读取文本,还可以将复杂的页面布局和图形转换为高质量的图像,这对于数据可视化、文档存档或其他需要将PDF内容提取出来的需求非常有用...
pdfbox 提取 pdf 中 文字和图片 并 可转 html 分2个文件,一个专门提取文本,内容可转为html,另一个文件专门用来提取图片,大家可自行整合为一个文件。使用pdfbox最新提取图片的方法。
在这个场景中,我们使用的PDFBox版本是2.0.8,它是一个强大的工具,能够帮助开发者读取、创建、编辑PDF文档,并且提供了打印功能。 PDFBox是由Apache软件基金会开发的Java库,其主要功能包括PDF文档的解析、生成、...
本篇文章将深入探讨如何使用Java来读取PDF文件,并将其内容展示在一个由JFrame和JPanel构建的GUI窗口中。 首先,我们需要引入一个能够处理PDF的库。Apache PDFBox是一个广泛使用的开源Java库,它可以方便地读取、...
通过`PDDocument.load()`方法,我们可以加载PDF文件。然后,利用`PDPageTree`可以获取到PDF中的所有页面。每个`PDPage`对象都可能包含多个`PDStream`或`PDImageXObject`,这些对象代表了页面上的图像。使用`PDPage....
使用Apache PDFBox读取PDF文件内容的基本步骤如下: 1. 引入PDFBox依赖:在项目中添加Apache PDFBox的依赖库,例如在Maven项目中,可以在pom.xml文件中添加以下依赖: ```xml <groupId>org.apache.pdfbox ...
在这段代码中,`PDDocument.load`方法用于加载PDF文件,`PDFTextStripper`类用于提取文本,`getText`方法执行实际的提取操作,最后`document.close()`确保文件被正确关闭。 7. **处理中文字符**:PDFBox默认可能...
在IT领域,特别是Java编程中,读取PDF文件的元数据是一项常见的需求,尤其是在文档管理、内容管理系统或任何需要处理大量文档的应用场景中。本文将深入探讨如何使用Java读取PDF文件的属性,如作者、标题等元数据,...
1. **初始化PDFBox**: 加载PDF文档,这可以通过`PDDocument.load()`方法实现,传入PDF文件的路径。 2. **提取文本**: 使用`PDFTextStripper`类,调用`processDocument()`方法来提取PDF中的所有文本。 3. **保存文本*...
开源PdfSharp提取读取PDF文档里text内容方法
在C#中,我们可以利用第三方库如iTextSharp、PDFium、PDFBox等来读取PDF文件。这些库提供了丰富的API,可以实现PDF的解析、内容提取、页面操作等功能。其中,PDFium是由Chromium项目开源的一个PDF阅读器引擎,它在...
PDFsharp提供了一个名为`PdfReader`的类来读取PDF文件,并通过`PdfPageContentStream`获取文本。例如,以下代码片段展示了如何读取PDF中的文本: ```csharp using PDFsharp.PDF; PDFDocument document = new ...