package document;
import interfaces.ICommon;
import java.text.SimpleDateFormat;
import java.util.Date;
import org.pdfbox.pdmodel.PDDocument;
import org.pdfbox.util.PDFTextStripper;
import common.AddTxt;
/**
* 将pdf中的内容复制到txt中
*
* @author DanielCooger <a href="mailto:tangjunfeng52099@gmail.com">daniel</a>
*/
public class Pdf implements ICommon{
// 新建文件夹路径
private String path = "d:\\doc";
private String date = new SimpleDateFormat("yyyyMMddHHmmss")
.format(new Date());
// 新建的txt文件路径
private String pdf = "d:\\doc\\PDF" + date + ".txt";
// 内存中存储的PDF Document
private PDDocument document = null;
// 是否排序
private boolean sort = false;
// 开始提取页数
private int startPage = 1;
// 结束提取页数
private int endPage = Integer.MAX_VALUE;
/**
*根据输入的源文件路径得到pdf文件中的内容 file 参数为源文件pdf路径
*/
public boolean readText(String file) throws Exception {
// 注意参数已不是以前版本中的URL.而是File。
document = PDDocument.load(file);
// PDFTextStripper来提取文本
PDFTextStripper stripper = null;
stripper = new PDFTextStripper();
// 设置是否排序
stripper.setSortByPosition(sort);
// 设置起始页
stripper.setStartPage(startPage);
// 设置结束页
stripper.setEndPage(endPage);
// 调用PDFTextStripper的getText提取pdf中的文本
try {
if (new AddTxt()
.addtxt(path, pdf, stripper.getText(document), true)) {
System.out.println("ok");
return true;
} else {
return false;
}
} catch (Exception e) {
throw new Exception("此PDF文件无法解析");
}
}
}
分享到:
相关推荐
本文将深入探讨如何使用Java读取PDF文件的属性,如作者、标题等元数据,以及相关的知识点。 ### 一、Java读取PDF文件属性的技术背景 在Java中读取PDF文件属性主要依赖于开源库PDFBox。PDFBox是一个用于处理PDF文档...
Java读取PDF并显示在浏览器是一项常见的技术需求,特别是在Web应用中,用户可能需要预览或下载PDF文档。为了实现这一功能,我们需要了解几个关键知识点: 1. **PDF阅读器集成**:描述中提到的前提是本地电脑需要...
今天用到java读取PDF和WORD文档的,网上找了大把没有看到jar包,找了别人要的包,分享给用的到的人,1分是强制的。。。
在Java编程环境中,读取PDF文件是一项常见的任务,特别是在开发桌面应用或需要处理PDF文档内容时。本篇文章将深入探讨如何使用Java来读取PDF文件,并将其内容展示在一个由JFrame和JPanel构建的GUI窗口中。 首先,...
本文将深入探讨如何使用Java读取PDF文件,查找特定文字的位置,并在此基础上添加悬浮图片,以实现签字或盖章的功能。首先,我们需要理解PDF文档的结构以及如何在Java中操作PDF。 PDF(Portable Document Format)是...
在Java编程环境中,读取PDF文件中的内容是一个常见的任务,特别是在处理文档自动化或者数据分析时。PDF(Portable Document Format)是一种跨平台的文件格式,用于精确地保留文档的格式和内容。下面将详细介绍如何...
总结起来,Java读取PDF涉及的主要知识点有: 1. 引入第三方库(如iText或Apache PDFBox)。 2. 使用库提供的API读取PDF内容,如`PdfReader`和`PdfTextExtractor`(iText),或`PDDocument`和`PDFTextStripper`...
### Java读取PDF文件中的数据 #### 知识点概览 本文将详细介绍如何使用Java语言来读取PDF文件中的文本内容。此方法简洁高效,适用于处理大量的PDF文档。主要涉及的技术栈包括Java编程基础、PDFBox库的使用以及文件I...
本篇文章将详细介绍如何使用Java读取PDF中的数据,主要围绕`PdfReader`这个概念进行讲解。 首先,`PdfReader`通常指的是一个类或库,它允许程序员读取PDF文件的内容。在Java中,我们可以使用如iText、PDFBox、...
pdf文档的内容都是坐标定位的,文档内容主要包含文本、图片、线条;需要用到pdfbox和pdf2dom两个依赖包
在本文中,我们将探讨如何使用轻量级的Java库来读取PDF文件内容,以实现“java读取pdf(轻量级)”的目标。 首先,一个常见的轻量级Java PDF库是iText。iText是一个开源库,它提供了处理PDF文档的各种功能,包括...
在这个场景中,"JAVA读取PDF中的文件内容需要的jar"指的是这些库的Java Archive (JAR) 文件,它们包含了处理PDF文件所需的类和方法。 Apache PDFBox是Apache软件基金会的一个开源项目,提供了丰富的API来读取、写入...
总结起来,Java读取PDF文件的关键在于使用合适的库,如Apache PDFBox及其依赖的FontBox。这两个库提供了全面的API和工具,涵盖了从基本的PDF解析到复杂的字体处理,是Java程序员处理PDF文档的强大武器。在使用过程中...
本篇文章将详细介绍如何使用Java来读取PDF文件的内容,以及涉及到的相关技术。 首先,Java中读取PDF文件的核心库是Apache PDFBox和iText。Apache PDFBox是一个开源项目,提供了丰富的API来处理PDF文档,包括读取、...
Java语言在处理PDF文档时,通常需要依赖特定的库或插件来实现各种功能,比如读取、解析、编辑PDF内容。"fontbox-2.0.9"就是这样一个插件,它与"pdfbox"一起工作,为Java提供强大的PDF处理能力。FontBox是PDFBox的一...
在Java编程环境中,读取PDF文件通常涉及到第三方库的支持,因为Java的标准库并不直接提供PDF操作功能。这里我们将讨论五个常用的Java PDF处理库,以及如何使用它们来读取PDF文件。这五个jar包分别是: 1. **Apache ...
Java 读取 PDF 中的文本和图片的方法 本文将介绍通过 Java 程序来读取 PDF 文档中的文本和图片的方法。分别调用方法 extractText() 和 extractImages() 来读取,需要的朋友可以参考下。 读取 PDF 文本 在读取 PDF...