`
tang5324110
  • 浏览: 24960 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

java读取pdf

阅读更多

package document;

import interfaces.ICommon;

import java.text.SimpleDateFormat;
import java.util.Date;

import org.pdfbox.pdmodel.PDDocument;
import org.pdfbox.util.PDFTextStripper;

import common.AddTxt;

/**
 * 将pdf中的内容复制到txt中
 *
 * @author DanielCooger <a href="mailto:tangjunfeng52099@gmail.com">daniel</a>
 */

public class Pdf implements ICommon{

 // 新建文件夹路径
 private String path = "d:\\doc";
 private String date = new SimpleDateFormat("yyyyMMddHHmmss")
   .format(new Date());
 // 新建的txt文件路径
 private String pdf = "d:\\doc\\PDF" + date + ".txt";

 // 内存中存储的PDF Document
 private PDDocument document = null;
 // 是否排序
 private boolean sort = false;
 // 开始提取页数
 private int startPage = 1;
 // 结束提取页数
 private int endPage = Integer.MAX_VALUE;

 /**
  *根据输入的源文件路径得到pdf文件中的内容 file 参数为源文件pdf路径
  */
 public boolean readText(String file) throws Exception {
  // 注意参数已不是以前版本中的URL.而是File。
  document = PDDocument.load(file);
  // PDFTextStripper来提取文本
  PDFTextStripper stripper = null;
  stripper = new PDFTextStripper();
  // 设置是否排序
  stripper.setSortByPosition(sort);
  // 设置起始页
  stripper.setStartPage(startPage);
  // 设置结束页
  stripper.setEndPage(endPage);
  // 调用PDFTextStripper的getText提取pdf中的文本
  try {
   if (new AddTxt()
     .addtxt(path, pdf, stripper.getText(document), true)) {
    System.out.println("ok");
    return true;
   } else {
    return false;
   }
  } catch (Exception e) {
   throw new Exception("此PDF文件无法解析");
  }
 }

}

分享到:
评论

相关推荐

    java读取pdf文件属性

    本文将深入探讨如何使用Java读取PDF文件的属性,如作者、标题等元数据,以及相关的知识点。 ### 一、Java读取PDF文件属性的技术背景 在Java中读取PDF文件属性主要依赖于开源库PDFBox。PDFBox是一个用于处理PDF文档...

    java读取PDF显示于浏览器

    Java读取PDF并显示在浏览器是一项常见的技术需求,特别是在Web应用中,用户可能需要预览或下载PDF文档。为了实现这一功能,我们需要了解几个关键知识点: 1. **PDF阅读器集成**:描述中提到的前提是本地电脑需要...

    java读取PDF所需要的包(pdfbox.jar)

    今天用到java读取PDF和WORD文档的,网上找了大把没有看到jar包,找了别人要的包,分享给用的到的人,1分是强制的。。。

    Java 读取PDF文件

    在Java编程环境中,读取PDF文件是一项常见的任务,特别是在开发桌面应用或需要处理PDF文档内容时。本篇文章将深入探讨如何使用Java来读取PDF文件,并将其内容展示在一个由JFrame和JPanel构建的GUI窗口中。 首先,...

    Java读取PDF查找指定文字位置,并添加悬浮图片(文档签字/盖章)

    本文将深入探讨如何使用Java读取PDF文件,查找特定文字的位置,并在此基础上添加悬浮图片,以实现签字或盖章的功能。首先,我们需要理解PDF文档的结构以及如何在Java中操作PDF。 PDF(Portable Document Format)是...

    java 读取PDF文件中的内容

    在Java编程环境中,读取PDF文件中的内容是一个常见的任务,特别是在处理文档自动化或者数据分析时。PDF(Portable Document Format)是一种跨平台的文件格式,用于精确地保留文档的格式和内容。下面将详细介绍如何...

    java 读取 PDF

    总结起来,Java读取PDF涉及的主要知识点有: 1. 引入第三方库(如iText或Apache PDFBox)。 2. 使用库提供的API读取PDF内容,如`PdfReader`和`PdfTextExtractor`(iText),或`PDDocument`和`PDFTextStripper`...

    Java 读取pdf文件中的数据

    ### Java读取PDF文件中的数据 #### 知识点概览 本文将详细介绍如何使用Java语言来读取PDF文件中的文本内容。此方法简洁高效,适用于处理大量的PDF文档。主要涉及的技术栈包括Java编程基础、PDFBox库的使用以及文件I...

    用Java读取pdf中的数据

    本篇文章将详细介绍如何使用Java读取PDF中的数据,主要围绕`PdfReader`这个概念进行讲解。 首先,`PdfReader`通常指的是一个类或库,它允许程序员读取PDF文件的内容。在Java中,我们可以使用如iText、PDFBox、...

    java读取pdf的文字、图片、线条和对应坐标

    pdf文档的内容都是坐标定位的,文档内容主要包含文本、图片、线条;需要用到pdfbox和pdf2dom两个依赖包

    java读取pdf(轻量级)

    在本文中,我们将探讨如何使用轻量级的Java库来读取PDF文件内容,以实现“java读取pdf(轻量级)”的目标。 首先,一个常见的轻量级Java PDF库是iText。iText是一个开源库,它提供了处理PDF文档的各种功能,包括...

    JAVA读取PDF中的文件内容需要的jar

    在这个场景中,"JAVA读取PDF中的文件内容需要的jar"指的是这些库的Java Archive (JAR) 文件,它们包含了处理PDF文件所需的类和方法。 Apache PDFBox是Apache软件基金会的一个开源项目,提供了丰富的API来读取、写入...

    java读取PDF文件需要的包

    总结起来,Java读取PDF文件的关键在于使用合适的库,如Apache PDFBox及其依赖的FontBox。这两个库提供了全面的API和工具,涵盖了从基本的PDF解析到复杂的字体处理,是Java程序员处理PDF文档的强大武器。在使用过程中...

    强悍的java读取PDF文件

    本篇文章将详细介绍如何使用Java来读取PDF文件的内容,以及涉及到的相关技术。 首先,Java中读取PDF文件的核心库是Apache PDFBox和iText。Apache PDFBox是一个开源项目,提供了丰富的API来处理PDF文档,包括读取、...

    java读取pdf所需插件 fontbox-2.0.9

    Java语言在处理PDF文档时,通常需要依赖特定的库或插件来实现各种功能,比如读取、解析、编辑PDF内容。"fontbox-2.0.9"就是这样一个插件,它与"pdfbox"一起工作,为Java提供强大的PDF处理能力。FontBox是PDFBox的一...

    Java读取pdf文件所需5个jar包,及简单用法

    在Java编程环境中,读取PDF文件通常涉及到第三方库的支持,因为Java的标准库并不直接提供PDF操作功能。这里我们将讨论五个常用的Java PDF处理库,以及如何使用它们来读取PDF文件。这五个jar包分别是: 1. **Apache ...

    Java 读取PDF中的文本和图片的方法

    Java 读取 PDF 中的文本和图片的方法 本文将介绍通过 Java 程序来读取 PDF 文档中的文本和图片的方法。分别调用方法 extractText() 和 extractImages() 来读取,需要的朋友可以参考下。 读取 PDF 文本 在读取 PDF...

Global site tag (gtag.js) - Google Analytics