`
newleague
  • 浏览: 1501359 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类

用PDFBOX读取PDF文件提取内容

阅读更多

因为在apache官网上下载PDFBOX1.2jar包时,数据文件有丢失,未成功下载。所以用旧版本PDFBox-0.7.3的。

下载PDFBox-0.7.3后,可以找到需要的两个jar包,在不同的文件夹里。

1、准备两个jar包 PDFBox-0.7.3.jar,FontBox-0.1.0-dev.jar

2、


import org.pdfbox.pdmodel.PDDocument;
import org.pdfbox.pdfparser.PDFParser;
import java.io.*;
import org.pdfbox.util.PDFTextStripper;
import java.util.Date;

public class PdfExtracter {
 public PdfExtracter() {
 }

 public String GetTextFromPdf(String filename) throws Exception {
  String temp = null;
  PDDocument pdfdocument = null;
  FileInputStream is = new FileInputStream(filename);
  PDFParser parser = new PDFParser(is);
  parser.parse();
  pdfdocument = parser.getPDDocument();
  ByteArrayOutputStream out = new ByteArrayOutputStream();
  OutputStreamWriter writer = new OutputStreamWriter(out);
  PDFTextStripper stripper = new PDFTextStripper();
  stripper.writeText(pdfdocument.getDocument(), writer);
  writer.close();
  byte[] contents = out.toByteArray();

  String ts = new String(contents);
  System.out.println("the string length is" + contents.length + "\n");
  return ts;
 }

 public static void main(String args[]) {
  PdfExtracter pf = new PdfExtracter();
  PDDocument pdfDocument = null;

  try {
   String ts = pf.GetTextFromPdf("d:\\test.pdf");
   System.out.println(ts);
  } catch (Exception e) {
   e.printStackTrace();
  }
 }
}

3、在D盘准备一份test.pdf文件

4、运行以上代码

分享到:
评论

相关推荐

    Java 解析 PDF, pdfbox读取PDF内容

    在本示例中,我们将专注于如何使用PDFBox读取PDF的内容。 首先,你需要在你的项目中引入PDFBox库。如果你使用的是Maven,可以在pom.xml文件中添加以下依赖: ```xml <groupId>org.apache.pdfbox <artifactId>...

    pdfbox 提取 pdf文件中的图片

    它可以创建一个新PDF文档,操作现有PDF文档并提取文档中的内容。 它具有以下特性: 1.将一个PDF文档转换输出为一个文本文件。 2.可以从文本文件创建一个PDF文档。 3.加密/解密PDF文档。 4.向已有PDF文档中追加内容。 ...

    C#使用PDFBox读取PDF

    本篇文章将详细介绍如何在C#环境中利用PDFBox库来读取PDF文件的内容,并将其转换为TXT格式进行保存。 首先,我们需要在C#项目中引入PDFBox的相关依赖。由于PDFBox是用Java编写的,所以我们需要使用 IKVM.NET 这个...

    【Java】基于Pdfbox解析PDF文档中指定位置的文字和图片

    Extract Text – 使用PDFBox,您可以从PDF文件中提取Unicode文本。 Split & Merge – 使用PDFBox,您可以将单个PDF文件分成多个文件,并将它们合并为一个文件。 Fill Forms – 使用PDFBox,您可以在文档中填写表单...

    pdfbox读取Pdf

    在这个“pdfbox读取Pdf”的示例中,我们将深入探讨如何使用PDFBox库读取PDF文件中的文字、数字和英文。 首先,要使用PDFBox读取PDF文档,你需要在项目中引入PDFBox的依赖。如果你使用的是Maven,可以在pom.xml文件...

    pdfbox读取pdf内容

    在标题中提到的"pdfbox读取pdf内容",我们将深入探讨如何使用PDFBox来实现这一功能。 首先,我们需要了解PDFBox的基本结构。PDFBox主要由两个核心模块组成,它们是`pdfbox-1.8.2.jar`和`fontbox-1.8.2.jar`。`...

    C#编程读取pdf文件

    下面我们将深入探讨如何使用C#和PDFBox的IKVM版本来读取PDF文件: 1. **安装IKVM**: 首先,你需要获取PDFBox的Java库,并且下载IKVM的.NET版本。将IKVM的dll文件添加到你的C#项目引用中,同时也要包含PDFBox的Java...

    java 读取PDF文件中的内容

    下面将详细介绍如何使用Java来读取PDF文件中的文本内容。 首先,我们需要一个库来处理PDF文件。Apache PDFBox是一个开源的Java库,它提供了读取、创建、修改PDF文件的功能。要使用PDFBox,首先要在项目中引入其依赖...

    pdfbox读取pdf文档转为高清图片的例子

    通过这个例子,我们可以看到PDFBox库在处理PDF文档时的强大功能,它不仅可以用来读取文本,还可以将复杂的页面布局和图形转换为高质量的图像,这对于数据可视化、文档存档或其他需要将PDF内容提取出来的需求非常有用...

    pdfbox 提取 pdf 中 文字和图片 并 可转 html

    pdfbox 提取 pdf 中 文字和图片 并 可转 html 分2个文件,一个专门提取文本,内容可转为html,另一个文件专门用来提取图片,大家可自行整合为一个文件。使用pdfbox最新提取图片的方法。

    java使用pdfbox打印PDF

    在这个场景中,我们使用的PDFBox版本是2.0.8,它是一个强大的工具,能够帮助开发者读取、创建、编辑PDF文档,并且提供了打印功能。 PDFBox是由Apache软件基金会开发的Java库,其主要功能包括PDF文档的解析、生成、...

    Java 读取PDF文件

    本篇文章将深入探讨如何使用Java来读取PDF文件,并将其内容展示在一个由JFrame和JPanel构建的GUI窗口中。 首先,我们需要引入一个能够处理PDF的库。Apache PDFBox是一个广泛使用的开源Java库,它可以方便地读取、...

    pdfbox 解析pdf里的图片和文字

    通过`PDDocument.load()`方法,我们可以加载PDF文件。然后,利用`PDPageTree`可以获取到PDF中的所有页面。每个`PDPage`对象都可能包含多个`PDStream`或`PDImageXObject`,这些对象代表了页面上的图像。使用`PDPage....

    强悍的java读取PDF文件

    使用Apache PDFBox读取PDF文件内容的基本步骤如下: 1. 引入PDFBox依赖:在项目中添加Apache PDFBox的依赖库,例如在Maven项目中,可以在pom.xml文件中添加以下依赖: ```xml <groupId>org.apache.pdfbox ...

    使用PDFBox提取PDF中文本信息

    在这段代码中,`PDDocument.load`方法用于加载PDF文件,`PDFTextStripper`类用于提取文本,`getText`方法执行实际的提取操作,最后`document.close()`确保文件被正确关闭。 7. **处理中文字符**:PDFBox默认可能...

    java读取pdf文件属性

    在IT领域,特别是Java编程中,读取PDF文件的元数据是一项常见的需求,尤其是在文档管理、内容管理系统或任何需要处理大量文档的应用场景中。本文将深入探讨如何使用Java读取PDF文件的属性,如作者、标题等元数据,...

    PDFBox pdf 转换为word文档

    1. **初始化PDFBox**: 加载PDF文档,这可以通过`PDDocument.load()`方法实现,传入PDF文件的路径。 2. **提取文本**: 使用`PDFTextStripper`类,调用`processDocument()`方法来提取PDF中的所有文本。 3. **保存文本*...

    开源PdfSharp提取读取PDF文档里text内容方法

    开源PdfSharp提取读取PDF文档里text内容方法

    c# Winform 读取PDF文件

    在C#中,我们可以利用第三方库如iTextSharp、PDFium、PDFBox等来读取PDF文件。这些库提供了丰富的API,可以实现PDF的解析、内容提取、页面操作等功能。其中,PDFium是由Chromium项目开源的一个PDF阅读器引擎,它在...

    C#生成PDF 读取PDF文本内容 获取PDF内图片--完整版)

    PDFsharp提供了一个名为`PdfReader`的类来读取PDF文件,并通过`PdfPageContentStream`获取文本。例如,以下代码片段展示了如何读取PDF中的文本: ```csharp using PDFsharp.PDF; PDFDocument document = new ...

Global site tag (gtag.js) - Google Analytics