本文将介绍通过Java程序来读取PDF文档中的文本和图片的方法。分别调用方法extractText()和extractImages()来读取。
使用工具:Free Spire.PDF for Java(免费版)
Jar文件获取导入:
方法1:通过官网下载jar文件包。下载后,解压文件,并将lib文件夹下的Spire.Pdf.jar文件导入java程序。
方法2: 可通过maven仓库安装导入。
Java代码示例
【示例1】读取PDF中的文本
import com.spire.pdf.*; import java.io.FileWriter; import java.io.IOException; public class ExtractText { public static void main(String[]args) throws Exception { //加载测试文档 PdfDocument pdf = new PdfDocument("sample.pdf"); //实例化StringBuilder类 StringBuilder sb = new StringBuilder(); //定义一个int型变量 int index = 0; //遍历PDF文档中每页 PdfPageBase page; for (int i= 0; i<pdf.getPages().getCount();i++) { page = pdf.getPages().get(i); //调用extractText()方法提取文本 sb.append(page.extractText(true)); FileWriter writer; try { //将StringBuilder对象中的文本写入到txt writer = new FileWriter("ExtractText.txt"); writer.write(sb.toString()); writer.flush(); } catch (IOException e) { e.printStackTrace(); } } pdf.close(); } }
文本读取效果:
【示例2】读取PDF中的图片
import com.spire.pdf.*; import javax.imageio.ImageIO; import java.awt.image.BufferedImage; import java.io.File; public class ExtractImg { public static void main(String[] args) throws Exception{ //加载测试文档 PdfDocument pdf = new PdfDocument(); pdf.loadFromFile("test.pdf"); //定义一个int型变量 int index = 0; //遍历PDF每一页 for (int i= 0;i< pdf.getPages().getCount(); i ++){ //获取PDF页面 PdfPageBase page = pdf.getPages().get(i); //使用extractImages方法获取页面上图片 for (BufferedImage image : page.extractImages()) { //指定输出图片名称 File output = new File( String.format("Image_%d.png", index++)); //将图片保存为PNG格式文件 ImageIO.write(image, "PNG", output); } } } }
图片读取结果:
(本文完)
相关推荐
Java 读取 PDF 中的文本和图片的方法 本文将介绍通过 Java 程序来读取 PDF 文档中的文本和图片的方法。分别调用方法 extractText() 和 extractImages() 来读取,需要的朋友可以参考下。 读取 PDF 文本 在读取 PDF...
pdf文档的内容都是坐标定位的,文档内容主要包含文本、图片、线条;需要用到pdfbox和pdf2dom两个依赖包
下面将详细介绍如何使用Java来读取PDF文件中的文本内容。 首先,我们需要一个库来处理PDF文件。Apache PDFBox是一个开源的Java库,它提供了读取、创建、修改PDF文件的功能。要使用PDFBox,首先要在项目中引入其依赖...
本篇文章将深入探讨如何使用Java来读取PDF文件,并将其内容展示在一个由JFrame和JPanel构建的GUI窗口中。 首先,我们需要引入一个能够处理PDF的库。Apache PDFBox是一个广泛使用的开源Java库,它可以方便地读取、...
本项目聚焦于使用C#进行PDF操作,包括生成PDF、读取PDF文本内容以及提取PDF内的图片。 首先,我们要了解如何使用C#生成PDF。在.NET环境中,可以借助第三方库如iTextSharp或PDFsharp来实现。iTextSharp提供了一个...
本文将深入探讨如何使用Java读取PDF文件,查找特定文字的位置,并在此基础上添加悬浮图片,以实现签字或盖章的功能。首先,我们需要理解PDF文档的结构以及如何在Java中操作PDF。 PDF(Portable Document Format)是...
PDFBox可以用来创建新的PDF文档,从现有的PDF文档中提取文本,提取元数据(如作者、标题、主题、关键词等),还可以用来渲染PDF页面到图像,以及对PDF文档进行加密和解密等操作。 ### 三、读取PDF元数据的步骤 ###...
在IT行业中,PDF(Portable Document Format)是一种广泛使用的文件格式,用于存储文档,包括文本、图像和图形。Java作为一种强大的编程语言,提供了多种库来处理PDF文档,其中一个关键任务是读取PDF中的数据。本篇...
Java识别PDF图片中的文字是一项常见的任务,特别是在文档处理和数据提取领域。Tess4J是一个强大的工具,它基于Tesseract OCR(光学字符识别)引擎,能够帮助开发者在Java应用程序中实现这一功能。以下是对这个主题的...
在.NET开发环境中,生成PDF、读取PDF文本内容以及获取PDF内的图片是常见的需求,尤其在文档处理和报告生成的应用中。本文将详细介绍如何利用C#进行这些操作,并提供相关库和技术的概述。 首先,生成PDF文件在.NET中...
本文将详细介绍如何使用Java语言在PDF模板的指定位置插入图片,实现对PDF文档的自定义和编辑。 首先,需要使用iTextPDF库,这是一个非常流行的Java类库,专门用于处理PDF文档。使用Maven可以轻松地将其引入项目中,...
PDF文件添加图片是Java开发中常见的一项任务,特别是在生成报告、文档或证书等场景下,可能需要将图像插入到PDF中以增强可视化效果。这里我们将深入探讨如何使用iTextPDF库来实现在PDF中添加图片的功能。 iTextPDF...
### Java读取PDF文件中的数据 #### 知识点概览 本文将详细介绍如何使用Java语言来读取PDF文件中的文本内容。此方法简洁高效,适用于处理大量的PDF文档。主要涉及的技术栈包括Java编程基础、PDFBox库的使用以及文件I...
Extract Text – 使用PDFBox,您可以从PDF文件中提取Unicode文本。 Split & Merge – 使用PDFBox,您可以将单个PDF文件分成多个文件,并将它们合并为一个文件。 Fill Forms – 使用PDFBox,您可以在文档中填写表单...
在这个例子中,我们首先加载了PDF文档,然后创建了一个`PDFTextStripper`对象,它是PDFBox库中用于提取PDF文本的类。调用`getText()`方法时,需要传入已加载的`PDDocument`对象,它会返回一个字符串,其中包含PDF...
IText是一个开源的Java库,用于创建、修改和读取PDF文档。它支持多种功能,如添加文本、图像、链接,甚至可以用于处理复杂的表单和模板。为了使用IText,你需要在项目中导入相应的jar包,这通常可以从IText官网...
PDFBox是一个开源的可以操作PDF文档的Java PDF类库。它可以创建一个新PDF文档,操作现有PDF文档并提取文档中的内容。 它具有以下特性: 1.将一个PDF文档转换输出为一个文本文件。 2.可以从文本文件创建一个PDF文档。 ...