`

Java 读取PDF中的文本和图片

阅读更多

本文将介绍通过Java程序来读取PDF文档中的文本和图片的方法。分别调用方法extractText()和extractImages()来读取。

 

使用工具:Free Spire.PDF for Java(免费版)

Jar文件获取导入:

 

方法1通过官网下载jar文件包。下载后,解压文件,并将lib文件夹下的Spire.Pdf.jar文件导入java程序。

方法2 可通过maven仓库安装导入。

 

 

 

Java代码示例

【示例1】读取PDF中的文本

import com.spire.pdf.*;

import java.io.FileWriter;
import java.io.IOException;

public class ExtractText {
    public static void main(String[]args) throws Exception {
        //加载测试文档
        PdfDocument pdf = new PdfDocument("sample.pdf");

        //实例化StringBuilder类
        StringBuilder sb = new StringBuilder();
        //定义一个int型变量
        int index = 0;

        //遍历PDF文档中每页
        PdfPageBase page;
        for (int i= 0; i<pdf.getPages().getCount();i++) {
            page = pdf.getPages().get(i);
            //调用extractText()方法提取文本
            sb.append(page.extractText(true));
            FileWriter writer;
            try {
                //将StringBuilder对象中的文本写入到txt
                writer = new FileWriter("ExtractText.txt");
                writer.write(sb.toString());
                writer.flush();
            } catch (IOException e) {
                e.printStackTrace();
            }

           
            }
        pdf.close();
        }

    }

 

文本读取效果:
 


 

 

【示例2】读取PDF中的图片

import com.spire.pdf.*;
import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.File;

public class ExtractImg {
    public static void main(String[] args) throws Exception{
        //加载测试文档
        PdfDocument pdf = new PdfDocument();
        pdf.loadFromFile("test.pdf");

        //定义一个int型变量
        int index = 0;

        //遍历PDF每一页
        for (int i= 0;i< pdf.getPages().getCount(); i ++){
           //获取PDF页面
            PdfPageBase page = pdf.getPages().get(i);

            //使用extractImages方法获取页面上图片
            for (BufferedImage image : page.extractImages()) {

                //指定输出图片名称
                File output = new File( String.format("Image_%d.png", index++));
                //将图片保存为PNG格式文件
                ImageIO.write(image, "PNG", output);
            }
        }
    }
}

 

图片读取结果:


 

 

(本文完)

 

  • 大小: 49.7 KB
  • 大小: 165.8 KB
  • 大小: 117.7 KB
0
0
分享到:
评论

相关推荐

    Java 读取PDF中的文本和图片的方法

    Java 读取 PDF 中的文本和图片的方法 本文将介绍通过 Java 程序来读取 PDF 文档中的文本和图片的方法。分别调用方法 extractText() 和 extractImages() 来读取,需要的朋友可以参考下。 读取 PDF 文本 在读取 PDF...

    java读取pdf的文字、图片、线条和对应坐标

    pdf文档的内容都是坐标定位的,文档内容主要包含文本、图片、线条;需要用到pdfbox和pdf2dom两个依赖包

    java 读取PDF文件中的内容

    下面将详细介绍如何使用Java来读取PDF文件中的文本内容。 首先,我们需要一个库来处理PDF文件。Apache PDFBox是一个开源的Java库,它提供了读取、创建、修改PDF文件的功能。要使用PDFBox,首先要在项目中引入其依赖...

    Java 读取PDF文件

    本篇文章将深入探讨如何使用Java来读取PDF文件,并将其内容展示在一个由JFrame和JPanel构建的GUI窗口中。 首先,我们需要引入一个能够处理PDF的库。Apache PDFBox是一个广泛使用的开源Java库,它可以方便地读取、...

    Java读取PDF查找指定文字位置,并添加悬浮图片(文档签字/盖章)

    本文将深入探讨如何使用Java读取PDF文件,查找特定文字的位置,并在此基础上添加悬浮图片,以实现签字或盖章的功能。首先,我们需要理解PDF文档的结构以及如何在Java中操作PDF。 PDF(Portable Document Format)是...

    C#生成PDF 读取PDF文本内容 获取PDF内图片

    本项目聚焦于使用C#进行PDF操作,包括生成PDF、读取PDF文本内容以及提取PDF内的图片。 首先,我们要了解如何使用C#生成PDF。在.NET环境中,可以借助第三方库如iTextSharp或PDFsharp来实现。iTextSharp提供了一个...

    用Java读取pdf中的数据

    在IT行业中,PDF(Portable Document Format)是一种广泛使用的文件格式,用于存储文档,包括文本、图像和图形。Java作为一种强大的编程语言,提供了多种库来处理PDF文档,其中一个关键任务是读取PDF中的数据。本篇...

    java读取pdf文件属性

    PDFBox可以用来创建新的PDF文档,从现有的PDF文档中提取文本,提取元数据(如作者、标题、主题、关键词等),还可以用来渲染PDF页面到图像,以及对PDF文档进行加密和解密等操作。 ### 三、读取PDF元数据的步骤 ###...

    java识别pdf图片中的文字

    Java识别PDF图片中的文字是一项常见的任务,特别是在文档处理和数据提取领域。Tess4J是一个强大的工具,它基于Tesseract OCR(光学字符识别)引擎,能够帮助开发者在Java应用程序中实现这一功能。以下是对这个主题的...

    .NET生成PDF 读取PDF文本内容 获取PDF内图片

    在.NET开发环境中,生成PDF、读取PDF文本内容以及获取PDF内的图片是常见的需求,尤其在文档处理和报告生成的应用中。本文将详细介绍如何利用C#进行这些操作,并提供相关库和技术的概述。 首先,生成PDF文件在.NET中...

    java实现在pdf模板的指定位置插入图片

    本文将详细介绍如何使用Java语言在PDF模板的指定位置插入图片,实现对PDF文档的自定义和编辑。 首先,需要使用iTextPDF库,这是一个非常流行的Java类库,专门用于处理PDF文档。使用Maven可以轻松地将其引入项目中,...

    java实现PDF文件添加图片

    PDF文件添加图片是Java开发中常见的一项任务,特别是在生成报告、文档或证书等场景下,可能需要将图像插入到PDF中以增强可视化效果。这里我们将深入探讨如何使用iTextPDF库来实现在PDF中添加图片的功能。 iTextPDF...

    Java 读取pdf文件中的数据

    ### Java读取PDF文件中的数据 #### 知识点概览 本文将详细介绍如何使用Java语言来读取PDF文件中的文本内容。此方法简洁高效,适用于处理大量的PDF文档。主要涉及的技术栈包括Java编程基础、PDFBox库的使用以及文件I...

    Java 解析 PDF, pdfbox读取PDF内容

    在这个例子中,我们首先加载了PDF文档,然后创建了一个`PDFTextStripper`对象,它是PDFBox库中用于提取PDF文本的类。调用`getText()`方法时,需要传入已加载的`PDDocument`对象,它会返回一个字符串,其中包含PDF...

    pdfbox 提取 pdf文件中的图片

    PDFBox是一个开源的可以操作PDF文档的Java PDF类库。它可以创建一个新PDF文档,操作现有PDF文档并提取文档中的内容。 它具有以下特性: 1.将一个PDF文档转换输出为一个文本文件。 2.可以从文本文件创建一个PDF文档。 ...

    【Java】基于Pdfbox解析PDF文档中指定位置的文字和图片

    Extract Text – 使用PDFBox,您可以从PDF文件中提取Unicode文本。 Split & Merge – 使用PDFBox,您可以将单个PDF文件分成多个文件,并将它们合并为一个文件。 Fill Forms – 使用PDFBox,您可以在文档中填写表单...

Global site tag (gtag.js) - Google Analytics