`
gaozzsoft
  • 浏览: 424651 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类

JAVA实现PDF文件读取、处理研究-开源PDFBox实现

 
阅读更多

实现代码如下:

import java.io.*;


import org.apache.pdfbox.pdfparser.PDFParser;

import org.apache.pdfbox.pdmodel.PDDocument;

import org.apache.pdfbox.util.PDFTextStripper;


public class PDFReader {


public static String file_path = "E:\\test\\test-1.1.0-手册.pdf";


// 获取PDF内纯文本信息

public String getTextFromPdf(String filename) throws Exception {

FileInputStream instream = new FileInputStream(filename); // 根据指定文件创建输入流

PDFParser parser = new PDFParser(instream); // 创建PDF解析器

parser.parse(); // 执行PDF解析过程


PDDocument pdfdocument = parser.getPDDocument(); // 获取解析器的PDF文档对象

PDFTextStripper pdfstripper = new PDFTextStripper(); // 生成PDF文档内容剥离器

String contenttxt = pdfstripper.getText(pdfdocument); // 利用剥离器获取文档


System.out.println("文件长度: " + contenttxt.length() + "\n");

return contenttxt;


}


public static void main(String args[]) {

PDFReader pdfbox = new PDFReader(); // 生成PDFBoxHello对象

try {

// 获取文档纯文本内容

String doctext = pdfbox.getTextFromPdf(file_path);

System.out.println("文件内容: ");

System.out.println(doctext);

System.out.println("文件结束.");

} catch (Exception e) {

e.printStackTrace();

}

}

}

 

imports:

import org.apache.pdfbox.pdfparser.PDFParser;

import org.apache.pdfbox.pdmodel.PDDocument;

import org.apache.pdfbox.util.PDFTextStripper;

 

需要JAR文件:

pdfbox-1.7.1.jar、pdfbox-app-1.7.1.jar、fontbox-1.7.1.jar、jempbox-1.7.1.jar、commons-logging-1.1.1.jar等


下载链接:

http://pdfbox.apache.org/download.html

分享到:
评论

相关推荐

    Java实现pdf转图片 fontbox-2.0.15和pdfbox-2.0.15 两个jar包

    这两个Java库是Apache软件基金会提供的开源工具,专门用于处理PDF文档。 **FontBox-2.0.15** FontBox是PDFBox的一个子项目,它专注于处理PDF文档中的字体。PDF文档中的文字可能使用了各种不同的字体,包括TrueType...

    Java 解析 PDF, pdfbox读取PDF内容

    PDFBox是Apache软件基金会的一个开源项目,它为Java开发者提供了一系列API来操作PDF文档,包括读取、创建、编辑以及签署PDF等任务。在本示例中,我们将专注于如何使用PDFBox读取PDF的内容。 首先,你需要在你的项目...

    java读取pdf所需插件 fontbox-2.0.9

    在你的压缩包中,包含了不同版本的PDFBox和FontBox库,以及PDFBox的工具集,这些都是Java处理PDF文档时必不可少的组件。在实际使用中,开发者需要根据项目需求选择合适的版本,并确保从可信来源获取库文件。

    java 读取PDF文件中的内容

    Apache PDFBox是一个开源的Java库,它提供了读取、创建、修改PDF文件的功能。要使用PDFBox,首先要在项目中引入其依赖。如果你使用Maven,可以在pom.xml文件中添加以下依赖: ```xml <groupId>org.apache.pdfbox ...

    Java 读取PDF文件

    在Java编程环境中,读取PDF文件是一项常见的任务,特别是在开发桌面应用或需要处理PDF文档内容时。本篇文章将深入探讨如何使用Java来读取PDF文件,并将其内容展示在一个由JFrame和JPanel构建的GUI窗口中。 首先,...

    java实现pdf上传,下载,在线预览,删除,修改等功能

    在Java开发中,处理PDF文件是一项常见的任务,包括上传、下载、在线预览、删除以及修改等操作。这里我们将深入探讨这些功能的实现,并结合标签`java xpdf java实现pdf`来讨论XPDF库在Java中的应用。 1. **PDF上传**...

    java读取pdf文件属性

    在Java中读取PDF文件属性主要依赖于开源库PDFBox。PDFBox是一个用于处理PDF文档的开源库,它提供了读取、写入、修改PDF文档的功能,而不仅仅局限于文本的提取。PDFBox的API设计简洁明了,易于上手,因此在Java开发...

    pdfbox-2.0.8.jar,fontbox-2.0.8.jar,pdfbox-tools-2.0.8.jar

    PDFBox是Apache软件基金会开发的一个开源Java库,用于处理PDF(Portable Document Format)文档。这个库提供了丰富的API,使得开发者可以方便地创建、修改、读取和操作PDF文档。在这个压缩包中,我们找到了三个核心...

    【Java】基于Pdfbox解析PDF文档中指定位置的文字和图片

    1.1 PDFBOX介绍 Apache PDFBox是一个开源Java库,支持PDF文档的开发和转换。 我们可以使用PDFBox开发可以创建,转换和操作PDF文档的...Print – 使用PDFBox,您可以使用标准Java打印API打印PDF文件。 Save as Image –

    Java 读取pdf文件中的数据

    PDFBox是一个开源的Java库,用于处理PDF文件。它提供了一套完整的API来实现PDF文件的创建、渲染、分割、合并、加密等功能,同时支持从PDF文件中提取文本内容。本例中我们使用的是PDFBox版本0.7.2,可以从提供的链接...

    强悍的java读取PDF文件

    Apache PDFBox是一个开源项目,提供了丰富的API来处理PDF文档,包括读取、写入、解析和创建PDF文件。iText则是一个用于生成和编辑PDF文档的Java库,虽然主要关注于生成PDF,但也可以用于读取PDF文件。 使用Apache ...

    java 读取word、excel及pdf的jar包(POI,PDFBox)

    标题提到的"java 读取word、excel及pdf的jar包(POI,PDFBox)",指的是两个非常重要的库:Apache POI和PDFBox,分别用于处理Microsoft Office文档(如Word、Excel)和PDF文件。 Apache POI是一个流行的开源Java ...

    pdfbox 提取 pdf文件中的图片

    PDFBox是一个开源的可以操作PDF文档的Java PDF类库。它可以创建一个新PDF文档,操作现有PDF文档并提取文档中的内容。 它具有以下特性: 1.将一个PDF文档转换输出为一个文本文件。 2.可以从文本文件创建一个PDF文档。 ...

    java使用pdfbox打印PDF

    在Java开发中,有时我们需要处理PDF文档,例如打印PDF文件。在这种情况下,原生的Java API可能不提供全面的支持,特别是在兼容各种打印机方面。为了解决这个问题,我们可以借助开源库如PDFBox。在这个场景中,我们...

    java读取显示pdf

    2. **PDF文件读取**: - 使用PDFBox,可以使用`PDDocument.load()`方法加载PDF文件,然后通过`PDFPageTree`遍历页面。 - iText的`PdfReader`类可以用来读取PDF,然后通过`PdfStamper`或`PdfCopy`进行操作。 3. **...

    java语言实现Text格式转换成pdf文件

    Apache PDFBox是一个开源的Java库,专门用于处理PDF文档。它提供了丰富的API,可以方便地创建、编辑和读取PDF文件。在本示例中,我们将主要依赖PDFBox来完成转换任务。 步骤1:引入PDFBox库 要使用PDFBox,首先需要...

    PDFBox PDF处理类库 v3.0.0 alpha2.zip

    PDFBox是Apache软件基金会的一个开源项目,专门用于处理PDF(Portable Document Format)文档的Java类库。这个压缩包“PDFBox PDF处理类库 v3.0.0 alpha2.zip”包含的是PDFBox的最新预发布版本,即v3.0.0的alpha2...

    C#编程读取pdf文件

    PDFBox是一个开源的Java库,由Apache软件基金会维护,主要用于处理PDF文件。IKVM是.NET与Java之间的桥梁,它将Java字节码转换为.NET可以理解的形式,使得.NET开发者可以使用原本为Java设计的库,如PDFBox。 下面...

    java实现pdf预览功能项目汇总,含三个项目

    使用PDFBox,你可以读取PDF文件,获取Page对象,然后通过`PDDocument.drawDocument()`方法将PDF页面绘制到BufferedImage上,从而实现预览。PDFBox还支持文本提取和搜索,对于开发预览功能非常有用。 四、Apache PDF...

    有关pdfbox-1.3.1中Identity-H编码为乱码的解决方法

    PDFBox是Apache软件基金会的一个开源项目,用于处理PDF文档。在使用PDFBox 1.3.1版本时,你可能遇到一个常见的问题:当处理含有非ASCII字符的文本时,Identity-H编码可能会导致显示为乱码。Identity-H是一种Unicode...

Global site tag (gtag.js) - Google Analytics