`

java读取PDF并进行格式转换

阅读更多

 

package com.yk.test;

import java.io.FileOutputStream;
import java.io.OutputStreamWriter;
import java.io.Writer;

import org.pdfbox.pdmodel.PDDocument;
import org.pdfbox.util.PDFTextStripper;

/**
 * 采用PDFBOX读取PDF文件,并进行格式转换
 * @author Administrator
 *
 */
public class PDFBoxTest {
	
	public void getText(String file) throws Exception {
		// 是否排序
		boolean sort = false;
		// PDF文件名
		String pdfFile = file;
		// 输入文本文件名称
		String textFile = null;
		// 编码方式
		String encoding = "UTF-8";
		// 开始提取页数
		int startPage = 1;
		// 结束提取页数
		int endPage = Integer.MAX_VALUE;
		// 文件输入流,生成文本文件
		Writer output = null;
		// 内存中存储的PDF Document
		PDDocument document = null;
		try{
			document = PDDocument.load(pdfFile);
			if(pdfFile.length()>4){
				textFile = pdfFile.substring(0, pdfFile.length()-4) + ".txt";
			}
			// 文件输入流,写入文件到textFile
			output = new OutputStreamWriter(new FileOutputStream(textFile), encoding);
			// 采用PDFTextStripper提取文本
			PDFTextStripper stripper = new PDFTextStripper();
			// 设置是否排序
			stripper.setSortByPosition(sort);
			// 设置起始页
			stripper.setStartPage(startPage);
			// 设置结束页
			stripper.setEndPage(endPage);
			stripper.writeText(document, output);
		}catch(Exception e){
			e.printStackTrace();
		}finally{
			if(output != null){
				output.close();
			}
			if(document != null){
				document.close();
			}
		}
	}
	
	public static void main(String[] args) {
		try{
			new PDFBoxTest().getText("D:\\Java线程.pdf");
		}catch(Exception e){
			e.printStackTrace();
		}
	}

}

主要是以下jar包

 

bcmail-jdk14-132.jar

bcprov-jdk14-132.jar

checkstyle-all-4.2.jar

FontBox-0.1.0-dev.jar

PDFBox-0.7.3.jar

相关jar包可以去http://sourceforge.net/projects/pdfbox/postdownload进行下载,我下载的版本是0.7.3

分享到:
评论

相关推荐

    java读取PDF显示于浏览器

    Java读取PDF并显示在浏览器是一项常见的技术需求,特别是在Web应用中,用户可能需要预览或下载PDF文档。为了实现这一功能,我们需要了解几个关键知识点: 1. **PDF阅读器集成**:描述中提到的前提是本地电脑需要...

    强悍的java读取PDF文件

    在IT行业中,处理PDF...总的来说,Java中读取PDF文件内容主要依赖于第三方库,如Apache PDFBox,同时也可结合命令行工具如XPDF进行操作。根据实际需求,选择合适的方法并结合具体的库和工具,可以高效地处理PDF文件。

    java 把PDF转换成BASE64

    要将PDF转换为BASE64,首先我们需要读取PDF文件的内容,并将其视为字节数组。Java中可以使用`java.io.File`和`java.nio.file.Files`类来实现这一操作。以下是一个简化的步骤: 1. **读取PDF文件**:使用`Files....

    java语言实现Text格式转换成pdf文件

    它提供了丰富的API,可以方便地创建、编辑和读取PDF文件。在本示例中,我们将主要依赖PDFBox来完成转换任务。 步骤1:引入PDFBox库 要使用PDFBox,首先需要将其添加到项目依赖中。如果是Maven项目,可以在pom.xml...

    java ceb转pdf demo

    Java CEB转PDF的示例(Demo)是将方正ceb格式的文档转换为更通用的PDF格式的过程,这在需要...同时,确保转换后的PDF可以正确建立全文索引,可能需要对生成的PDF进行额外的处理,例如提取文本并存储为可搜索的格式。

    URL转换为PDF的Java实现

    在IT行业中,转换URL到PDF是一项常见的需求,例如为了保存网页内容、制作电子文档或进行离线阅读。Java作为一种广泛使用的编程语言,提供了多种方法来实现这个功能。本篇文章将详细探讨如何在Java环境中将一个网页...

    JAVA将PDF转OFD 国产化必备

    总的来说,JAVA将PDF转换为OFD涉及到PDF解析、OFD生成等多个技术环节,需要对两种格式的特性有深入理解,并合理选择和使用相应的开发工具。随着国产化趋势的推进,这类技术的掌握对于提升国内软件的竞争力具有重要...

    java读取PDF文件需要的包

    总结起来,Java读取PDF文件的关键在于使用合适的库,如Apache PDFBox及其依赖的FontBox。这两个库提供了全面的API和工具,涵盖了从基本的PDF解析到复杂的字体处理,是Java程序员处理PDF文档的强大武器。在使用过程中...

    java读取显示pdf

    - iText:这是一个强大的PDF库,不仅可以读取PDF,还可以进行创建、修改和签署PDF文档。 - PDFRenderer:这是JavaFX的一部分,可以将PDF转换为图像流,非常适合于显示PDF内容。 - PDFBox-2D-Library:这是PDFBox...

    java实现doc、xls等格式转换pdf,实现在线浏览

    在IT行业中,文档格式...综上所述,使用Java结合Apache POI和iTextPDF,可以实现多种格式文件到PDF的转换,并通过Web应用提供在线浏览功能。在实际开发中,需要关注性能、安全性和用户体验,以提供高效、稳定的服务。

    用Java读取pdf中的数据

    本篇文章将详细介绍如何使用Java读取PDF中的数据,主要参考自博客“Jackweijie”的《用Java读取pdf中的数据》。 首先,我们需要一个可靠的PDF处理库。Apache PDFBox是一个开源的Java库,专门用于处理PDF文档。它...

    java识别pdf图片中的文字

    首先,你需要将PDF页面转换为图像,然后通过Tess4J进行识别。这通常涉及使用PDF处理库,如Apache PDFBox或iText,来提取PDF的图像页面。 4. **代码示例**: 以下是一个简单的Java代码示例,展示如何使用Tess4J识别...

    Java实现PDF读写(Itext)与解析XML读写(Dom4j)

    JavaFileDemo文件夹为项目文件 zhouyl为生成的PDF,还有PNG图片来源 一、用JAVA完成了PDF读写(IText的应用) 加密PDF文件,引用到的JAR包是 ...4、读取XML文件 D:/zhouyl/123.xml生成相应格式的D:/zhouyl/333.VDS

    java读取pdf所需插件 fontbox-2.0.9

    FontBox提供了API来读取和解析PDF文档中嵌入的字体信息,这对于理解PDF内容和进行文本提取、格式转换等操作至关重要。例如,当你需要从PDF中提取文本并保持原有的排版样式时,FontBox能够帮助识别并应用正确的字体。...

    java实现office、wps转pdf,pdf转word

    Java中的PDFBox库虽然能读取PDF,但不直接支持转换为Word。在这种情况下,可能需要使用如Aspose.Words这样的商业库,它提供了将PDF转换为多种格式,包括Word的功能。另外,PDFtoHTML库可以将PDF转换为HTML,然后再...

    JAVA实现PDF转HTML

    这些库提供了API,可以读取PDF文件并生成相应的HTML输出。 在"JAVA实现PDF转HTML"的项目中,后端代码可能是利用这些库来处理转换逻辑的。开发者可能创建了一个服务接口,接收PDF文件,然后调用相应的转换方法,最后...

    读取pdf生成txt

    `getText`方法读取PDF的内容,并将其转换为纯文本,最后打印出来。确保替换`"path_to_your_pdf.pdf"`为实际PDF文件的路径。 值得注意的是,PDFBox库可以处理各种复杂的PDF结构,包括表格、图像和多语言文本。但是,...

    JAVA读取WORD,EXCEL,POWERPOINT,PDF文件的方法

    通过上述示例可以看出,使用Java读取各种格式的文档并不复杂,主要依赖于Apache POI和Apache PDFBox这两个强大的开源库。这些库提供了丰富的API,使得开发者能够轻松地实现对这些文件的读取与处理功能。当然,在实际...

    Java转换PDF文件

    下面我们将深入探讨如何在Java环境中进行PDF文件的转换。 1. **Apache PDFBox** Apache PDFBox是Apache软件基金会的一个开源项目,专门用于处理PDF文档。使用PDFBox,我们可以读取、创建、更新和转换PDF文件。以下...

    java读取word文档.pdf

    首先,标题“java读取word文档.pdf”和描述“java读取word文档.pdf”暗示了文章内容可能涉及使用Java语言读取Word文档的技术。 从片段中可以提取到的关键技术点包括: 1. Apache POI库:Apache POI是一个开源的...

Global site tag (gtag.js) - Google Analytics