package com.yk.test; import java.io.FileOutputStream; import java.io.OutputStreamWriter; import java.io.Writer; import org.pdfbox.pdmodel.PDDocument; import org.pdfbox.util.PDFTextStripper; /** * 采用PDFBOX读取PDF文件,并进行格式转换 * @author Administrator * */ public class PDFBoxTest { public void getText(String file) throws Exception { // 是否排序 boolean sort = false; // PDF文件名 String pdfFile = file; // 输入文本文件名称 String textFile = null; // 编码方式 String encoding = "UTF-8"; // 开始提取页数 int startPage = 1; // 结束提取页数 int endPage = Integer.MAX_VALUE; // 文件输入流,生成文本文件 Writer output = null; // 内存中存储的PDF Document PDDocument document = null; try{ document = PDDocument.load(pdfFile); if(pdfFile.length()>4){ textFile = pdfFile.substring(0, pdfFile.length()-4) + ".txt"; } // 文件输入流,写入文件到textFile output = new OutputStreamWriter(new FileOutputStream(textFile), encoding); // 采用PDFTextStripper提取文本 PDFTextStripper stripper = new PDFTextStripper(); // 设置是否排序 stripper.setSortByPosition(sort); // 设置起始页 stripper.setStartPage(startPage); // 设置结束页 stripper.setEndPage(endPage); stripper.writeText(document, output); }catch(Exception e){ e.printStackTrace(); }finally{ if(output != null){ output.close(); } if(document != null){ document.close(); } } } public static void main(String[] args) { try{ new PDFBoxTest().getText("D:\\Java线程.pdf"); }catch(Exception e){ e.printStackTrace(); } } }
主要是以下jar包
bcmail-jdk14-132.jar
bcprov-jdk14-132.jar
checkstyle-all-4.2.jar
FontBox-0.1.0-dev.jar
PDFBox-0.7.3.jar
相关jar包可以去http://sourceforge.net/projects/pdfbox/postdownload进行下载,我下载的版本是0.7.3
相关推荐
Java读取PDF并显示在浏览器是一项常见的技术需求,特别是在Web应用中,用户可能需要预览或下载PDF文档。为了实现这一功能,我们需要了解几个关键知识点: 1. **PDF阅读器集成**:描述中提到的前提是本地电脑需要...
在IT行业中,处理PDF...总的来说,Java中读取PDF文件内容主要依赖于第三方库,如Apache PDFBox,同时也可结合命令行工具如XPDF进行操作。根据实际需求,选择合适的方法并结合具体的库和工具,可以高效地处理PDF文件。
要将PDF转换为BASE64,首先我们需要读取PDF文件的内容,并将其视为字节数组。Java中可以使用`java.io.File`和`java.nio.file.Files`类来实现这一操作。以下是一个简化的步骤: 1. **读取PDF文件**:使用`Files....
它提供了丰富的API,可以方便地创建、编辑和读取PDF文件。在本示例中,我们将主要依赖PDFBox来完成转换任务。 步骤1:引入PDFBox库 要使用PDFBox,首先需要将其添加到项目依赖中。如果是Maven项目,可以在pom.xml...
Java CEB转PDF的示例(Demo)是将方正ceb格式的文档转换为更通用的PDF格式的过程,这在需要...同时,确保转换后的PDF可以正确建立全文索引,可能需要对生成的PDF进行额外的处理,例如提取文本并存储为可搜索的格式。
在IT行业中,转换URL到PDF是一项常见的需求,例如为了保存网页内容、制作电子文档或进行离线阅读。Java作为一种广泛使用的编程语言,提供了多种方法来实现这个功能。本篇文章将详细探讨如何在Java环境中将一个网页...
总的来说,JAVA将PDF转换为OFD涉及到PDF解析、OFD生成等多个技术环节,需要对两种格式的特性有深入理解,并合理选择和使用相应的开发工具。随着国产化趋势的推进,这类技术的掌握对于提升国内软件的竞争力具有重要...
总结起来,Java读取PDF文件的关键在于使用合适的库,如Apache PDFBox及其依赖的FontBox。这两个库提供了全面的API和工具,涵盖了从基本的PDF解析到复杂的字体处理,是Java程序员处理PDF文档的强大武器。在使用过程中...
- iText:这是一个强大的PDF库,不仅可以读取PDF,还可以进行创建、修改和签署PDF文档。 - PDFRenderer:这是JavaFX的一部分,可以将PDF转换为图像流,非常适合于显示PDF内容。 - PDFBox-2D-Library:这是PDFBox...
在IT行业中,文档格式...综上所述,使用Java结合Apache POI和iTextPDF,可以实现多种格式文件到PDF的转换,并通过Web应用提供在线浏览功能。在实际开发中,需要关注性能、安全性和用户体验,以提供高效、稳定的服务。
本篇文章将详细介绍如何使用Java读取PDF中的数据,主要参考自博客“Jackweijie”的《用Java读取pdf中的数据》。 首先,我们需要一个可靠的PDF处理库。Apache PDFBox是一个开源的Java库,专门用于处理PDF文档。它...
JavaFileDemo文件夹为项目文件 zhouyl为生成的PDF,还有PNG图片来源 一、用JAVA完成了PDF读写(IText的应用) 加密PDF文件,引用到的JAR包是 ...4、读取XML文件 D:/zhouyl/123.xml生成相应格式的D:/zhouyl/333.VDS
首先,你需要将PDF页面转换为图像,然后通过Tess4J进行识别。这通常涉及使用PDF处理库,如Apache PDFBox或iText,来提取PDF的图像页面。 4. **代码示例**: 以下是一个简单的Java代码示例,展示如何使用Tess4J识别...
Java中的PDFBox库虽然能读取PDF,但不直接支持转换为Word。在这种情况下,可能需要使用如Aspose.Words这样的商业库,它提供了将PDF转换为多种格式,包括Word的功能。另外,PDFtoHTML库可以将PDF转换为HTML,然后再...
这些库提供了API,可以读取PDF文件并生成相应的HTML输出。 在"JAVA实现PDF转HTML"的项目中,后端代码可能是利用这些库来处理转换逻辑的。开发者可能创建了一个服务接口,接收PDF文件,然后调用相应的转换方法,最后...
`getText`方法读取PDF的内容,并将其转换为纯文本,最后打印出来。确保替换`"path_to_your_pdf.pdf"`为实际PDF文件的路径。 值得注意的是,PDFBox库可以处理各种复杂的PDF结构,包括表格、图像和多语言文本。但是,...
通过上述示例可以看出,使用Java读取各种格式的文档并不复杂,主要依赖于Apache POI和Apache PDFBox这两个强大的开源库。这些库提供了丰富的API,使得开发者能够轻松地实现对这些文件的读取与处理功能。当然,在实际...
FontBox提供了API来读取和解析PDF文档中嵌入的字体信息,这对于理解PDF内容和进行文本提取、格式转换等操作至关重要。例如,当你需要从PDF中提取文本并保持原有的排版样式时,FontBox能够帮助识别并应用正确的字体。...
下面我们将深入探讨如何在Java环境中进行PDF文件的转换。 1. **Apache PDFBox** Apache PDFBox是Apache软件基金会的一个开源项目,专门用于处理PDF文档。使用PDFBox,我们可以读取、创建、更新和转换PDF文件。以下...
首先,标题“java读取word文档.pdf”和描述“java读取word文档.pdf”暗示了文章内容可能涉及使用Java语言读取Word文档的技术。 从片段中可以提取到的关键技术点包括: 1. Apache POI库:Apache POI是一个开源的...