在这里我用了两个包一个是PDFBox-0.3.7.jar 一个是FontBox-0.1.0-dev.jar前面的一个包要用到后面的包所以不要忘记引入第二个包,两个包我都放在下面
功能实现代码如下
import java.io.File;
import java.io.FileOutputStream;
import java.io.OutputStreamWriter;
import java.io.Writer;
import java.net.MalformedURLException;
import java.net.URL;
import org.pdfbox.pdmodel.PDDocument;
import org.pdfbox.util.PDFTextStripper;
public class PdfboxTest {
public static final String DEFAULT_ENCODING = "UTF-8";
// "ISO-8859-1";
// "ISO-8859-6";
// "US-ASCII";
// "UTF-8";
// "UTF-16";
// "UTF-16BE";
// "UTF-16LE";
public void geText(String file) throws Exception {
// 是否排序
boolean sort = false;
// pdf文件名
String pdfFile = file;
// 输入文本文件名称
String textFile = null;
// 编码方式
String encoding = "UTF-8";
// 开始提取页数
int startPage = 1;
// 结束提取页数
int endPage = Integer.MAX_VALUE;
// 文件输入流,生成文本文件
Writer output = null;
// 内存中存储的PDF Document
PDDocument document = null;
try {
try {
// 首先当作一个URL来装载文件,如果得到异常再从本地文件系统//去装载文件
URL url = new URL(pdfFile);
document = PDDocument.load(url);
// 获取PDF的文件名
String fileName = url.getFile();
// 以原来PDF的名称来命名新产生的txt文件
if (fileName.length() > 4) {
File outputFile = new File(fileName.substring(0, fileName
.length() - 4)
+ ".txt");
textFile = outputFile.getName();
}
} catch (MalformedURLException e) {
// 如果作为URL装载得到异常则从文件系统装载
System.out.println(pdfFile);
document = PDDocument.load(pdfFile);
if (pdfFile.length() > 4) {
textFile = pdfFile.substring(0, pdfFile.length() - 4)
+ ".txt";
}
}
// 文件输入流,写入文件倒textFile
output = new OutputStreamWriter(new FileOutputStream(textFile),encoding);
// PDFTextStripper来提取文本
PDFTextStripper stripper = null;
stripper = new PDFTextStripper();
// 设置是否排序
stripper.setSortByPosition(sort);
// 设置起始页
stripper.setStartPage(startPage);
// 设置结束页
stripper.setEndPage(endPage);
// 调用PDFTextStripper的writeText提取并输出文本
stripper.writeText(document, output);
} finally {
if (output != null) {
// 关闭输出流
output.close();
}
if (document != null) {
// 关闭PDF Document
document.close();
}
}
}
public static void main(String[] args) {
PdfboxTest test = new PdfboxTest();
try {
test.geText("D:\\dd.pdf");
} catch (Exception e) {
e.printStackTrace();
}
}
}
分享到:
相关推荐
PDF文件转换成TXT文档的方法详解 在电子书盛行的今天,很多用户发现他们的电子设备只能支持TXT格式,但经常会遇到一些优质资源以PDF格式存在。本文将详细介绍如何将PDF文件转换为TXT格式,以满足阅读需求。首先,...
迅捷PDF转换成Word转换器已经具备了最为全面的PDF转换模式,全面支持多种不同文件格式之间的转换,包括PDF转Word、PDF转Excel、PDF转图片、PDF转PPT、PDF转换HTML、PDF转TXT、图片转PDF、OFFICE转PDF。
在这个场景下,"VC++将pdf文件转换为txt格式提取文字内容" 提供了一种解决方案,使用C++编程语言来实现这个功能。 首先,我们需要了解PDF文件的结构。PDF文件是由Adobe Systems开发的一种文档格式,它包含了文本、...
"如何将pdf文件转换成txt"这个主题就是关于这个转换过程的教程。 PDF转TXT的工具,如"迅捷PDF转换成TXT转换器",提供了简单易用的界面和高效的工作流程。这类工具的主要功能是解析PDF文件的内容,并将其转化为纯...
本示例将详细介绍如何使用Java编程语言将一个简单的TXT文本文件转换为PDF格式的文件。这涉及到利用特定库来处理这两种不同格式的文件,以便在各种环境中保持文件的可读性和一致性。 首先,我们需要了解TXT和PDF两种...
总的来说,Python提供了多种方式将txt文件转换为PDF,从简单的文本写入到复杂的格式控制。`ReportLab`和`pdfdocument`等库为我们提供了丰富的功能,可以根据实际需求选择合适的方法。在编写代码时,确保处理好文本的...
然而,有时我们可能需要将PDF文件转换成更易于处理的文本格式,例如TXT。C#是一种常用的编程语言,适用于开发Windows应用程序,包括处理文件操作的任务。在本篇文章中,我们将深入探讨如何使用C#来读取PDF文件并将其...
PDF文件转换为TXT文档是日常工作中常见的需求,尤其是在处理大量文本数据时。PDF是一种便携式文档格式,常用于保持文档的原始布局和格式,但它的编辑性相对较差。相比之下,TXT文件则是一种纯文本格式,易于编辑和...
TXT文件转化为PDF文件源码 功能介绍: 将txt格式的转换为PDF文件,可以设置字体大小以及颜色, 也可以直接填写内容生成PDF格式文件附带图片转换功能, 可以将各种格式的图片进行转换。 注意: 开发环境为Visual ...
总结来说,PDF文件转换成Word在线工具,如迅捷PDF转换成TXT转换器,为用户提供了一种快速、便捷的解决方案,帮助他们轻松地将不可编辑的PDF文档转换为可编辑的Word文档,以适应不同的工作需求。尽管在线工具带来了...
在某些场景下,我们可能需要将PDF文件转换为TXT,以便于进行文本处理、搜索或分析。这个任务可以通过编程实现,比如使用C#语言结合第三方JAVA库来完成。下面我们将详细介绍如何利用C#实现PDF到TXT的转换,并涉及多...
你可以通过打开“如何把pdf文件转换成excel.txt”这个文件来查看转换后的结果。 值得注意的是,尽管这款工具在大多数情况下能提供良好的转换效果,但并非所有PDF都能完美转换。如果PDF包含复杂的图形、非标准的表格...
在“java将txt转换成pdf”的场景中,我们主要利用iText的功能将纯文本内容(如TXT文件)转换为更正式且具有丰富格式的PDF文件。这种转换在各种场合都非常有用,比如将报告、书籍或任何长文本内容格式化为易于阅读和...
首先,PDF转换器支持将PDF文件转换成Word格式,转换过程不仅保持原文档的版面布局,还能尽可能地保留原有的图像、表格和文字样式。这样,用户在转换后可以方便地对内容进行编辑、修改,无需手动重新输入,大大节省了...
要将PDF文件转换为TXT,我们需要先导入PDFBox库,然后使用`PDFTextStripper`类。以下是一个简单的Java代码示例: ```java import java.io.File; import java.io.FileOutputStream; import java.io.IOException...
然而,当需要对PDF文件进行文本编辑时,将其转换为TXT格式就显得非常必要了。Adobe Acrobat是一款功能强大的PDF处理软件,它提供了丰富的API(应用程序接口),包括COM接口,使得开发者可以利用这些接口来编写程序,...
txt文件转换pdf文件工具! txt文件转换pdf文件工具!
5. **保存为TXT文件**:将所有页面的文本合并,然后写入到一个TXT文件中。 这个项目提供了一个基础的框架,可以在此基础上扩展,例如添加多线程支持以提高转换速度,或者增加错误处理和用户界面来提高用户体验。总...
然而,在某些情况下,人们可能需要将PDF文件转换为TXT(纯文本格式),以便于编辑、搜索或处理文本。本文将详细介绍如何通过编程实现PDF到TXT的转换,并提供一个在Eclipse环境中可以直接运行的程序示例。 首先,...