`

如何把pdf文件转换为txt文件

    博客分类:
  • java
阅读更多

在这里我用了两个包一个是PDFBox-0.3.7.jar  一个是FontBox-0.1.0-dev.jar前面的一个包要用到后面的包所以不要忘记引入第二个包,两个包我都放在下面

 

功能实现代码如下

 

 

import java.io.File;
import java.io.FileOutputStream;
import java.io.OutputStreamWriter;
import java.io.Writer;
import java.net.MalformedURLException;
import java.net.URL;

import org.pdfbox.pdmodel.PDDocument;
import org.pdfbox.util.PDFTextStripper;

public class PdfboxTest {
 public static final String DEFAULT_ENCODING = "UTF-8";

 // "ISO-8859-1";
 // "ISO-8859-6";
 // "US-ASCII";
 // "UTF-8";
 // "UTF-16";
 // "UTF-16BE";
 // "UTF-16LE";
 public void geText(String file) throws Exception {
  // 是否排序
  boolean sort = false;
  // pdf文件名
  String pdfFile = file;
  // 输入文本文件名称
  String textFile = null;
  // 编码方式
  String encoding = "UTF-8";
  // 开始提取页数
  int startPage = 1;
  // 结束提取页数
  int endPage = Integer.MAX_VALUE;
  // 文件输入流,生成文本文件
  Writer output = null;
  // 内存中存储的PDF Document
  PDDocument document = null;
  try {
   try {
    // 首先当作一个URL来装载文件,如果得到异常再从本地文件系统//去装载文件
    URL url = new URL(pdfFile);
    document = PDDocument.load(url);
    // 获取PDF的文件名
    String fileName = url.getFile();
    // 以原来PDF的名称来命名新产生的txt文件
    if (fileName.length() > 4) {
     File outputFile = new File(fileName.substring(0, fileName
       .length() - 4)
       + ".txt");
     textFile = outputFile.getName();
    }
   } catch (MalformedURLException e) {
    // 如果作为URL装载得到异常则从文件系统装载
    System.out.println(pdfFile);
    document = PDDocument.load(pdfFile);
    if (pdfFile.length() > 4) {
     textFile = pdfFile.substring(0, pdfFile.length() - 4)
       + ".txt";
    }
   }
   // 文件输入流,写入文件倒textFile
   output = new OutputStreamWriter(new FileOutputStream(textFile),encoding);
   // PDFTextStripper来提取文本
   PDFTextStripper stripper = null;
   stripper = new PDFTextStripper();
   // 设置是否排序
   stripper.setSortByPosition(sort);
   // 设置起始页
   stripper.setStartPage(startPage);
   // 设置结束页
   stripper.setEndPage(endPage);
   // 调用PDFTextStripper的writeText提取并输出文本
   stripper.writeText(document, output);
  } finally {
   if (output != null) {
    // 关闭输出流
    output.close();
   }
   if (document != null) {
    // 关闭PDF Document
    document.close();
   }
  }
 }

 public static void main(String[] args) {
  PdfboxTest test = new PdfboxTest();
  try {
   test.geText("D:\\dd.pdf");
  } catch (Exception e) {
   e.printStackTrace();
  }
 }

}

 

 

分享到:
评论

相关推荐

    如何把pdf文件转换成TXT文档

    PDF文件转换成TXT文档的方法详解 在电子书盛行的今天,很多用户发现他们的电子设备只能支持TXT格式,但经常会遇到一些优质资源以PDF格式存在。本文将详细介绍如何将PDF文件转换为TXT格式,以满足阅读需求。首先,...

    如何把pdf文件转换成txt

    迅捷PDF转换成Word转换器已经具备了最为全面的PDF转换模式,全面支持多种不同文件格式之间的转换,包括PDF转Word、PDF转Excel、PDF转图片、PDF转PPT、PDF转换HTML、PDF转TXT、图片转PDF、OFFICE转PDF。

    VC++将pdf文件转换为txt格式提取文字内容

    在这个场景下,"VC++将pdf文件转换为txt格式提取文字内容" 提供了一种解决方案,使用C++编程语言来实现这个功能。 首先,我们需要了解PDF文件的结构。PDF文件是由Adobe Systems开发的一种文档格式,它包含了文本、...

    如何将pdf文件转换成txt

    "如何将pdf文件转换成txt"这个主题就是关于这个转换过程的教程。 PDF转TXT的工具,如"迅捷PDF转换成TXT转换器",提供了简单易用的界面和高效的工作流程。这类工具的主要功能是解析PDF文件的内容,并将其转化为纯...

    Java代码实现txt文件转pdf文件

    本示例将详细介绍如何使用Java编程语言将一个简单的TXT文本文件转换为PDF格式的文件。这涉及到利用特定库来处理这两种不同格式的文件,以便在各种环境中保持文件的可读性和一致性。 首先,我们需要了解TXT和PDF两种...

    Python将txt文件转成pdf文件

    总的来说,Python提供了多种方式将txt文件转换为PDF,从简单的文本写入到复杂的格式控制。`ReportLab`和`pdfdocument`等库为我们提供了丰富的功能,可以根据实际需求选择合适的方法。在编写代码时,确保处理好文本的...

    c#读取pdf并另存为txt

    然而,有时我们可能需要将PDF文件转换成更易于处理的文本格式,例如TXT。C#是一种常用的编程语言,适用于开发Windows应用程序,包括处理文件操作的任务。在本篇文章中,我们将深入探讨如何使用C#来读取PDF文件并将其...

    PDF文件转TXT文档

    PDF文件转换为TXT文档是日常工作中常见的需求,尤其是在处理大量文本数据时。PDF是一种便携式文档格式,常用于保持文档的原始布局和格式,但它的编辑性相对较差。相比之下,TXT文件则是一种纯文本格式,易于编辑和...

    TXT文件转化为PDF文件源码2012711

    TXT文件转化为PDF文件源码 功能介绍: 将txt格式的转换为PDF文件,可以设置字体大小以及颜色, 也可以直接填写内容生成PDF格式文件附带图片转换功能, 可以将各种格式的图片进行转换。 注意: 开发环境为Visual ...

    pdf文件转换成word 在线

    总结来说,PDF文件转换成Word在线工具,如迅捷PDF转换成TXT转换器,为用户提供了一种快速、便捷的解决方案,帮助他们轻松地将不可编辑的PDF文档转换为可编辑的Word文档,以适应不同的工作需求。尽管在线工具带来了...

    C# PDF转换为TXT文件

    在某些场景下,我们可能需要将PDF文件转换为TXT,以便于进行文本处理、搜索或分析。这个任务可以通过编程实现,比如使用C#语言结合第三方JAVA库来完成。下面我们将详细介绍如何利用C#实现PDF到TXT的转换,并涉及多...

    如何把pdf文件转换成excel

    你可以通过打开“如何把pdf文件转换成excel.txt”这个文件来查看转换后的结果。 值得注意的是,尽管这款工具在大多数情况下能提供良好的转换效果,但并非所有PDF都能完美转换。如果PDF包含复杂的图形、非标准的表格...

    java将txt转换成pdf

    在“java将txt转换成pdf”的场景中,我们主要利用iText的功能将纯文本内容(如TXT文件)转换为更正式且具有丰富格式的PDF文件。这种转换在各种场合都非常有用,比如将报告、书籍或任何长文本内容格式化为易于阅读和...

    PDF转换器(把pdf文件转换成word文件或者TXT格式)

    首先,PDF转换器支持将PDF文件转换成Word格式,转换过程不仅保持原文档的版面布局,还能尽可能地保留原有的图像、表格和文字样式。这样,用户在转换后可以方便地对内容进行编辑、修改,无需手动重新输入,大大节省了...

    pdf文件内容写入txt的源码及jar包

    要将PDF文件转换为TXT,我们需要先导入PDFBox库,然后使用`PDFTextStripper`类。以下是一个简单的Java代码示例: ```java import java.io.File; import java.io.FileOutputStream; import java.io.IOException...

    将PDF文件转为TXT文件

    然而,当需要对PDF文件进行文本编辑时,将其转换为TXT格式就显得非常必要了。Adobe Acrobat是一款功能强大的PDF处理软件,它提供了丰富的API(应用程序接口),包括COM接口,使得开发者可以利用这些接口来编写程序,...

    txt文件转换pdf文件工具

    txt文件转换pdf文件工具! txt文件转换pdf文件工具!

    pdf文件中的文字转换成txt

    5. **保存为TXT文件**:将所有页面的文本合并,然后写入到一个TXT文件中。 这个项目提供了一个基础的框架,可以在此基础上扩展,例如添加多线程支持以提高转换速度,或者增加错误处理和用户界面来提高用户体验。总...

    pdf转换成txt

    然而,在某些情况下,人们可能需要将PDF文件转换为TXT(纯文本格式),以便于编辑、搜索或处理文本。本文将详细介绍如何通过编程实现PDF到TXT的转换,并提供一个在Eclipse环境中可以直接运行的程序示例。 首先,...

Global site tag (gtag.js) - Google Analytics