`

Java 解析 PDF, pdfbox读取PDF内容

 
阅读更多

import java.io.ByteArrayOutputStream;
import java.io.File;
import java.io.OutputStreamWriter;

import org.pdfbox.pdmodel.PDDocument;
import org.pdfbox.util.PDFTextStripper;

public class Pdftext {
 public static String getTxt(File f) throws Exception {
  String ts = "";
  try {
   String temp = "";
   PDDocument pdfdocument = PDDocument.load(f);

   ByteArrayOutputStream out = new ByteArrayOutputStream();
   OutputStreamWriter writer = new OutputStreamWriter(out);
   PDFTextStripper stripper = new PDFTextStripper();

   stripper.writeText(pdfdocument.getDocument(), writer);

   pdfdocument.close();
   out.close();
   writer.close();
   byte[] contents = out.toByteArray();
   ts = new String(contents);
   System.out.println(f.getName() + "length is:" + contents.length
     + "\n");
  } catch (Exception e) {
   e.printStackTrace();
  } finally {
   return ts;
  }
 }

 public static void main(String[] args) throws Exception {
  
     File file = new File("d:/hello.pdf"); 
     System.out.println(Pdftext.getTxt(file));
  
  
/*
  File file = new File("d:/hello.pdf");
  FileInputStream fis = new FileInputStream(file);
  BufferedInputStream bis = new BufferedInputStream(fis);
  PDFParser parser = new PDFParser(bis);

  //
  parser.parse();
  PDDocument document = parser.getPDDocument();

  PDFTextStripper stripper = new PDFTextStripper();
  String s = stripper.getText(document);

  // ////////////
  document.close();// /////////
  bis.close();

  // //////////
  File ff = new File("d:/hello.pdf");
  ff.createNewFile();

  if (ff.exists())

  {
   ff.createNewFile();
  }

  FileWriter fw = new FileWriter(ff);

  BufferedWriter bw = new BufferedWriter(fw);

  bw.write(s);
  bw.close();*/

 }

}

分享到:
评论

相关推荐

    【Java】基于Pdfbox解析PDF文档中指定位置的文字和图片

    Apache PDFBox是一个开源Java库,支持PDF文档的开发和转换。 我们可以使用PDFBox开发可以创建,转换和操作PDF文档的Java程序。PDFBox的主要功能: Extract Text – 使用PDFBox,您可以从PDF文件中提取Unicode文本。 ...

    pdfbox java解析pdf文档jar包+源代码+帮助文档+example

    本资源包含PDFBox的Java解析PDF文档所需的jar包,源代码,帮助文档以及示例(example),对于学习和使用PDFBox进行PDF操作具有极大的帮助。 首先,让我们深入了解一下PDFBox的主要功能: 1. **读取PDF文档**:...

    java解析pdf框架pdfbox

    3. 使用PDFBox解析PDF 要解析PDF文档,首先需要加载文档: ```java PDDocument document = PDDocument.load(new File("123.pdf")); ``` 然后可以使用PDFTextStripper来提取文本: ```java PDFTextStripper ...

    JAVA 解析电子发票 解析PDF 精准读取想要的数据 源码+JAR包

    最近有个项目是要求将PDF版的电子发票,解析成文本格式,要求各个名称都对应,刚开始用的是PDFTextStripper.getText(),发现不能准确的抓到自己想要的数据,后来想了个办法,使用Rectangle,画多个矩形,精准定位,...

    java读取pdf的文字、图片、线条和对应坐标

    pdf文档的内容都是坐标定位的,文档内容主要包含文本、图片、线条;需要用到pdfbox和pdf2dom两个依赖包

    java 读取PDF文件中的内容

    在Java编程环境中,读取PDF文件中的内容是一个常见的任务,特别是在处理文档自动化或者数据分析时。PDF(Portable Document Format)是一种跨平台的文件格式,用于精确地保留文档的格式和内容。下面将详细介绍如何...

    java解析pdf

    Java解析PDF主要依赖于第三方库,如Apache PDFBox、iText、PDFRenderer等。这里我们将重点介绍Apache PDFBox,它是一个开源的Java库,提供了丰富的API来读取、创建、编辑PDF文档。 1. **Apache PDFBox简介** ...

    java创建和解析PDF

    接下来,我们将探讨如何使用Java解析PDF文件为TXT文本。同样,可以使用Apache PDFBox库来实现这一功能。以下是一个基本的PDF解析示例: 1. 打开PDF文档:使用`PDDocument`加载PDF文件。 ```java PDDocument ...

    pdfbox 解析pdf里的图片和文字

    PDFBox是Apache软件基金会的一个...总之,PDFBox是Java开发中处理PDF文档的强大工具,能够有效地帮助你解析PDF中的图片和文字,以及其他各种PDF元素。通过熟练掌握PDFBox的API,你可以构建出功能丰富的PDF处理应用。

    用Java读取pdf中的数据

    使用PDFBox读取PDF数据的基本步骤如下: ```java import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.text.PDFTextStripper; public class PdfBoxExample { public static void main(String...

    pdfbox读取Pdf

    在这个“pdfbox读取Pdf”的示例中,我们将深入探讨如何使用PDFBox库读取PDF文件中的文字、数字和英文。 首先,要使用PDFBox读取PDF文档,你需要在项目中引入PDFBox的依赖。如果你使用的是Maven,可以在pom.xml文件...

    java使用pdfbox打印PDF

    PDFBox是由Apache软件基金会开发的Java库,其主要功能包括PDF文档的解析、生成、修改和显示。在PDFBox 2.0.8版本中,包含了对PDF文档处理的多种优化和增强,使得开发者能够更高效地处理PDF任务。 要使用PDFBox打印...

    java解析pdf实例

    在压缩包文件"Demo"中,可能包含了一个简单的Java项目,演示了如何结合使用jsoup抓取网页上的PDF链接,并用PDFBox读取下载的PDF内容。项目可能分为两个部分:一个用于下载PDF,另一个用于解析PDF。 总结,这个实例...

    pdfbox2.0.12读取pdf.zip

    利用pdfbox读取pdf内容 ,对于大部分未加过密或不是用图片生成的pdf能读出来. 引入pdfbox-app-2.0.12, IKVM.Runtime, IKVM.OpenJDK.Util, IKVM.OpenJKD.Text IKVM.OpenJKD.SwingAWT IKVM.OpenJKD.Core 后运行按照...

    pdfbox读取pdf内容

    在标题中提到的"pdfbox读取pdf内容",我们将深入探讨如何使用PDFBox来实现这一功能。 首先,我们需要了解PDFBox的基本结构。PDFBox主要由两个核心模块组成,它们是`pdfbox-1.8.2.jar`和`fontbox-1.8.2.jar`。`...

    Java 解析 pdf文件用到的jar包

    总结来说,Java解析PDF文件的关键在于利用PDFBox和FontBox这两个库。PDFBox提供了一套强大的工具集,用于读取、修改和创建PDF文档,而FontBox则专注于处理PDF中的字体,确保文本的正确呈现。通过熟练掌握这两个库,...

    java解析PDF所需的基础jar包

    这个库允许开发者读取PDF文件内容,包括文本、图像、链接等,还能编辑PDF元数据,添加或删除页面,甚至创建新的PDF文档。例如,你可以使用`PDFTextStripper`类来提取PDF中的文本。 2. **FontBox**: `fontbox-...

    Java解析PDF文件源代码(代码中有详细注释)

    首先,Java解析PDF文件通常需要依赖特定的库,例如Apache PDFBox。在这个压缩包中,我们找到了PDFBox-0.6.6.jar,这是Apache PDFBox的一个旧版本,它提供了读取、写入和操作PDF文件的功能。PDFBox库包含了一系列的...

Global site tag (gtag.js) - Google Analytics