`
jackmisweijie
  • 浏览: 72401 次
  • 性别: Icon_minigender_1
  • 来自: 河南
社区版块
存档分类
最新评论

用Java读取pdf中的数据

    博客分类:
  • Java
阅读更多
用Java简单的读取pdf文件中的数据:
第一步:下载PDFBox-0.7.2.jar。提供一个下载地址:http://pdfhome.hope.com.cn/Resource.aspx?CID=63844604-5253-4ae1-b023-258c9e324061&RID=20cd8f94-1cee-40b6-a3df-0ef024f8e0d2解压后,把lib文件下的PDFBox-0.7.2.jar,PDFBox-0.7.2-log4j.jar放到你classpath路径下。(我把源码以及jar包都放到下面的附件里,方面你的使用。)
第二步:写个简单的读取pdf文件的程序。(PdfReader.java)
import java.io.File;
import java.io.FileOutputStream;
import java.io.OutputStreamWriter;
import java.io.Writer;
import java.net.MalformedURLException;
import java.net.URL;
import org.pdfbox.pdmodel.PDDocument;
import org.pdfbox.util.PDFTextStripper;
public class PdfReader {
 public void readFdf(String file) throws Exception {
  // 是否排序
  boolean sort = false;
  // pdf文件名
  String pdfFile = file;
  // 输入文本文件名称
  String textFile = null;
  // 编码方式
  String encoding = "UTF-8";
  // 开始提取页数
  int startPage = 1;
  // 结束提取页数
  int endPage = Integer.MAX_VALUE;
  // 文件输入流,生成文本文件
  Writer output = null;
  // 内存中存储的PDF Document
  PDDocument document = null;
  try {
   try {
    // 首先当作一个URL来装载文件,如果得到异常再从本地文件系统//去装载文件
    URL url = new URL(pdfFile);
   //注意参数已不是以前版本中的URL.而是File。
    document = PDDocument.load(pdfFile);
    // 获取PDF的文件名
    String fileName = url.getFile();
    // 以原来PDF的名称来命名新产生的txt文件
    if (fileName.length() > 4) {
     File outputFile = new File(fileName.substring(0, fileName
       .length() - 4)
       + ".txt");
     textFile = outputFile.getName();
    }
   } catch (MalformedURLException e) {
    // 如果作为URL装载得到异常则从文件系统装载
   //注意参数已不是以前版本中的URL.而是File。
    document = PDDocument.load(pdfFile);
    if (pdfFile.length() > 4) {
     textFile = pdfFile.substring(0, pdfFile.length() - 4)
       + ".txt";
    }
   }
   // 文件输入流,写入文件倒textFile
   output = new OutputStreamWriter(new FileOutputStream(textFile),
     encoding);
   // PDFTextStripper来提取文本
   PDFTextStripper stripper = null;
   stripper = new PDFTextStripper();
   // 设置是否排序
   stripper.setSortByPosition(sort);
   // 设置起始页
   stripper.setStartPage(startPage);
   // 设置结束页
   stripper.setEndPage(endPage);
   // 调用PDFTextStripper的writeText提取并输出文本
   stripper.writeText(document, output);
  } finally {
   if (output != null) {
    // 关闭输出流
    output.close();
   }
   if (document != null) {
    // 关闭PDF Document
    document.close();
   }
  }
 }
 /**
  * @param args
  */
 public static void main(String[] args) {
  // TODO Auto-generated method stub
  PdfReader pdfReader = new PdfReader();
  try {
   // 取得E盘下的SpringGuide.pdf的内容
   pdfReader.readFdf("E:\\SpringGuide.pdf");
  } catch (Exception e) {
   e.printStackTrace();
  }
 }
}
   这样就简单的完成了从pdf中读取数据了。在你的pdf文件所在的目录下生成一个同名的txt文件。
2
1
分享到:
评论
4 楼 mapleting 2011-11-23  
很好的东东哦,谢谢分享
3 楼 hntjzln 2011-10-26  
接下来有个项目,可能会用到,先存着
2 楼 iranger 2008-11-20  
哈哈,多谢,正好要用到
1 楼 isky 2008-07-17  
恩  不错哦

相关推荐

    Java 读取pdf文件中的数据

    ### Java读取PDF文件中的数据 #### 知识点概览 本文将详细介绍如何使用Java语言来读取PDF文件中的文本内容。此方法简洁高效,适用于处理大量的PDF文档。主要涉及的技术栈包括Java编程基础、PDFBox库的使用以及文件I...

    java读取pdf文件属性

    本文将深入探讨如何使用Java读取PDF文件的属性,如作者、标题等元数据,以及相关的知识点。 ### 一、Java读取PDF文件属性的技术背景 在Java中读取PDF文件属性主要依赖于开源库PDFBox。PDFBox是一个用于处理PDF文档...

    Java 读取PDF文件

    本篇文章将深入探讨如何使用Java来读取PDF文件,并将其内容展示在一个由JFrame和JPanel构建的GUI窗口中。 首先,我们需要引入一个能够处理PDF的库。Apache PDFBox是一个广泛使用的开源Java库,它可以方便地读取、...

    java 读取PDF文件中的内容

    在Java编程环境中,读取PDF文件中的内容是一个常见的任务,特别是在处理文档自动化或者数据分析时。PDF(Portable Document Format)是一种跨平台的文件格式,用于精确地保留文档的格式和内容。下面将详细介绍如何...

    java读取PDF显示于浏览器

    Java读取PDF并显示在浏览器是一项常见的技术需求,特别是在Web应用中,用户可能需要预览或下载PDF文档。为了实现这一功能,我们需要了解几个关键知识点: 1. **PDF阅读器集成**:描述中提到的前提是本地电脑需要...

    Java 解析 PDF, pdfbox读取PDF内容

    在本示例中,我们将专注于如何使用PDFBox读取PDF的内容。 首先,你需要在你的项目中引入PDFBox库。如果你使用的是Maven,可以在pom.xml文件中添加以下依赖: ```xml <groupId>org.apache.pdfbox <artifactId>...

    java 读取 PDF

    总结起来,Java读取PDF涉及的主要知识点有: 1. 引入第三方库(如iText或Apache PDFBox)。 2. 使用库提供的API读取PDF内容,如`PdfReader`和`PdfTextExtractor`(iText),或`PDDocument`和`PDFTextStripper`...

    定时读取PDF文件,并批量插入到数据库

    在这个场景中,可能需要读取PDF中的特定数据,如表格或文本段落,然后进行后续处理。 3. **批量插入**:为了高效地将大量数据(38万条)插入数据库,一般会采用批量操作,而不是一条一条插入。Java的JDBC API支持...

    JAVA读取WORD_EXCEL_POWERPOINT_PDF文件的方法(poi)

    JAVA 读取 WORD_EXCEL_POWERPOINT_PDF 文件的方法是使用 Apache POI 库来实现的。POI 库是一个开放源代码的 Java 库,提供了对 Microsoft Office 文件格式的读写能力。 读取 WORD 文件 在读取 WORD 文件时,需要...

    Java实现PDF读写(Itext)与解析XML读写(Dom4j)

    一、用JAVA完成了PDF读写(IText的应用) 加密PDF文件,引用到的JAR包是 bcprov-jdk15on-147 生成PDF文件,引用到的JAR包是itext5.5.1 项目文件为PDFText.java 主要实现功能: 1、创建一个PDF文件:HelloWorld.pdf,...

    java 从pdf模板中导出数据

    IText是一个开源的Java库,用于创建、修改和读取PDF文档。它支持多种功能,如添加文本、图像、链接,甚至可以用于处理复杂的表单和模板。为了使用IText,你需要在项目中导入相应的jar包,这通常可以从IText官网...

    java识别pdf图片中的文字

    Java识别PDF图片中的文字是一项常见的任务,特别是在文档处理和数据提取领域。Tess4J是一个强大的工具,它基于Tesseract OCR(光学字符识别)引擎,能够帮助开发者在Java应用程序中实现这一功能。以下是对这个主题的...

    java读取PDF文件需要的包

    总结起来,Java读取PDF文件的关键在于使用合适的库,如Apache PDFBox及其依赖的FontBox。这两个库提供了全面的API和工具,涵盖了从基本的PDF解析到复杂的字体处理,是Java程序员处理PDF文档的强大武器。在使用过程中...

    .NET生成PDF 读取PDF文本内容 获取PDF内图片

    对于读取PDF文本内容,可以使用PDFBox(Java库,但有.NET绑定)或者PDF Clown(完全用.NET编写的库)。这些库提供了API来解析PDF文档,提取文本和元数据。例如,使用PDFBox,你可以打开PDF文件,遍历其页面,然后从...

    java 写的转pdf代码,支持表格内容的中文换行

    在Java开发中,将HTML内容转换为PDF是一种常见的需求,特别是在报表生成、文档输出或网页打印等场景。这个“java写的转pdf代码”是专为此目的设计的,它支持中文字符的正确换行以及表格内容的布局,同时允许开发者...

    利用java读取Excel中的数据的方法.pdf

    本文档介绍如何使用Java语言读取Excel文件中的数据。由于文档中部分内容是通过OCR扫描而来,可能存在一些技术性识别错误和不完整情况,以下是根据提供的内容提炼的知识点整理。 首先,文档提到了读取Excel文件所需...

Global site tag (gtag.js) - Google Analytics