`
cjc
  • 浏览: 680742 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

java读取pdf文件内容

阅读更多

java读取pdf文件内容

在java中要读取pdf文件内容,我们可以借助第三方软件实现。常用的是xpdf,本文就简单介绍在linux下如何安装xpdf,及在java中如何利用xpdf读取pdf文件内容。
一.安装xpdf
在fc系列下,不用安装,可以直接yum,但是笔者建议还是下载安装的好,因为笔者曾经碰到过这样的问题,客户服务器上的xpdf是yum安装的,有一些特殊的pdf文件就无法预览,但是将yum安装的xpdf卸载,然后下载xpdf安装程序,再重新安装后,就可以了。
1.下载
ok,我们需要下载的xpdf安装包主要有三个:
2.安装部署
(1)进入下载目录,将主程序解压至/usr,也可以是其他地方,根据个人情况而定。
#tarzvfxxpdf-3.01pl2-linux.tar.gz-C/usr
#cdusr
然后将其重命名,这样看起来简单点
mvxpdf-3.01pl2-linux/xpdf
(2)建立中文支持。回到下载目录,依次执行:
#tarzvfxxpdf-chinese-simplified.tar.gz-C/usr/xpdf
#mv/usr/xpdf/xpdf-chinese-simplified/usr/xpdf/chinese-simplified
#tarzvfxxpdf-chinese-traditional.tar.gz-C/usr/xpdf
#mv/usr/xpdf/xpdf-chinese-traditional/usr/xpdf/chinese-traditional
(3)配置环境
#vi/etc/bashrc
增加如下内容
export PATH=/usr/xpdf/:$PATH
确保重启机器后,在控制台输入xpdf不会提示找不到命令或文件即可。
(4)资源配置
#cd/usr/xpdf
#cpsample-xpdfrcxpdfrc
#vixpdfrc
*在文件开始处增加如下内容(将/usr/xpdf替换为xpdf的实际路径)*
#-----beginChineseSimplifiedsupportpackage(2004-jul-27)
cidToUnicodeAdobe-GB1
"/usr/xpdf/chinese-simplified/Adobe-GB1.cidToUnicode"
unicodeMapISO-
2022-CN"/usr/xpdf/chinese-simplified/ISO-2022-CN.unicodeMap"
unicodeMapEUC-CN
"/usr/xpdf/chinese-simplified/EUC-CN.unicodeMap"
unicodeMapGBK
"/usr/xpdf/chinese-simplified/GBK.unicodeMap"
cMapDirAdobe-GB1
"/usr/xpdf/chinese-simplified/CMap"
toUnicodeDir
"/usr/xpdf/chinese-simplified/CMap"
#displayCIDFontTTAdobe-GB1/usr/..../gkai00mp.ttf
#-----endChineseSimplifiedsupportpackage
#-----beginChineseTraditionalsupportpackage(2004-jul-27)
cidToUnicodeAdobe-CNS1
"/usr/xpdf/chinese-traditional/Adobe-CNS1.cidToUnicode"
unicodeMapBig5
"/usr/xpdf/chinese-traditional/Big5.unicodeMap"
unicodeMapBig5ascii
"/usr/xpdf/chinese-traditional/Big5ascii.unicodeMap"
cMapDirAdobe-CNS1
"/usr/xpdf/chinese-traditional/CMap"
toUnicodeDir
"/usr/xpdf/chinese-traditional/CMap"
#displayCIDFontTTAdobe-CNS1/usr/..../bkai00mp.ttf
#-----endChineseTraditionalsupportpackage
然后再执行:
#cpxpdfrc/usr/local/etc/
好了,到这里我们也就安装完成了。下面介绍如何利用xpdf读取pdf文件的内容
二.利用xpdf读取pdf文件的内容
方法很简单,利用著名的Runtime.getRuntime()即可,如下:
/***//**
*
@paramfilePathpdf文件路径
*
@return
*/

publicStringgetPdfContent(StringfilePath)...{
Stringexcute
="pdftotext";

String[]cmd
=newString[]...{excute,"-enc","UTF-8","-q",filePath,"-"};
Processp
=null;
try...{
p
=Runtime.getRuntime().exec(cmd);
}
catch(IOExceptione)...{
e.printStackTrace();
}


BufferedInputStreambis
=newBufferedInputStream(p.getInputStream());

InputStreamReaderreader
=null;

try...{
reader
=newInputStreamReader(bis,"UTF-8");
}
catch(UnsupportedEncodingExceptione1)...{
e1.printStackTrace();
}


StringBuffersb
=newStringBuffer();

try...{
BufferedReaderbr
=newBufferedReader(reader);
Stringline
=br.readLine();
sb
=newStringBuffer();
while(line!=null)...{
sb.append(line);
sb.append(
" ");
line
=br.readLine();
}

}
catch(Exceptione)...{
e.printStackTrace();
}


returnsb.toString();
}
分享到:
评论

相关推荐

    Java 读取PDF文件

    在Java编程环境中,读取PDF文件是一项常见的任务,特别是在开发桌面应用或需要处理PDF文档内容时。本篇文章将深入探讨如何使用Java来读取PDF文件,并将其内容展示在一个由JFrame和JPanel构建的GUI窗口中。 首先,...

    java 读取PDF文件中的内容

    接下来,我们可以通过以下步骤读取PDF文件内容: 1. **初始化PDF文档**:使用`PDDocument`类加载PDF文件。这是一个重要的步骤,因为`PDDocument`是处理PDF文档的主要类。 ```java File file = new File("path_to_...

    java读取pdf文件属性

    本文将深入探讨如何使用Java读取PDF文件的属性,如作者、标题等元数据,以及相关的知识点。 ### 一、Java读取PDF文件属性的技术背景 在Java中读取PDF文件属性主要依赖于开源库PDFBox。PDFBox是一个用于处理PDF文档...

    强悍的java读取PDF文件

    在IT行业中,处理PDF...总的来说,Java中读取PDF文件内容主要依赖于第三方库,如Apache PDFBox,同时也可结合命令行工具如XPDF进行操作。根据实际需求,选择合适的方法并结合具体的库和工具,可以高效地处理PDF文件。

    Java 读取pdf文件中的数据

    ### Java读取PDF文件中的数据 #### 知识点概览 本文将详细介绍如何使用Java语言来读取PDF文件中的文本内容。此方法简洁高效,适用于处理大量的PDF文档。主要涉及的技术栈包括Java编程基础、PDFBox库的使用以及文件I...

    [Java]读取文件方法大全.pdf

    Java 中可以使用 FileInputStream 类来实现按字节读取文件内容。 在上面的代码中,我们定义了一个 readFileByBytes 方法,该方法使用 FileInputStream 类来读取文件的内容。首先,我们创建了一个 FileInputStream ...

    JAVA读取PDF中的文件内容需要的jar

    总之,Java读取PDF文件内容需要依赖如Apache PDFBox这样的第三方库,通过它们提供的API可以方便地实现PDF文本的提取。在开发过程中,确保正确添加JAR文件,并理解库的使用方法,可以有效地实现PDF文档的读取和处理。

    java读取pdf的文字、图片、线条和对应坐标

    pdf文档的内容都是坐标定位的,文档内容主要包含文本、图片、线条;需要用到pdfbox和pdf2dom两个依赖包

    java读取PDF显示于浏览器

    3. **Java读取PDF**:使用PDFBox,你可以通过`PDDocument.load()`方法加载PDF文件,然后使用`PDFPage.getGraphics()`获取页面的图形内容。iText提供了`PdfReader`类来读取PDF,并可以使用`PdfStamper`或`PdfCopy`...

    java读写pdf文件,教程文档与实例

    java读写pdf文件,教程文档都有,用读写pdf文件的方式做表格显示与打印效果很不错

    JAVA读取WORD_EXCEL_POWERPOINT_PDF文件的方法(poi)

    JAVA 读取 WORD_EXCEL_POWERPOINT_PDF 文件的方法(poi) JAVA 读取 WORD_EXCEL_POWERPOINT_PDF 文件的方法是使用 Apache POI 库来实现的。POI 库是一个开放源代码的 Java 库,提供了对 Microsoft Office 文件格式...

    java读取word,pdf格式文档方法

    Java 读取 Word、PDF 格式文档方法 Java 是一种广泛应用的编程语言,对文档操作是其重要的应用场景之一。本文将介绍 Java 如何读取 Word、PDF 格式文档的几种方法。 使用 Jacob Jacob 是一个桥接工具,连接 Java ...

    定时读取PDF文件,并批量插入到数据库

    在IT行业中,定时任务是常见的自动化操作,而本项目的核心在于定时读取PDF文件并将其内容批量插入到数据库。这个任务涉及到多个技术点,包括线程管理、PDF处理、数据库操作以及工具类的设计。以下是对这些知识点的...

    用Java读取pdf中的数据

    以下是一个基本的示例代码,展示如何使用iText的`PdfReader`读取PDF文件: ```java import com.itextpdf.text.pdf.PdfReader; import com.itextpdf.text.pdf.parser.PdfTextExtractor; public class ...

    Java读取资源文件时内容过长与换行的处理

    ### Java读取资源文件时内容过长与换行的处理 在Java开发过程中,经常会遇到需要读取资源文件的情况,比如配置文件、属性文件等。这些文件中的内容有时会非常长,或者为了提高可读性,需要进行换行处理。本文将详细...

    Java 解析 PDF, pdfbox读取PDF内容

    注意,`PDDocument.load()`方法需要PDF文件的路径,你需要替换`"path_to_your_pdf_file"`为实际的文件路径。另外,务必在完成操作后调用`document.close()`,以释放系统资源。 对于更复杂的PDF解析任务,如提取特定...

    Java 读写docx文件后直接转成PDF方法

    - 使用Apache POI读取docx文件内容。 - 解析docx文件的XML结构,获取文本、样式、图像等元素。 - 使用iText或PDFBox创建新的PDF文档,并按照docx的布局和样式在PDF中重建内容。 - 将docx的内容逐个添加到PDF中,...

    Java实现PDF读写(Itext)与解析XML读写(Dom4j)

    一、用JAVA完成了PDF读写(IText的应用) 加密PDF文件,引用到的JAR包是 bcprov-jdk15on-147 生成PDF文件,引用到的JAR包是itext5.5.1 项目文件为PDFText.java 主要实现功能: 1、创建一个PDF文件:HelloWorld.pdf,...

    java读取显示pdf

    标题"java读取显示pdf"提示我们需要关注Java如何处理PDF文件,而描述则强调了几个关键特性:上下翻页、预览、全屏以及打印功能。 1. **Java与PDF处理库**: - Apache PDFBox:这是一个Apache软件基金会的项目,...

    java获取pdf文件内容

    这里包含了一个FontBox-0.1.0.jar和pdfbox-0.7.3.jar两个jar包,还有一个PdfReader.java文件,很简单,建立一个...把main方法里面的pdf文件路径改下,最后右击执行java类就OK了! 目前无法批量执行!需要进一步优化!

Global site tag (gtag.js) - Google Analytics