纯文本格式的pdf解析 - - ITeye博客

`

伊然01

浏览: 307889 次
性别:
来自: 南京

最近访客更多访客>>

萧_瑟

ybfjavaeye

kjk

Netpet_11

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

it_like：请问：x-forwarded-for 是什么时候加入HTTP头 ...
获取当前访问客户端的真实IP地址（含内网地址）
bluend1004： mark下~~~谢谢分享喽~~
PL/SQL快捷键设置
hastune：统计一下典型就好了比如取得map的值${user.values ...
EL表达式 EL

纯文本格式的pdf解析

博客分类：

Java

阅读更多

纯文本格式的pdf解析出来了，解析纯文本的代码如下：
package pdfbox;
import java.io.ByteArrayOutputStream;
import java.io.FileWriter;
import java.io.IOException;
import java.io.PrintWriter;
import java.io.OutputStreamWriter;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.util.PDFTextStripper;
import org.apache.*;

public class pdf2 {
public static String getText(String file){
String s="";
String pdffile=file;
PDDocument pdfdoc=null;
try {
pdfdoc=PDDocument.load(pdffile);
PDFTextStripper stripper=new PDFTextStripper();
s=stripper.getText(pdfdoc);

} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
finally{
try {
if (pdfdoc!=null){
pdfdoc.close();
}
}catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
return s;
}
public static void toTextFile(String doc,String filename) throws Exception{
String pdffile=doc;
PDDocument pdfdoc=PDDocument.load(doc);
try {
pdfdoc=PDDocument.load(pdffile);
PDFTextStripper stripper=new PDFTextStripper();
PrintWriter pw=new PrintWriter(new FileWriter(filename));
stripper.writeText(pdfdoc, pw);

} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
finally{
try {
if (pdfdoc!=null){
pdfdoc.close();
}
}catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}

}
/**
* @param args
*/
public static void main(String[] args) {
// TODO Auto-generated method stub
try {
String sc=getText("E:/solution.pdf");
System.out.print(sc);
toTextFile("E:/solution.pdf","E:/solution.txt");
} catch (Exception e) {
// TODO Auto-generated catch block
e.printStackTrace();
}

}

}

org.apache.pdfbox.pdmodel.PDDocument
用的是pdfbox-1.2.1.zip

分享到：

Spring 配置log4j(转) | js中this 用法

2011-03-21 08:48
浏览 1646
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

PDF转换为Text纯文本文件的小工具: PDF转换为Text纯文本文件是IT领域中常见的文件格式转换操作，主要涉及到PDF文档的解析和文本抽取技术。本文将详细介绍这一过程，并结合C#编程语言进行探讨。 PDF（Portable Document Format）是一种由Adobe Systems...

java解析PDF文件: java解析PDF格式的文件demo。JAVA实现PDF解析，对PDF文件中的文本内容可输出仅供参考学习，不喜勿喷。

java代码pdf解析成xml.rar: Java代码PDF解析成XML是一项技术任务，涉及到Java编程语言、PDF文档处理和XML数据格式转换。在这个场景中，我们主要关注如何使用Java库iTextPDF将PDF文档中的内容解析为XML结构。首先，我们需要理解PDF（Portable ...

PDF本地解析Demo: PDF本地解析Demo是一款针对PDF文件的轻量级阅读应用，主要设计用于在移动设备上通过WebView组件实现...通过深入理解PDF解析原理和技术，开发者可以进一步扩展其功能，如添加注释、搜索、书签等，以满足更多用户需求。

PDF转换为文本格式: 这个过程涉及将PDF（Portable Document Format）文件的内容提取出来，转化为纯文本或可编辑的文档格式。以下是对这个主题的详细解释： 1. **PDF格式**：PDF是由Adobe公司开发的一种文件格式，用于跨平台的文档交换...

PDF解析jar包: PDF解析jar包是一种Java开发工具，它包含了处理和解析PDF文档所需的各种类库和方法。在Java编程中，处理PDF文件通常需要借助第三方库，这样的jar包就是其中一种解决方案。PDF（Portable Document Format）是一种通用...

java使用itext解析pdf并生成文本文件—eclipse工程: 首先，我们需要理解PDF（Portable Document Format）是一种用于表示文档的文件格式，包括文本格式和图像，独立于软件、硬件和操作系统。iText是Java的一个开源库，专为处理PDF文档设计。解析PDF文档主要涉及以下几...

PDF结构解析（c++源代码）: PDF解析器的主要任务是读取PDF文件，识别并解析这些对象，然后根据对象的类型和内容进行操作。C++作为一种强大的编程语言，非常适合处理这种低级别的文件解析任务。在C++中，解析PDF文件通常需要以下步骤： 1. **...

C#读取PDF文件内容按每页生成文本对象（只读取文字版PDF）: 值得注意的是，此方法适用于纯文本的PDF文件，即那些由可编辑文字而非图像构成的PDF。如果是扫描版PDF，其中包含的是图像而不是可选择的文本，那么你需要使用OCR（光学字符识别）技术来识别并提取文本，而Spire.Pdf...

PDF结构解析: 不过，这个文件与PDF解析无关，所以在此不作详细讨论。总的来说，PDF结构解析是C++开发中的一个复杂任务，需要对PDF标准有深入理解，同时具备良好的编程技能。通过编写这样的程序，开发者可以更好地理解PDF的内部...

java创建和解析PDF: 本篇将详细介绍如何在Java环境下创建PDF文件以及将PDF解析为TXT文本。首先，我们来看如何使用Java创建PDF文件。通常，我们可以借助Apache PDFBox、iText或 Flying Saucer 这样的第三方库。以Apache PDFBox为例，它...

C++程序读取PDF中的文本: 也许你还需要对文本应用某些特殊格式（如，添加tab分隔符）以便它们能够导入到Execl中（比如，你需要将PDF文档中包含的表格数据导入到Excel中，这就是编写这段代码的目的）。附件中的程序使用VC6.0编译通过，可以...

基于Python语言的通用文本格式解析器设计源码: 该Python语言开发的通用文本格式解析器源码包，包含80个文件，涵盖52个Python脚本、6个DOCX文档、4个XML配置文件、3个TXT文本、3个XLSX表格、2个PDF文档、2个JSON文件、2个HTML文件、1个Git忽略文件和1个LICENSE许可...

电子发票识别，电子发票解析，可识别电子普票电子专票 pdf ofd格式解析，数电票pdf解析: PDF是一种广泛使用的文档格式，支持文本和图像，其识别相对成熟；而OFD（Open Financial Document）是我国国家标准规定的电子发票格式，其结构化程度更高，更适合于数据解析。解析电子发票的核心在于理解其结构和...

C++ PDFLib PDF解析器: PDF解析器是用于读取、解析和提取PDF文档信息的工具。在C++中使用PDFLib，开发者可以实现的功能包括但不限于： - 创建新的PDF文档 - 添加和管理页面 - 插入文本，包括字体选择、样式和对齐方式 - 绘制图形，如线条...

java解析pdf: 在提供的"PDFParserDemo"中，可能包含了一个简单的PDF解析示例，例如读取并打印PDF的文本内容： ```java public class PDFParserDemo { public static void main(String[] args) throws IOException { ...

C#生成PDF 读取PDF文本内容获取PDF内图片(亲测可用): 通过解析PDF页面，可以获取文本内容： ```csharp using System.IO; using PDFBox.NET; PDDocument document = PDDocument.Load(new FileStream("input.pdf", FileMode.Open)); PDFTextStripper stripper = new...

java解析各种文本文档: java可以读取各种文本文档中的内容，也可以操作文本文档（word，excel，pdf，txt等格式的文档）

NDEF格式英文PDF解析: 在"**NDEF格式英文PDF解析**"的主题中，我们主要探讨以下几个关键知识点： 1. **NDEF消息结构**：NDEF消息由一个或多个NDEF记录组成，每个记录包含头信息、类型字段和数据字段。头信息定义了记录的类型、大小和是否...

itext解析pdf全能最新jar: iText是著名的开放源码的站点sourceforge的一个项目，它是一个用于生成PDF文档的一个java开源库。通过iText不仅可以生成PDF或rtf的文档，而且可以将XML、Html文件转化为PDF文件。...另外还可以从页面中提取纯文本。

Global site tag (gtag.js) - Google Analytics