`
伊然01
  • 浏览: 307043 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

纯文本格式的pdf解析

    博客分类:
  • Java
阅读更多
纯文本格式的pdf解析出来了,解析纯文本的代码如下:
package pdfbox;
import java.io.ByteArrayOutputStream;
import java.io.FileWriter;
import java.io.IOException;
import java.io.PrintWriter;
import java.io.OutputStreamWriter;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.util.PDFTextStripper;
import org.apache.*;

public class pdf2 {
public static String getText(String file){
String s="";
String pdffile=file;
PDDocument pdfdoc=null;
try {
pdfdoc=PDDocument.load(pdffile);
PDFTextStripper stripper=new PDFTextStripper();
s=stripper.getText(pdfdoc);  
 
} catch (IOException e) {  
// TODO Auto-generated catch block
e.printStackTrace();
}
finally{
try {
if (pdfdoc!=null){  
pdfdoc.close();

}catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}  

return s;  
}
public static void toTextFile(String doc,String filename) throws Exception{
String pdffile=doc;
PDDocument pdfdoc=PDDocument.load(doc);
try {
pdfdoc=PDDocument.load(pdffile);
PDFTextStripper stripper=new PDFTextStripper();
PrintWriter pw=new PrintWriter(new FileWriter(filename));
stripper.writeText(pdfdoc, pw);
 
} catch (IOException e) {  
// TODO Auto-generated catch block
e.printStackTrace();
}
finally{
try {
if (pdfdoc!=null){  
pdfdoc.close();

}catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}  

 
}
/**
* @param args
*/
public static void main(String[] args) {
// TODO Auto-generated method stub
try {
String sc=getText("E:/solution.pdf");  
System.out.print(sc);
toTextFile("E:/solution.pdf","E:/solution.txt");
} catch (Exception e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
 
}

}

org.apache.pdfbox.pdmodel.PDDocument  
用的是pdfbox-1.2.1.zip
分享到:
评论

相关推荐

    PDF转换为Text纯文本文件的小工具

    PDF转换为Text纯文本文件是IT领域中常见的文件格式转换操作,主要涉及到PDF文档的解析和文本抽取技术。本文将详细介绍这一过程,并结合C#编程语言进行探讨。 PDF(Portable Document Format)是一种由Adobe Systems...

    java解析PDF文件

    java解析PDF格式的文件demo。JAVA实现PDF解析,对PDF文件中的文本内容可输出仅供参考学习,不喜勿喷。

    java代码pdf解析成xml.rar

    Java代码PDF解析成XML是一项技术任务,涉及到Java编程语言、PDF文档处理和XML数据格式转换。在这个场景中,我们主要关注如何使用Java库iTextPDF将PDF文档中的内容解析为XML结构。 首先,我们需要理解PDF(Portable ...

    PDF本地解析Demo

    PDF本地解析Demo是一款针对PDF文件的轻量级阅读应用,主要设计用于在移动设备上通过WebView组件实现...通过深入理解PDF解析原理和技术,开发者可以进一步扩展其功能,如添加注释、搜索、书签等,以满足更多用户需求。

    PDF转换为文本格式

    这个过程涉及将PDF(Portable Document Format)文件的内容提取出来,转化为纯文本或可编辑的文档格式。以下是对这个主题的详细解释: 1. **PDF格式**:PDF是由Adobe公司开发的一种文件格式,用于跨平台的文档交换...

    PDF解析jar包

    PDF解析jar包是一种Java开发工具,它包含了处理和解析PDF文档所需的各种类库和方法。在Java编程中,处理PDF文件通常需要借助第三方库,这样的jar包就是其中一种解决方案。PDF(Portable Document Format)是一种通用...

    java使用itext解析pdf并生成文本文件—eclipse工程

    首先,我们需要理解PDF(Portable Document Format)是一种用于表示文档的文件格式,包括文本格式和图像,独立于软件、硬件和操作系统。iText是Java的一个开源库,专为处理PDF文档设计。 解析PDF文档主要涉及以下几...

    PDF结构解析(c++源代码)

    PDF解析器的主要任务是读取PDF文件,识别并解析这些对象,然后根据对象的类型和内容进行操作。C++作为一种强大的编程语言,非常适合处理这种低级别的文件解析任务。 在C++中,解析PDF文件通常需要以下步骤: 1. **...

    PDF结构解析

    不过,这个文件与PDF解析无关,所以在此不作详细讨论。 总的来说,PDF结构解析是C++开发中的一个复杂任务,需要对PDF标准有深入理解,同时具备良好的编程技能。通过编写这样的程序,开发者可以更好地理解PDF的内部...

    C#读取PDF文件内容 按每页生成文本对象(只读取文字版PDF)

    值得注意的是,此方法适用于纯文本的PDF文件,即那些由可编辑文字而非图像构成的PDF。如果是扫描版PDF,其中包含的是图像而不是可选择的文本,那么你需要使用OCR(光学字符识别)技术来识别并提取文本,而Spire.Pdf...

    java创建和解析PDF

    本篇将详细介绍如何在Java环境下创建PDF文件以及将PDF解析为TXT文本。 首先,我们来看如何使用Java创建PDF文件。通常,我们可以借助Apache PDFBox、iText或 Flying Saucer 这样的第三方库。以Apache PDFBox为例,它...

    电子发票识别,电子发票解析,可识别 电子普票 电子专票 pdf ofd格式解析,数电票pdf解析

    PDF是一种广泛使用的文档格式,支持文本和图像,其识别相对成熟;而OFD(Open Financial Document)是我国国家标准规定的电子发票格式,其结构化程度更高,更适合于数据解析。 解析电子发票的核心在于理解其结构和...

    C++程序读取PDF中的文本

    也许你还需要对文本应用某些特殊格式(如,添加tab分隔符)以便它们能够导入到Execl中(比如,你需要将PDF文档中包含的表格数据导入到Excel中,这就是编写这段代码的目的)。附件中的程序使用VC6.0编译通过,可以...

    基于Python语言的通用文本格式解析器设计源码

    该Python语言开发的通用文本格式解析器源码包,包含80个文件,涵盖52个Python脚本、6个DOCX文档、4个XML配置文件、3个TXT文本、3个XLSX表格、2个PDF文档、2个JSON文件、2个HTML文件、1个Git忽略文件和1个LICENSE许可...

    C++ PDFLib PDF解析器

    PDF解析器是用于读取、解析和提取PDF文档信息的工具。在C++中使用PDFLib,开发者可以实现的功能包括但不限于: - 创建新的PDF文档 - 添加和管理页面 - 插入文本,包括字体选择、样式和对齐方式 - 绘制图形,如线条...

    java解析pdf

    在提供的"PDFParserDemo"中,可能包含了一个简单的PDF解析示例,例如读取并打印PDF的文本内容: ```java public class PDFParserDemo { public static void main(String[] args) throws IOException { ...

    C#生成PDF 读取PDF文本内容 获取PDF内图片(亲测可用)

    通过解析PDF页面,可以获取文本内容: ```csharp using System.IO; using PDFBox.NET; PDDocument document = PDDocument.Load(new FileStream("input.pdf", FileMode.Open)); PDFTextStripper stripper = new...

    java解析各种文本文档

    java可以读取各种文本文档中的内容,也可以操作文本文档(word,excel,pdf,txt等格式的文档)

    Java 解析 PDF, pdfbox读取PDF内容

    对于更复杂的PDF解析任务,如提取特定页面、选择性抽取文本或处理图像,PDFBox提供了丰富的API。例如,你可以通过设置`PDFTextStripper`的参数来指定从哪个页面开始和结束提取文本,或者使用`PDPage`和`PDResources`...

    NDEF格式英文PDF解析

    在"**NDEF格式英文PDF解析**"的主题中,我们主要探讨以下几个关键知识点: 1. **NDEF消息结构**:NDEF消息由一个或多个NDEF记录组成,每个记录包含头信息、类型字段和数据字段。头信息定义了记录的类型、大小和是否...

Global site tag (gtag.js) - Google Analytics