纯文本格式的pdf解析出来了,解析纯文本的代码如下:
package pdfbox;
import java.io.ByteArrayOutputStream;
import java.io.FileWriter;
import java.io.IOException;
import java.io.PrintWriter;
import java.io.OutputStreamWriter;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.util.PDFTextStripper;
import org.apache.*;
public class pdf2 {
public static String getText(String file){
String s="";
String pdffile=file;
PDDocument pdfdoc=null;
try {
pdfdoc=PDDocument.load(pdffile);
PDFTextStripper stripper=new PDFTextStripper();
s=stripper.getText(pdfdoc);
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
finally{
try {
if (pdfdoc!=null){
pdfdoc.close();
}
}catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
return s;
}
public static void toTextFile(String doc,String filename) throws Exception{
String pdffile=doc;
PDDocument pdfdoc=PDDocument.load(doc);
try {
pdfdoc=PDDocument.load(pdffile);
PDFTextStripper stripper=new PDFTextStripper();
PrintWriter pw=new PrintWriter(new FileWriter(filename));
stripper.writeText(pdfdoc, pw);
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
finally{
try {
if (pdfdoc!=null){
pdfdoc.close();
}
}catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
/**
* @param args
*/
public static void main(String[] args) {
// TODO Auto-generated method stub
try {
String sc=getText("E:/solution.pdf");
System.out.print(sc);
toTextFile("E:/solution.pdf","E:/solution.txt");
} catch (Exception e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
org.apache.pdfbox.pdmodel.PDDocument
用的是pdfbox-1.2.1.zip
分享到:
相关推荐
PDF转换为Text纯文本文件是IT领域中常见的文件格式转换操作,主要涉及到PDF文档的解析和文本抽取技术。本文将详细介绍这一过程,并结合C#编程语言进行探讨。 PDF(Portable Document Format)是一种由Adobe Systems...
java解析PDF格式的文件demo。JAVA实现PDF解析,对PDF文件中的文本内容可输出仅供参考学习,不喜勿喷。
Java代码PDF解析成XML是一项技术任务,涉及到Java编程语言、PDF文档处理和XML数据格式转换。在这个场景中,我们主要关注如何使用Java库iTextPDF将PDF文档中的内容解析为XML结构。 首先,我们需要理解PDF(Portable ...
PDF本地解析Demo是一款针对PDF文件的轻量级阅读应用,主要设计用于在移动设备上通过WebView组件实现...通过深入理解PDF解析原理和技术,开发者可以进一步扩展其功能,如添加注释、搜索、书签等,以满足更多用户需求。
这个过程涉及将PDF(Portable Document Format)文件的内容提取出来,转化为纯文本或可编辑的文档格式。以下是对这个主题的详细解释: 1. **PDF格式**:PDF是由Adobe公司开发的一种文件格式,用于跨平台的文档交换...
PDF解析jar包是一种Java开发工具,它包含了处理和解析PDF文档所需的各种类库和方法。在Java编程中,处理PDF文件通常需要借助第三方库,这样的jar包就是其中一种解决方案。PDF(Portable Document Format)是一种通用...
首先,我们需要理解PDF(Portable Document Format)是一种用于表示文档的文件格式,包括文本格式和图像,独立于软件、硬件和操作系统。iText是Java的一个开源库,专为处理PDF文档设计。 解析PDF文档主要涉及以下几...
PDF解析器的主要任务是读取PDF文件,识别并解析这些对象,然后根据对象的类型和内容进行操作。C++作为一种强大的编程语言,非常适合处理这种低级别的文件解析任务。 在C++中,解析PDF文件通常需要以下步骤: 1. **...
值得注意的是,此方法适用于纯文本的PDF文件,即那些由可编辑文字而非图像构成的PDF。如果是扫描版PDF,其中包含的是图像而不是可选择的文本,那么你需要使用OCR(光学字符识别)技术来识别并提取文本,而Spire.Pdf...
不过,这个文件与PDF解析无关,所以在此不作详细讨论。 总的来说,PDF结构解析是C++开发中的一个复杂任务,需要对PDF标准有深入理解,同时具备良好的编程技能。通过编写这样的程序,开发者可以更好地理解PDF的内部...
本篇将详细介绍如何在Java环境下创建PDF文件以及将PDF解析为TXT文本。 首先,我们来看如何使用Java创建PDF文件。通常,我们可以借助Apache PDFBox、iText或 Flying Saucer 这样的第三方库。以Apache PDFBox为例,它...
也许你还需要对文本应用某些特殊格式(如,添加tab分隔符)以便它们能够导入到Execl中(比如,你需要将PDF文档中包含的表格数据导入到Excel中,这就是编写这段代码的目的)。附件中的程序使用VC6.0编译通过,可以...
该Python语言开发的通用文本格式解析器源码包,包含80个文件,涵盖52个Python脚本、6个DOCX文档、4个XML配置文件、3个TXT文本、3个XLSX表格、2个PDF文档、2个JSON文件、2个HTML文件、1个Git忽略文件和1个LICENSE许可...
PDF是一种广泛使用的文档格式,支持文本和图像,其识别相对成熟;而OFD(Open Financial Document)是我国国家标准规定的电子发票格式,其结构化程度更高,更适合于数据解析。 解析电子发票的核心在于理解其结构和...
PDF解析器是用于读取、解析和提取PDF文档信息的工具。在C++中使用PDFLib,开发者可以实现的功能包括但不限于: - 创建新的PDF文档 - 添加和管理页面 - 插入文本,包括字体选择、样式和对齐方式 - 绘制图形,如线条...
在提供的"PDFParserDemo"中,可能包含了一个简单的PDF解析示例,例如读取并打印PDF的文本内容: ```java public class PDFParserDemo { public static void main(String[] args) throws IOException { ...
通过解析PDF页面,可以获取文本内容: ```csharp using System.IO; using PDFBox.NET; PDDocument document = PDDocument.Load(new FileStream("input.pdf", FileMode.Open)); PDFTextStripper stripper = new...
java可以读取各种文本文档中的内容,也可以操作文本文档(word,excel,pdf,txt等格式的文档)
对于更复杂的PDF解析任务,如提取特定页面、选择性抽取文本或处理图像,PDFBox提供了丰富的API。例如,你可以通过设置`PDFTextStripper`的参数来指定从哪个页面开始和结束提取文本,或者使用`PDPage`和`PDResources`...
在"**NDEF格式英文PDF解析**"的主题中,我们主要探讨以下几个关键知识点: 1. **NDEF消息结构**:NDEF消息由一个或多个NDEF记录组成,每个记录包含头信息、类型字段和数据字段。头信息定义了记录的类型、大小和是否...