`
tedeyang
  • 浏览: 323205 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

java进行pdf解析-----pdfbox

阅读更多



对pdf解析有不少成熟技术,经过选型,我最后选定用pdfbox。

前面那个flash上传的是pdf,实际保存到数据库的也是pdf,但中间还有个过程:转换为text文本,并抽取作者、时间、标题、、、之类的信息进行索引(用的lucene)

因为pdfbox原生提供了生成luceneDocument的类,所以不需要什么编程,只针对特殊需求hack了几个小地方,因此就不贴代码了。

这个贴的目的就是推荐一下pdfbox,以后需要用到pdf->text的,这个工具值得使用。

 

【2009-8】

 

分享到:
评论
7 楼 libaogui777 2018-07-22  
前辈,您好, 使用PDFbox 提取内容遇到一个问题,想请教您, PDF是竖着的时候,根据坐标读取内容很正常, 但是横着的PDF,根据坐标读取内容无法读取,请问有办法解决吗?

460257620@qq.com

重谢
6 楼 tedeyang 2011-12-13  
java_base 写道
前辈您好,我现在正用pdfbox  把txt文件转化为pdf文件,遇到了中文编码的问题。我用的是pdfbox-0.7.3  网上说是支持中文的。现在的问题是原来txt中的英文在新创建的pdf中正常显示,但中文是乱码。您能帮我一下吗?谢谢。(刚接触pdfbox,见谅)
代码如下:FileReader fr = new FileReader("D:/PDFTest/test.txt");
                BufferedReader br = new BufferedReader(fr);
                StringBuffer sBuffer = new StringBuffer();
                String string = null;
                TextToPDF test = new TextToPDF();
                System.out.println(br);
sBuffer.append(string).append(System.getProperty("line.separator"));
              
Reader input = new InputStreamReader(new FileInputStream("D:/PDFTest/test.txt"), "UTF-8");

       
                document = test.createPDFFromText(input);            
                   
                document.save("D:/PDFTest/test.pdf");

真抱歉,我现在才发现你的留言。:(
你应该早就解决问题了吧,不过我猜这种问题可能是字体不存在。
5 楼 tedeyang 2011-12-13  
antony102201 写道
我现在是读取有的PDF读取时报错,大部分是可以读的 现在不知道怎么办啊

是否是加密的PDF?
4 楼 antony102201 2011-12-12  
我现在是读取有的PDF读取时报错,大部分是可以读的 现在不知道怎么办啊
3 楼 java_base 2010-11-08  
前辈您好,我现在正用pdfbox  把txt文件转化为pdf文件,遇到了中文编码的问题。我用的是pdfbox-0.7.3  网上说是支持中文的。现在的问题是原来txt中的英文在新创建的pdf中正常显示,但中文是乱码。您能帮我一下吗?谢谢。(刚接触pdfbox,见谅)
代码如下:FileReader fr = new FileReader("D:/PDFTest/test.txt");
                BufferedReader br = new BufferedReader(fr);
                StringBuffer sBuffer = new StringBuffer();
                String string = null;
                TextToPDF test = new TextToPDF();
                System.out.println(br);
sBuffer.append(string).append(System.getProperty("line.separator"));
              
Reader input = new InputStreamReader(new FileInputStream("D:/PDFTest/test.txt"), "UTF-8");

       
                document = test.createPDFFromText(input);            
                   
                document.save("D:/PDFTest/test.pdf");
2 楼 caizi_java 2010-08-15  
有代码多好
1 楼 ccx007 2010-05-17  
哈哈,我也用过...
...

相关推荐

    pdfbox-2.0.8.jar,fontbox-2.0.8.jar,pdfbox-tools-2.0.8.jar

    在这个压缩包中,我们找到了三个核心的JAR文件:`pdfbox-2.0.8.jar`, `fontbox-2.0.8.jar`, 和 `pdfbox-tools-2.0.8.jar`,它们分别对应PDFBox的主要功能模块。 1. **pdfbox-2.0.8.jar**: 这是PDFBox的核心库,...

    Java 解析 PDF, pdfbox读取PDF内容

    对于更复杂的PDF解析任务,如提取特定页面、选择性抽取文本或处理图像,PDFBox提供了丰富的API。例如,你可以通过设置`PDFTextStripper`的参数来指定从哪个页面开始和结束提取文本,或者使用`PDPage`和`PDResources`...

    pdfbox-3.0.0-RC1.jar

    pdfbox-3.0.0-RC1 PDFBox是Java实现的PDF文档协作类库,提供PDF文档的创建、处理以及文档内容提取功能,也包含了一些命令行实用工具。

    PDFBox-2.0.19 for .Net | c#用PDFBox解析PDF

    pdfbox for .Net目前的最新版PDFBox-2.0.19 用法: 将压缩包内所有dll拷贝到项目编译目录, 在项目中引用 IKVM.OpenJDK.Core.dll IKVM.OpenJDK.SwingAWT.dll pdfbox-app-2.0.19.dll 在代码中引入命名空间using org....

    pdfbox-2.0.8.jar pdfbox 2.0.8 解析pdf获得文本内容

    java中pdfbox 2.0.8 解析pdf获得文本内容

    【Java】基于Pdfbox解析PDF文档中指定位置的文字和图片

    Apache PDFBox是一个开源Java库,支持PDF文档的开发和转换。 我们可以使用PDFBox开发可以创建,转换和操作PDF文档的Java程序。PDFBox的主要功能: Extract Text – 使用PDFBox,您可以从PDF文件中提取Unicode文本。 ...

    pdfbox-1.8.2.jar

    `pdfbox-1.8.2.jar`是该库的一个版本,主要用于在Java应用程序中进行PDF文档的创建、读取、修改和转换。下面将详细阐述PDFBox库的功能和使用方法。 1. **PDFBox的基本功能** - **读取PDF**:PDFBox提供API来读取...

    pdfbox java解析pdf文档jar包+源代码+帮助文档+example

    本资源包含PDFBox的Java解析PDF文档所需的jar包,源代码,帮助文档以及示例(example),对于学习和使用PDFBox进行PDF操作具有极大的帮助。 首先,让我们深入了解一下PDFBox的主要功能: 1. **读取PDF文档**:...

    PDFBox-2.0.12 for .Net | c#用PDFBox解析PDF

    pdfbox for .Net目前的最新版PDFBox-2.0.12 用法: 首先在引用中将下载的dll添加到项目中,同时在cs文件中引入命名空间using org.apache.pdfbox.text; 然后可以按如下代码编写demo PDDocument doc = PDDocument.load...

    pdfbox-2.0.8.jar及fontbox-2.0.8.jar、commons-logging-1.0.4.jar

    在这个场景中,我们关注的是`pdfbox-2.0.8.jar`,这是一个包含PDFBox库的JAR文件,版本为2.0.8。这个版本提供了许多增强的功能和错误修复,使得开发者能够更加高效和稳定地处理PDF文件。 `fontbox-2.0.8.jar`是与...

    java解析pdf框架pdfbox

    提到的`pdfbox-app-1.8.4.jar`是PDFBox的一个较旧版本。目前,PDFBox已经发展到2.x系列,提供了更多的功能和性能优化。在实际项目中,建议使用最新版本以获得更好的稳定性和新特性。 总结,PDFBox是Java开发者的...

    pdfbox所有jar包以及源码

    2. **PDF解析**:PDFBox能够解析PDF文档中的各种元素,如文本、图片、链接、表单字段等,这在需要提取PDF内容或进行自动化处理时非常有用。 3. **PDF编辑**:虽然PDF通常被视为一种静态格式,但PDFBox允许你修改已...

    java解析PDF所需的基础jar包

    在你的压缩包中,有`pdfbox-1.8.2.jar`,这是PDFBox的1.8.2版本。这个库允许开发者读取PDF文件内容,包括文本、图像、链接等,还能编辑PDF元数据,添加或删除页面,甚至创建新的PDF文档。例如,你可以使用`...

    pdfbox 解析pdf里的图片和文字

    PDFBox是Apache软件基金会的一个...总之,PDFBox是Java开发中处理PDF文档的强大工具,能够有效地帮助你解析PDF中的图片和文字,以及其他各种PDF元素。通过熟练掌握PDFBox的API,你可以构建出功能丰富的PDF处理应用。

    java使用pdfbox打印PDF

    PDFBox是由Apache软件基金会开发的Java库,其主要功能包括PDF文档的解析、生成、修改和显示。在PDFBox 2.0.8版本中,包含了对PDF文档处理的多种优化和增强,使得开发者能够更高效地处理PDF任务。 要使用PDFBox打印...

    java代码pdf解析成xml.rar

    Java代码PDF解析成XML是一项技术任务,涉及到Java编程语言、PDF文档处理和XML数据格式转换。在这个场景中,我们主要关注如何使用Java库iTextPDF将PDF文档中的内容解析为XML结构。 首先,我们需要理解PDF(Portable ...

    pdfbox-2.0.9.jar和fontbox-2.0.9.jar等,java解析pdf所有相关jar包

    它提供了丰富的API,允许开发者在Java应用程序中进行PDF文档的创建、读取、修改、渲染和签名等操作。在这个场景中,我们关注的是PDFBox的2.0.9版本,包含的jar包有`pdfbox-2.0.9.jar`和`fontbox-2.0.9.jar`。 `...

    Java实现pdf转图片 fontbox-2.0.15和pdfbox-2.0.15 两个jar包

    在Java开发中,有时我们需要将PDF文档转换为图像格式,以便于网络展示或者进行其他处理。这个过程涉及到了两个关键的库:FontBox-2.0.15和PDFBox-2.0.15。这两个Java库是Apache软件基金会提供的开源工具,专门用于...

    有关pdfbox-1.3.1中Identity-H编码为乱码的解决方法

    这个问题的根本原因在于PDFBox在解析和渲染使用Identity-H编码的PDF文档时,未能正确地将Unicode字符转换为PDF中的字形。这可能涉及到字体嵌入、编码设置、或者PDFBox库自身的编码处理逻辑。 为了解决这个问题,你...

    java pdf转jpg需要的jar:fontbox-2.0.15.jar pdfbox-2.0.15.jar

    总之,`fontbox-2.0.15.jar`和`pdfbox-2.0.15.jar`是Java实现PDF转JPG的关键库,它们提供了处理PDF文档的必要功能。开发者可以通过调用这两个库的API,实现从PDF到JPG的高效转换,满足不同场景下的需求。在进行这样...

Global site tag (gtag.js) - Google Analytics