最近项目中有个需求需要把PDF转成一张图。经过调查,有三款比较流行的Java开源软件有这个功能。但在使用过程中, 它们的区别还是很大的。 下面对这三款软件Pdf-renderer, PDFBox 和JPedal做一个简单的介绍。
首先, 这三个工具的定位是不同的。
PDF-Renderer是早日Sun公布的一个开源项目, 它主要目的是方便用户展示PDF文档。 通过解析PDF文档, 使用户能够在自己的应用中查看, 预览,绘制PNG和合并到3D的场景中。
PDFBox是Java实现的PDF文档协作类库,提供PDF文档的创建、处理以及文档内容提取功能。 它还包含比较多的命令方式方便用户处理PDF。 它的强大功能是处理解析PDF文档。而且业界使用是比较广泛和稳定的。
JPedal是IDRsolutions公司的一个产品。 而这个产品在PDF解析和PDF展示中都有着比较专业的表现。JPedal只开源其中的一小部分功能。 其中PDF转图片的功能是在LGPL下面的。
从上面的定位来看, PDF-Renderer应该是比较吻合我们的要求的。下面分别从图片质量, 效率方面来简单的做个比较。
下面是三款工具从PDF中转成的图片:
PDF-renderer
PDFbox
Jpedal
从图片质量上来看, 除了PDBbox有条线没有成功画出来后, 基本上差不多(当然, 在像素上PDFbox是最高的)。 但他们之间的转化效率还是差别很大的。 在转化效率上, 经过测试表现不如意的是PDFBox,其次是Jpedal. 最好的是PDF_renderer. 在我的测试中PDF-renderer的转化效率大约是Jpedal的两三倍。 而Jpedal的转化效率大约是PDFbox的3倍多。
但是, 经过一定量文档的测试, 发现很多PDF文档是不能被PDF-renderer处理的。 一个主要原因是PDF-renderer的字体不全。 而PDFbox有自己的字体包, 在不能转化时, 会转化到默认字体处理。目前测试中, 还没碰到PDFbox和Jpedal不能处理的文档。 由于PDFbox有时候, 不能正确的扑捉的表格线, 所以我们这次的项目中选择使用Jpedal. 除了Jpedal是家商业公司的产品外, 似乎没有不用的理由。
在项目使用过程中, 由于我们使用多线程批量转化。 出现过内存溢出的问题。 特别是使用PDFbox时候, 它需要的内存会更多。这里顺便简单谈下自己是怎样追踪解决内存溢出的问题。也许大家有更好的办法, 热烈欢迎大家给我意见。
首先, 可能大家自然的会想到利用jvisualvm,装个插件就可以动态的观察内存使用情况。 甚至随时可以把线程堆栈,CPU和内存快照弄出来。但如果是在大的应用系统中, 内存本来就很吃紧,开个 jvisualvm基本上就死在那里不动了。 这里想到的就是利用gc log 和内存溢出后的堆栈信息来处理。
在JVM启动中,加入下面的配置参数
-verbose:gc -XX:+PrintGCTimeStamps -XX:+PrintGCDetails -Xloggc:D:/java/gc/gc.log -XX:+HeapDumpOnOutOfMemoryError
打开gc的详细log并写入到一个单独文件中。 其中HeapDumpOnOutOfMemoryError的配置, 会在内存溢出时候写一个java_pidXXXX.hprof的文件到jvm启动的第地方。 利用Eclipse Memory Analysis插件,打开这个文件后, 我们可以获得到内存溢出时候的内存堆栈信息。 其中有个Leak Suspects 功能, 把认为最有可能导致内存溢出的objece分析出来。如下图:
从图中可以发现, 有两个比较可疑的地方。 第二个正是我们转图片用的。 然后我们就可以去改进我们的代码。
上面我们还提到过gc日志文件。 通过分析gc日志, 我们大概可以了解到JVM堆内存使用情况。 这里介绍一个taobao人开发的查看gc日志的工具。 很小很好用。
http://code.google.com/p/gclogviewer/ 现在的版本只能画图, 下个版本除了画图的性能提高外,还会增加调优的建议。下面是我改动代码前后的两个gc图。
从这个图中, 可以看出内存一直在涨, 直至崩溃。
这是改动代码后的一个图:
这个图, 内存趋于稳定了。 但转化过程中, 一直处于Full GC. 应用暂停很严重。 幸好这是在后台的一个数据订正程序。性能优化还有很多可以做。

- 大小: 304 KB

- 大小: 169.9 KB

- 大小: 222.4 KB

- 大小: 31.1 KB

- 大小: 66.2 KB

- 大小: 69.3 KB
分享到:
相关推荐
本文将详细介绍几种实现PDF转图片的方法。 1. **Adobe Acrobat Pro** Adobe Acrobat Pro是处理PDF文档的专业软件,它提供了丰富的功能,包括将PDF转换为图片。用户可以选择导出整个文档或特定页面,并可以设置输出...
总之,这个名为"PDF2img"的DEMO利用PDFBox库解决了在Java环境中PDF转图片时中文乱码的问题,对于需要处理大量中文PDF文档的开发者来说,这是一个非常实用的工具。通过深入理解和使用PDFBox,我们可以构建更复杂的...
总的来说,这个“pdf转图片demo附源码”的项目为开发者提供了一个实用的学习工具,不仅能够理解PDF转图片的基本概念,还能深入到代码层面,提升实际编程技能。如果你在使用过程中遇到问题或者有新的需求,可以基于这...
PDFbox和IcePdf是两个在Java环境中处理PDF文档的开源库。它们提供了丰富的API和功能,使得开发者可以方便地对PDF进行操作,如读取、创建、编辑以及将PDF转换为其他格式,如图片。本篇文章将深入探讨这两个库如何实现...
总的来说,PDFBox 1.8.9提供的这些功能,对于需要在Java项目中处理PDF和图片的开发者来说,是一个强大的工具。通过理解和应用这些API,开发者可以轻松地实现图片与PDF之间的转换,满足各种需求。
总的来说,利用C# WinForm和iTextSharp库,我们可以轻松地创建一个图片转PDF的小工具,为用户提供便捷的服务。记得在实际应用中考虑异常处理和用户体验,例如添加错误提示和进度显示等。在开发过程中,参考其他人的...
标题中的“Node.js-这是一个nodejs库可以把一个多页的pdf转成多页png图片”表明了这个项目是一个基于Node.js的库,其主要功能是将PDF文档转换为多个PNG图像,每一页PDF对应一张PNG图片。这样的工具在需要对PDF进行...
在IT领域,有一种强大的工具叫做Ghostscript,它可以用来将PDF文件转换成图像格式。本教程将详细讲解如何利用C#编程语言结合Ghostscript实现这一功能。 首先,Ghostscript是一个开源的软件库,它提供了处理Post...
总结来说,使用Ghost4J和Ghostscript进行PDF转图片的流程包括安装和配置Ghostscript,导入Ghost4J库,设置转换参数,读取PDF,执行转换并保存图片。这个过程虽然涉及多个步骤,但通过Java编程可以方便地实现自动化,...
iTextSharp是一款强大的开源Java和.NET库,主要用于创建、编辑和处理PDF文档。它提供了丰富的API,使得开发者能够灵活地操控PDF的每一个元素,包括文本、图像、表格等。在这个特定的图片转PDF小工具中,iTextSharp...
### 图片转PDF知识点解析 #### 一、背景与需求 在日常工作与学习中,我们经常需要将图片转换成PDF格式以方便分享或存档。本文档介绍了一种使用Java编程语言实现的将图片(尤其是JPG格式)批量转换为PDF文件的方法...
- **batik-svg-dom.jar、batik-awt-util.jar、batik-svggen.jar**:这些是Apache Batik的一部分,Batik是一个开源工具包,用于处理 Scalable Vector Graphics (SVG)。这些库在处理PDF中的矢量图形内容时发挥作用,...
6. **注意事项**:转换过程中需要注意的是,PDF转图片可能会导致质量损失,特别是当PDF包含矢量图形或高质量文本时。此外,处理大量页面可能消耗大量内存,因此在实际应用中可能需要考虑分批处理或优化内存使用。 ...
本资源提供了一个完整的源码示例,专注于"Office转PDF"和"PDF转图片"的转换功能,这对于开发者来说是非常有价值的。 首先,让我们深入探讨“Office转PDF”的过程。在C#中,我们可以利用Microsoft Office Interop库...
总之,`pdf转图片jar`这个压缩包提供了基于ICEpdf的PDF转换工具,可以帮助开发者快速实现将PDF文档转换为图像的功能,为各种应用场景提供了便利。如果你在Java项目中需要处理PDF到图片的转换,这是一个值得考虑的...
值得注意的是,OpenOffice的PDF转图片功能可能无法完美地保留原始PDF的所有元素,特别是复杂的排版、超链接和交互性。对于这些要求较高的情况,可能需要使用更专业的PDF转换工具,如Adobe Acrobat。 总的来说,使用...
本教程主要关注三个核心的转换操作:Word转PDF、PDF转图片以及图片转PDF。这些转换对于文件的兼容性、格式保留和分享有着重要的作用。 首先,让我们详细探讨Word转PDF的过程。在不同的操作系统和设备间,Word文档的...
"多张图片转PDF工具FreePic2Pdf"就是这样的一款实用软件,它以其小巧的体积、强大的功能和绿色无广告的特点,赢得了广大用户的喜爱。本文将详细介绍这款工具的使用方法及其背后的知识点。 FreePic2Pdf是一款免费的...
本文将深入探讨如何使用Java库来实现这个功能,以标题“Java中PDF转图片”和描述“Java中PDF转图片”为线索,结合标签“PDF转图片”,我们将详细讲解一种常用的库——IcePDF。 IcePDF是一个开源的Java PDF库,它...
通过以上知识点的整合,我们可以创建一个完整的PDF转图片的工具,满足各种应用场景的需求。在"PDF2Img"这个项目中,我们可以期待找到实现这些功能的源代码和相关的示例。通过学习和理解这些代码,我们可以进一步掌握...