`
javasogo
  • 浏览: 1816962 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

Pdf-renderer, PDFBox 和JPedal做一个简单的介绍

 
阅读更多

最近项目中有个需求需要把PDF转成一张图。经过调查,有三款比较流行的Java开源软件有这个功能。但在使用过程中, 它们的区别还是很大的。 下面对这三款软件Pdf-renderer, PDFBox 和JPedal做一个简单的介绍。

首先, 这三个工具的定位是不同的。
PDF-Renderer是早日Sun公布的一个开源项目, 它主要目的是方便用户展示PDF文档。 通过解析PDF文档, 使用户能够在自己的应用中查看, 预览,绘制PNG和合并到3D的场景中。
PDFBox是Java实现的PDF文档协作类库,提供PDF文档的创建、处理以及文档内容提取功能。 它还包含比较多的命令方式方便用户处理PDF。 它的强大功能是处理解析PDF文档。而且业界使用是比较广泛和稳定的。
JPedal是IDRsolutions公司的一个产品。 而这个产品在PDF解析和PDF展示中都有着比较专业的表现。JPedal只开源其中的一小部分功能。 其中PDF转图片的功能是在LGPL下面的。

从上面的定位来看, PDF-Renderer应该是比较吻合我们的要求的。下面分别从图片质量, 效率方面来简单的做个比较。
下面是三款工具从PDF中转成的图片:


PDF-renderer



PDFbox



Jpedal


从图片质量上来看, 除了PDBbox有条线没有成功画出来后, 基本上差不多(当然, 在像素上PDFbox是最高的)。 但他们之间的转化效率还是差别很大的。 在转化效率上, 经过测试表现不如意的是PDFBox,其次是Jpedal. 最好的是PDF_renderer. 在我的测试中PDF-renderer的转化效率大约是Jpedal的两三倍。 而Jpedal的转化效率大约是PDFbox的3倍多。

但是, 经过一定量文档的测试, 发现很多PDF文档是不能被PDF-renderer处理的。 一个主要原因是PDF-renderer的字体不全。 而PDFbox有自己的字体包, 在不能转化时, 会转化到默认字体处理。目前测试中, 还没碰到PDFbox和Jpedal不能处理的文档。 由于PDFbox有时候, 不能正确的扑捉的表格线, 所以我们这次的项目中选择使用Jpedal. 除了Jpedal是家商业公司的产品外, 似乎没有不用的理由。

在项目使用过程中, 由于我们使用多线程批量转化。 出现过内存溢出的问题。 特别是使用PDFbox时候, 它需要的内存会更多。这里顺便简单谈下自己是怎样追踪解决内存溢出的问题。也许大家有更好的办法, 热烈欢迎大家给我意见。

首先, 可能大家自然的会想到利用jvisualvm,装个插件就可以动态的观察内存使用情况。 甚至随时可以把线程堆栈,CPU和内存快照弄出来。但如果是在大的应用系统中, 内存本来就很吃紧,开个 jvisualvm基本上就死在那里不动了。 这里想到的就是利用gc log 和内存溢出后的堆栈信息来处理。
在JVM启动中,加入下面的配置参数

Java代码 复制代码 收藏代码
  1. -verbose:gc -XX:+PrintGCTimeStamps -XX:+PrintGCDetails -Xloggc:D:/java/gc/gc.log -XX:+HeapDumpOnOutOfMemoryError
-verbose:gc -XX:+PrintGCTimeStamps -XX:+PrintGCDetails -Xloggc:D:/java/gc/gc.log -XX:+HeapDumpOnOutOfMemoryError


打开gc的详细log并写入到一个单独文件中。 其中HeapDumpOnOutOfMemoryError的配置, 会在内存溢出时候写一个java_pidXXXX.hprof的文件到jvm启动的第地方。 利用Eclipse Memory Analysis插件,打开这个文件后, 我们可以获得到内存溢出时候的内存堆栈信息。 其中有个Leak Suspects 功能, 把认为最有可能导致内存溢出的objece分析出来。如下图:


从图中可以发现, 有两个比较可疑的地方。 第二个正是我们转图片用的。 然后我们就可以去改进我们的代码。

上面我们还提到过gc日志文件。 通过分析gc日志, 我们大概可以了解到JVM堆内存使用情况。 这里介绍一个taobao人开发的查看gc日志的工具。 很小很好用。http://code.google.com/p/gclogviewer/ 现在的版本只能画图, 下个版本除了画图的性能提高外,还会增加调优的建议。下面是我改动代码前后的两个gc图。


从这个图中, 可以看出内存一直在涨, 直至崩溃。


这是改动代码后的一个图:

这个图, 内存趋于稳定了。 但转化过程中, 一直处于Full GC. 应用暂停很严重。 幸好这是在后台的一个数据订正程序。性能优化还有很多可以做。

4
0
分享到:
评论
1 楼 大智如愚 2014-11-13  
有pdf转换源码吗,能否发给我参考一下,我有个项目也遇到这样的问题需要解决。

相关推荐

    pdf-renderer.jar

    同时,`Java后浪网.url`是一个链接文件,指向Java后浪网的网站,这可能是一个学习资源或者库的官方支持站点,开发者可以在这里找到更多关于`pdf-renderer.jar`的使用教程、示例代码和更新信息,以便更好地理解和应用...

    pdfbox和pdfrenderer所需包

    **PDFBox** 是Apache软件基金会的一个开源项目,它提供了对PDF文件的强大支持,包括读取、创建、编辑和转换PDF文档。PDFBox-2.0.11.jar是这个库的二进制版本,包含了处理PDF所需的所有类和方法。使用PDFBox,你可以...

    html转pdf的core-renderer.jar支持中文自动换行

    总之,`core-renderer.jar` 是一个强大且实用的工具,对于需要在Java环境中进行HTML到PDF转换,尤其是处理中文内容和CSS样式的场景,它是理想的选择。通过深入理解和熟练运用,开发者可以创建高质量、美观的PDF文档...

    itext2.0.8+core-renderer-1.0.0+flying-saucer-pdf-9.1.3+xmlworker-5.4.3

    1. **iText 2.0.8**: iText 是一个流行的开源Java库,用于创建和编辑PDF文档。在这个版本中,它提供了基本的PDF操作功能,如文本和图像的添加、表格的创建、链接的插入等。同时,iText也支持PDF表单的处理和数字签名...

    freemarker itext core-renderer

    例如,开发者可以定义一个FreeMarker模板,其中包含动态数据占位符,然后使用iText和Core-Renderer将填充后的模板转换为PDF,以便于打印或在线分发。 这些组件的使用需要一定的编程技能,特别是对Java、FreeMarker...

    pdf_renderer-1.0.5.jar

    PDF Renderer 1.0.5 是一个专门用于解析PDF文档的Java库,它提供了一种在Java应用程序中处理和显示PDF内容的方式。这个名为“pdf_renderer-1.0.5.jar”的文件是一个JAR(Java Archive)包,它是Java平台上的可执行...

    iTextPDF html转PDF三个包core-renderer-R8pre1.jar itextpdf-5.5.8.jar

    总结起来,`iTextPDF`通过`itextpdf-5.5.8.jar`、`core-renderer-R8pre1.jar`和`itext-asian.jar`这三部分,为Java开发者提供了一个强大且灵活的工具,使他们能够方便地将HTML内容转换为高质量的PDF文档,同时支持...

    core-renderer-2011.04.16.jar

    core-renderer.jar,用于将HTML模板转换为pdf文档操作。

    react-three-renderer-example, 响应三个渲染器的示例.zip

    react-three-renderer-example, 响应三个渲染器的示例 react-three-renderer-examplereact-three-renderer的示例。https://toxicfork.github.com/react-three-renderer-example/安装npm

    core-renderer.jar、iText-2.0.8.jar、iTextAsian.jar、iTextAsianCmaps.jar

    版本2.0.8是一个较旧的版本,但仍然广泛用于创建、编辑和读取PDF文件。iText提供了许多功能,包括添加文本、图像、表格、链接到PDF,以及签名验证和表单处理。这个库对于那些需要与PDF交互的Java应用来说非常有用。 ...

    PDFRenderer,SWIFNLAB的PDF渲染器,纯Java PDF渲染器。另请参见:www.javaworld.com/javaworld/jw-06-2008/jw-06-opensourcejava-pdf-renderer.html.zip

    PDFRenderer是SWIFNLAB开发的一个开源项目,它是一个完全用Java编写的PDF文档渲染库。这个库的主要目的是提供一种方式来将PDF文档转换为图像,以便在各种应用程序中显示或者进行进一步处理。通过PDFRenderer,开发者...

    core-renderer.jar

    综上所述,"core-renderer.jar" 和 "iText-2.0.8.jar" 的结合使用,揭示了一个专注于图形和文本渲染,以及PDF文档操作的Java应用程序环境。开发者可以利用这些库快速构建出功能丰富的应用程序,同时确保其在各种设备...

    前端开源库-hexo-renderer-stylus

    Hexo是一个快速、简洁且高效的静态博客框架,它允许用户通过Markdown或其他支持的标记语言编写内容,并自动生成静态网页。而hexo-renderer-stylus则扩展了Hexo的功能,让用户在编写博客时可以利用Stylus的强大功能来...

    core-renderer-R8pre2.jar

    java html、word、txt等转换pdf

    pdf-renderer

    总结起来,"pdf-renderer"是一个Java库,专注于将PDF文档转换为JPEG图像,便于在各种环境中查看和处理。通过解析PDF结构、图像处理和多线程技术,它可以高效地完成任务。开发者可以通过引入jar包并利用其提供的API来...

    pdfRenderer-0.9.0.jar解压包

    尽管PDFRenderer是一个优秀的工具,但还有其他替代品,如PDFBox、iText等,它们也提供了将PDF转换为图像的功能,各有优缺点,可以根据项目需求选择合适的库。 总的来说,PDFRenderer-0.9.0.jar 是一个强大且实用的...

    PDFRenderer显示PDF文档

    PDFRenderer提供了一个简单的方法,将PDF页面转换为高质量的图像,这些图像可以在Swing组件中显示,如JLabel或JPanel。 2. **在JFrame中展示PDF**: 要在JFrame中使用PDFRenderer显示PDF,首先需要加载PDF文件,...

Global site tag (gtag.js) - Google Analytics