`
downpour
  • 浏览: 717153 次
  • 性别: Icon_minigender_1
  • 来自: 上海
博客专栏
00a07ae5-264f-3774-8903-8ad88ce08cb0
Struts2技术内幕
浏览量:117847
4d8508f2-c0dd-3df8-9483-04cc612afbbc
SpringMVC深度探险...
浏览量:230600
社区版块
存档分类
最新评论

介绍一个PDF的生成方案

    博客分类:
  • Java
阅读更多
在Java世界,要想生成PDF,方案不少。最近一直在和这个东西打交道,所以简单做一个小结吧。

在此之前,先来勾画一下我心中比较理想的一个解决方案。在企业应用中,碰到的比较多的PDF的需求,可能是针对某个比较典型的具备文档特性的内容,导出成为PDF进行存档。由于我们现在往往使用一些开源框架,诸如ssh来构建我们的应用,所以我们相对熟悉的方案是针对具体的业务逻辑设计实体,使用开源框架来实现我们的业务逻辑。而PDF的导出,最好不要破坏现有的程序框架,甚至能复用我们业务逻辑层的代码。因为如果把PDF作为一种特殊的表现形式的话,实际上它有点类似模板。最佳的情况,是我们能够通过编写某种模板,把PDF的大概样子确定下来,然后把数据和模板做一次整合,得到最后的结果

带着这个目标,开始在网上搜索解决方案。也找到了一些方案,下面简单小结一下:

Jasper Report

看到的市面上采用的最多的方案,是Jasper Report。相关的文档也很多,不过很杂,需要完全掌握,我认为还是有些坡度和时间的。这个时间和坡度我认为主要来自于对iReport这个IDE的反复尝试,对里面的每个属性的摸索。

Jasper Report的设计思路,本身是不违反我上面所说的初衷的。因为我们的努力方向是先生成模板,然后得到数据,最后将两者整合得到结果。但是Jasper Report的问题在于,其生成模板的方式过于复杂,即使有IDE的帮助,我们还是需要对其中的众多规则有所了解才行,否则就会给调试带来极大的麻烦。

所以,我认为Jasper Report是一个半调子方案,这种强依赖于IDE进行可视化编辑的方式令我很不爽。同时,由此带来的诸多的限制,相信也让很多使用者颇为头疼。在经历了一番痛苦的挣扎后,决定放弃使用这种方案。

iText

其实Jasper Report是基于iText的。于是有的人会说,那么直接使用iText不是一种倒退么?的确,直接使用iText似乎就需要直接使用原生的API进行编程了。不过幸好iText其实提供了一些方便的API,通过使用这些API,我们可以直接将HTML代码转化成iText可识别的Document对象,从而导出PDF文档。

import java.io.FileOutputStream;
import java.io.FileReader;
import java.util.ArrayList;

import com.lowagie.text.Document;
import com.lowagie.text.Element;
import com.lowagie.text.html.simpleparser.HTMLWorker;
import com.lowagie.text.html.simpleparser.StyleSheet;
import com.lowagie.text.pdf.PdfWriter;

public class MainClass {
  public static void main(String[] args) throws Exception {
    Document document = new Document();
    StyleSheet st = new StyleSheet();
    st.loadTagStyle("body", "leading", "16,0");
    PdfWriter.getInstance(document, new FileOutputStream("html2.pdf"));
    document.open();
    ArrayList p = HTMLWorker.parseToList(new FileReader("example.html"), st);
    for (int k = 0; k < p.size(); ++k)
      document.add((Element) p.get(k));
    document.close();
  }
}


这是从网上找到的一个例子。从代码中,我们可以看到,iText本身提供了一个简单的HTML的解析器,它可以把HTML转化成我们需要的PDF的document。

有了这个东西,基本上我的目标就能达成一大半了。接下来我的任务就是根据实际情况去编写HTML代码,然后扔进这个方法,就OK了。而真正的HTML代码,我们则可以在这里使用真正的模板技术,Freemarker或者Velocity去生成我们所需要的内容。当然,这已经是我们熟门熟路的东西了。

正当我觉得这个方案基本能符合我的要求的时候,我也同样找到了它的很多弱项:

1. 无法识别很多HTML的tag和attribute(应该是iText的HTMLParser不够强大)
2. 无法识别CSS

如果说第一点我还可以勉强接受的话,那么第二点我就完全不能接受了。无法识别简单的CSS,就意味着HTML失去了最基本的活力,也无法根据实际要求调整样式。

所以这种方案也必然无法成为我的方案。

flying sauser

在这种情况下,我几乎已经燃起了自己编写一个支持CSS解析的HTML Parser的想法。幸好,在一个非常偶然的情况下,我在google中搜到了这样一个开源项目,它能够满足我的一切需求。这就是flying sauser,项目主页是:https://xhtmlrenderer.dev.java.net/

项目的首页非常吸引人:An XML/XHTML/CSS 2.1 Renderer。这不正是我要的东西么?

仔细再看里面的文档:

引用
Flying Saucer is an XML/CSS renderer, which means it takes XML files as input, applies formatting and styling using CSS, and generates a rendered representation of that XML as output. The output may go to the screen (in a GUI), to an image, or to a PDF file. Because we believe most people will be interested in re-using their knowledge of web layout, our main target for content is XHTML 1.0 (strict), an XML document format that standardizes HTML.


完美了。这东西能解析HTML和CSS,而且能输出成image,PDF等格式。哇!我们来看看sample代码(代码丑陋,不过已经能说明问题了):

/* 
* ITextRendererTest.java * 
* Copyright 2009 Shanghai TuDou.  
* All rights reserved. 
*/

package itext;

import java.io.File;
import java.io.FileOutputStream;
import java.io.OutputStream;

import org.xhtmlrenderer.pdf.ITextFontResolver;
import org.xhtmlrenderer.pdf.ITextRenderer;

import com.lowagie.text.pdf.BaseFont;

/** 
 * TODO class description * 
 *
 * @author pcwang
 *
 * @version 1.0, 上午11:03:26  create $Id$
 */
public class ITextRendererTest {
	public static void main(String[] args) throws Exception {
		String inputFile = "conf/template/test.html";
        String url = new File(inputFile).toURI().toURL().toString();
        String outputFile = "firstdoc.pdf";
        OutputStream os = new FileOutputStream(outputFile);
        ITextRenderer renderer = new ITextRenderer();
        renderer.setDocument(url);

        // 解决中文支持问题
        ITextFontResolver fontResolver = renderer.getFontResolver();
        fontResolver.addFont("C:/Windows/Fonts/arialuni.ttf", BaseFont.IDENTITY_H, BaseFont.NOT_EMBEDDED);

        // 解决图片的相对路径问题
        renderer.getSharedContext().setBaseURL("file:/D:/Work/Demo2do/Yoda/branch/Yoda%20-%20All/conf/template/");
        
        renderer.layout();
        renderer.createPDF(os);
        
        os.close();
	}
}


运行,成功!实在太简单了!API帮你完成了一切!

有了这个东西,我们就可以将PDF的生成流程变成这样:

1) 编写Freemarker或者Velocity模板,打造HTML,勾画PDF的样式(请任意使用CSS)

2) 在你的业务逻辑层引入Freemarker的引擎或者Velocity的引擎,并将业务逻辑层中可以获取的数据和模板,使用引擎生成最终的内容

3) 将我上面的sample代码做简单封装后,调用,生成PDF

这样,我想作为一个web程序员来说,上面的3点,都不会成为你的绊脚石。你可以轻松驾驭PDF了。

在Flying Saucer的官方文档中,有一些Q&A,可以解决读者们大部分的问题。包括PDF的字体、PDF的格式、Image如何处理等等。大家可以尝试着去阅读。

还有一篇文章,好像是作者写的,非常不错:http://today.java.net/pub/a/today/2007/06/26/generating-pdfs-with-flying-saucer-and-itext.html
分享到:
评论
42 楼 downpour 2009-11-09  
yye_javaeye 写道
关于远程图片,Override了它的ITextUserAgent中的方法,暂时解决了,不过大小无法读取,必须在html中显示指定


所以我倒是建议你先把远程图片读到本地来,在本地建立好缓存,这样既可以读文件,又可以读大小,这样不好么?

ITextUserAgent这个类的实现有些地方的确让人有点不爽。override它也没啥问题。
41 楼 yye_javaeye 2009-11-09  
另,官方主页r8更新说明里面给的分页方法是错误的,官方给的是-fs-table-pagination:paginate,实际应该是-fs-table-paginate:paginate,目前继续钻研页眉页脚
40 楼 yye_javaeye 2009-11-09  
关于远程图片,Override了它的ITextUserAgent中的方法,暂时解决了,不过大小无法读取,必须在html中显示指定,代码如下:不知道还有没有更好的解决方法:
import org.xhtmlrenderer.pdf.ITextUserAgent;
import org.xhtmlrenderer.pdf.ITextOutputDevice;
import org.xhtmlrenderer.pdf.ITextFSImage;
import org.xhtmlrenderer.resource.ImageResource;
import org.xhtmlrenderer.resource.CSSResource;
import org.xhtmlrenderer.util.XRLog;

import java.io.IOException;
import java.io.InputStream;
import java.net.MalformedURLException;
import java.net.URL;
import java.net.URLConnection;
import java.util.LinkedHashMap;

import com.lowagie.text.Image;

/**
 * 修改xhtmlrenderer获取css和image资源的方式为网络
 */
@SuppressWarnings("unchecked")
public class HttpURLUserAgent extends ITextUserAgent {
    /**
     * an LRU cache
     */
    private int imageCacheCapacity = 16;
    private LinkedHashMap imageCache =
            new LinkedHashMap(imageCacheCapacity, 0.75f, true) {
                protected boolean removeEldestEntry(java.util.Map.Entry eldest) {
                    return size() > imageCacheCapacity;
                }
            };

    public HttpURLUserAgent(ITextOutputDevice outputDevice) {
        super(outputDevice);
    }

    @Override
    public CSSResource getCSSResource(String uri) {
        InputStream is = null;
        uri = resolveURI(uri);
        try {
            URLConnection uc = new URL(uri).openConnection();
            uc.connect();
            is = uc.getInputStream();
        } catch (MalformedURLException e) {
            XRLog.exception("bad URL given: " + uri, e);
        } catch (IOException e) {
            XRLog.exception("IO problem for " + uri, e);
        }
        return new CSSResource(is);
    }

    @Override
    public ImageResource getImageResource(String uri) {
        ImageResource ir;
        uri = resolveURI(uri);
        ir = (ImageResource) imageCache.get(uri);
        if (ir == null) {
            try {
                ir = new ImageResource(new ITextFSImage(Image.getInstance(new URL(uri))));
            } catch (Exception e) {
                e.printStackTrace();
            }
            imageCache.put(uri, ir);
        }
        if (ir == null) ir = new

                ImageResource(null);

        return ir;
    }
}

39 楼 左眼的天空 2009-11-07  
不错,研究下,i
38 楼 netfork 2009-11-07  
楼主的人品不错,想到了搞一个网上生成pdf电子书的应用业务。
37 楼 downpour 2009-11-07  
youthon 写道

费了半天劲终于把你的代码跟原代码比较了一下,这种改法确实很粗糙
参考了这个链接吧:
http://blog.sina.com.cn/s/blog_488aef530100afav.html
这样的话,pdf只能输出一种固定的字体了


实在不明白,为什么针对多个字体的解决方案,会显得如此死板。这不是一个很容易解决的问题么?

1. 你在Java代码中加入你需要使用的所有字体

2. 在CSS中引用你所需要使用的字体

你还想怎样?
36 楼 youthon 2009-11-06  
yongboy 写道
修改后的xhtmlrenderer核心包已经在
http://yongboy.iteye.com/blog/510976
上面地址中提供下载,无须显示在CSS中定义字体了,无须如下直接显示定义引入字体:
ITextFontResolver fontResolver = renderer.getFontResolver();  
fontResolver.addFont("C:/Windows/fonts/simsun.ttc", BaseFont.IDENTITY_H, BaseFont.NOT_EMBEDDED);

估计会方便一些如我之类的新手吧。

费了半天劲终于把你的代码跟原代码比较了一下,这种改法确实很粗糙
参考了这个链接吧:
http://blog.sina.com.cn/s/blog_488aef530100afav.html
这样的话,pdf只能输出一种固定的字体了
35 楼 whaosoft 2009-11-06  
按照lz的说法,这个pdf生成方案确实很好
34 楼 yye_javaeye 2009-11-06  
youthon 写道
yye_javaeye 写道
页面中图片为jfreechart生成的,生成pdf后图片不显示,已设置了图片相对路径为:
renderer.getSharedContext().setBaseURL("http://localhost:8081/test/");还是不行,请问有什么方法解决 ?

你应该设置成获取的绝对路径才行吧

但是我的图片并没有生成啊,只是在http上提供一个地址而已
33 楼 youthon 2009-11-06  
yye_javaeye 写道
页面中图片为jfreechart生成的,生成pdf后图片不显示,已设置了图片相对路径为:
renderer.getSharedContext().setBaseURL("http://localhost:8081/test/");还是不行,请问有什么方法解决 ?

你应该设置成获取的绝对路径才行吧
32 楼 yye_javaeye 2009-11-06  
页面中图片为jfreechart生成的,生成pdf后图片不显示,已设置了图片相对路径为:
renderer.getSharedContext().setBaseURL("http://localhost:8081/test/");还是不行,请问有什么方法解决 ?
31 楼 yongboy 2009-11-06  
<pre name="code" class="java"> public static void main(String[] args) throws Exception {
String outputFile = "f:/teste/html/firstdoc.pdf";
OutputStream os = new FileOutputStream(outputFile);
ITextRenderer renderer = new ITextRenderer();

String html = "&lt;html&gt;&lt;head&gt;&lt;meta http-equiv=\"Content-Type\" content=\"text/html; charset=UTF-8\" /&gt;&lt;/head&gt;&lt;body&gt;&lt;p&gt;你好啊!&lt;/p&gt;&lt;p&gt;这里加入图片&lt;/p&gt;&lt;p&gt;&lt;img src=\"hnd3.jpg\" width=\"139\" height=\"102\" /&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=\"hnd3 (2).jpg\" width=\"140\" height=\"95\" /&gt;&lt;/p&gt;&lt;p&gt;测试而已!&lt;/p&gt;&lt;p&gt;hello the world~&lt;/p&gt;&lt;/body&gt;&lt;/html&gt;";

renderer.setDocumentFromString(html);

// 解决图片的相对路径问题
renderer.getSharedContext().setBaseURL("file:/F:/teste/html/");

renderer.layout();
renderer.createPDF(os);

os.close();
System.out.println("生成成功!");
}</pre>
<p> 我这边代码拷贝自楼主,修改一下,如上,没有在html中定义样式。中文显示正常。</p>
<p> </p>
<p>需要 iTextAsian.jar,以及修改后的源代码包。</p>
<p> </p>
<p> 附件中有生成PDF</p>
30 楼 blackbat 2009-11-06  
yongboy 写道
修改后的xhtmlrenderer核心包已经在
http://yongboy.iteye.com/blog/510976
上面地址中提供下载,无须显示在CSS中定义字体了,无须如下直接显示定义引入字体:
ITextFontResolver fontResolver = renderer.getFontResolver();  
fontResolver.addFont("C:/Windows/fonts/simsun.ttc", BaseFont.IDENTITY_H, BaseFont.NOT_EMBEDDED);

估计会方便一些如我之类的新手吧。


能否解决一个xhtml里面所有的中文字体,不仅仅是Body里面,也就是说一个xhtml里面多种中文字体。
29 楼 liuqizhi0925 2009-11-06  
试用了下,很不错!
也不认同改源码...
28 楼 downpour 2009-11-06  
narsil 写道
怎样在html中设置分页。


CSS中有相关的分页设置。

实际上我认为这个方案的精髓就在于能够使用HTML/CSS来控制PDF输出。很多朋友所谓的字体问题,分页问题,或者页面设置问题,实际上都可以通过CSS的方案来解决,这也是比较推荐的做法。动不动就去改源码,这个做法决不是什么最佳实践。
27 楼 yongboy 2009-11-05  
修改后的xhtmlrenderer核心包已经在
http://yongboy.iteye.com/blog/510976
上面地址中提供下载,无须显示在CSS中定义字体了,无须如下直接显示定义引入字体:
ITextFontResolver fontResolver = renderer.getFontResolver();  
fontResolver.addFont("C:/Windows/fonts/simsun.ttc", BaseFont.IDENTITY_H, BaseFont.NOT_EMBEDDED);

估计会方便一些如我之类的新手吧。
26 楼 narsil 2009-11-05  
中文可以了。

ITextFontResolver fontResolver = renderer.getFontResolver(); 
fontResolver.addFont("C:/Windows/fonts/simsun.ttc", BaseFont.IDENTITY_H, BaseFont.NOT_EMBEDDED);


<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<title>test</title>
<style type="text/css">
<!--
body {
	font-family: SimSun; 
	font-size:22px;
	font-style:italic;
	font-weight:bold;
	color:#00F;
}
-->
</style></head>

<body>
显示中文
</body>
</html>
25 楼 narsil 2009-11-05  
怎样在html中设置分页。
24 楼 yongboy 2009-11-05  
我修改了其源代码,可以不用考虑楼主所说的那般严重。只是,如何上传修改好并且打包的JAR呢 ?
23 楼 風一樣的男子 2009-11-05  
不错,有必要研究一下

相关推荐

    itext的PDF生成方案

    **iText PDF生成方案** iText是一个开源的Java库,专门用于创建和修改PDF文档。在IT领域,尤其是在文档处理和报告生成方面,iText是一个非常实用的工具。本方案将详细探讨如何利用iText来生成PDF文件,以及相关的...

    QT5生成PDF

    1、 pdfWriter1():使用QpdfWriter和Qpainter进行纯文字版的pdf生成和绘制,并进行了分页显示。 Pdf生成在当前目录下的pdf_test.pdf 2、 pdfWriter2():使用QPdfwriter 和QPainter创建pdf报告,关键是对页面的布局...

    MCU生成PDF文件

    首先,我们需要一个PDF库,它能够运行在资源有限的MCU上。虽然PDF格式复杂,但有一些轻量级的开源库如`PDFGen`可以帮助我们实现这一目标。根据提供的压缩包包名`PDFGen-master`,我们可以假设这是我们要用的库,它...

    java 多个pdf合并,目录生成(支持自定义目录),页码生成(源码)

    本项目提供了一个纯Java实现的解决方案,它能有效地完成多个PDF文件的合并,并且支持自定义目录的生成以及页码的添加。 首先,`PDFUtil.java`是这个项目的核心类,它包含了处理PDF的关键方法。PDFUtil可能包含了...

    pdf生成缩略图

    PDF生成缩略图是将PDF文档中的页面转换成小尺寸的图像表示,通常用于预览、索引或在文件管理器中快速查看PDF内容。在IT领域,这涉及到PDF处理和图像处理技术。以下是一些关于如何在C#中生成PDF缩略图的关键知识点: ...

    自动生成PDF文件,C#源码

    标题“自动生成PDF文件,C#源码”表明我们讨论的是一个使用C#编程语言创建PDF文件的解决方案。这通常涉及到第三方库的使用,如iTextSharp,它是一个强大的PDF处理库,能够帮助开发者在C#环境中方便地生成、编辑和...

    Java将PDF生成图片

    以下是一些关于“Java将PDF生成图片”的核心知识点: 1. **PDF处理库**:在Java中,我们可以使用第三方库如Apache PDFBox、iText和PDF Clown等来处理PDF文档。这些库提供了丰富的API,用于读取、解析和操作PDF文件...

    PDF生成器for win7

    此外,PDF生成器还可能提供一些高级特性,如合并多个文件为一个PDF、添加水印、密码保护等,以满足不同用户的需求。 总的来说,PDF生成器是Windows 7用户便捷创建PDF文档的重要工具。通过理解其工作原理和使用方法...

    多图片生成一PDF工具.zip

    总的来说,这款“多图片生成一PDF工具”提供了一个简单易用且高效的解决方案,帮助用户快速将图片集合整理成PDF文档,特别适合处理jpg、png和bmp格式的图片。同时,其批量处理功能极大地提升了处理大量图片的效率。...

    C#生成pdf文件

    虽然.NET Framework本身并不直接支持PDF生成,但有许多开源和商业库可供选择,如iTextSharp、PDFsharp、Syncfusion Essential PDF等。这些库提供了API,允许开发者创建、编辑和操作PDF文档。 以iTextSharp为例,这...

    PDF生成器包含注册码

    总的来说,这款包含注册码的PDF生成器提供了一个便捷的解决方案,帮助用户轻松创建和管理PDF文档。其小巧的体积、简单的操作以及全面的功能使得它成为处理PDF文件的理想选择。用户在享受这些服务的同时,也无需担心...

    保护数据隐私的深度学习训练数据生成方案.pdf

    本文主要介绍了一种保护数据隐私的深度学习训练数据生成方案,该方案基于条件生成对抗网络(CGAN),能够生成大量与真实数据同分布的对抗样本,满足了生成大量带标签训练数据的需求。同时,该方案还结合数据变形方法...

    php完全生成pdf解决方案

    php生成pdf的完全解决方案,不使用phplib插件,完全脚本化执行,完美解决中文乱码问题,支持以下功能: 1、完美支持中文,php生成的pdf不会出现乱码 2、把SQL查询结构生成为pdf中的表格 3、pdf页眉页脚支持中文及...

    在c#中生成PDF文件

    首先,我们需要一个库来处理PDF生成。一个常用的开源库是iTextSharp,它是一个功能丰富的PDF处理库,支持多种操作,包括创建、编辑和读取PDF文件。要使用iTextSharp,你需要在项目中添加对它的引用。可以通过NuGet包...

    利用freemarker 模板生成pdf ,利用easypoi 生成excel(带图片,水印,分页)

    在生成PDF时,我们可以借助Flying Saucer库,这是一个能够将HTML转换为PDF的工具。通过将Freemarker模板与Flying Saucer结合,可以方便地将动态数据转换成结构化的PDF文档。例如,你可以创建一个Freemarker模板,...

    itextpdf.zip(JavaPDF文件生成)

    JavaPDF文件生成是Java开发中一个重要的领域,主要用于创建、编辑和处理PDF文档。iTextPDF是一个流行的开源库,它提供了丰富的API...通过熟练掌握iTextPDF,开发者可以在Java应用程序中实现专业级的PDF生成和处理功能。

    java生成PDF417条码

    4. **集成到应用**:将条码生成功能集成到你的Java应用程序中,可能需要创建一个服务或工具类,提供生成条码的接口。这可能涉及到处理用户输入、验证数据、选择条码格式,以及将生成的条码图像插入到PDF、报告或网页...

    一款很好的PDF组件(ASP生成PDF)

    【ASP PDF组件与PDF生成技术】 在Web开发中,生成PDF文档是一项常见的需求,用于提供打印友好版本或者方便用户下载的格式。ASP(Active Server Pages)是微软开发的一种服务器端脚本环境,常用于构建动态网页。而...

    freemarker生成doc方案.pdf(内附代码下载地址)

    在当今的信息技术领域,自动化文档生成是一个非常重要的功能,尤其是在企业和监管单位中,自动化的文档生成可以节省大量的人力和时间资源,提高工作效率。为了实现这一目标,使用Freemarker模板引擎结合Office软件...

    简单易用的pdf生成器

    总之,"简单易用的pdf生成器"通过DOPDF提供了一个便捷的解决方案,使得用户能够快速且轻松地将Word文档转换为PDF,确保内容的准确性和安全性。通过掌握这种工具的使用,无论是个人还是专业人士,都能在日常工作中...

Global site tag (gtag.js) - Google Analytics