itextpdf简单使用制作豆瓣日志pdf

fair_jm

浏览: 434243 次
性别:
来自: 杭州

最近访客更多访客>>

yishiyouya

jAmEs_

xyz86868

oyyl01

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

java菜鸟笔记

关于怎么获取豆瓣日志的文章原来有写过一篇:http://fair-jm.iteye.com/blog/1896575

这个是用htmlparser的现在的改成jsoup 原理差不多都是根据tag 还有id来获取日志的标题发布时间和内容的

先来一张效果图吧生成的还不错(生成的来源依旧是我姐的豆瓣日志:http://www.douban.com/people/maybedekky/notes) 没错这个工具图片的地址是直接转成图片的...不是text文本..略强大

所以这部分就略过了需要的可以看上面的日志。

itextpdf的下载地址是:

http://itextpdf.com/download.php

为了格式还需要一个iText XML Worker来直接将html的内容转成pdf（一些css的设置最好全清空了不然格式会乱七八糟了)

这里有个中文支持的问题

看这里:http://blog.csdn.net/kings988/article/details/5393982

不过我自己试了下不用这么麻烦只要把字体改成支持中文的字体就好了很简单的一段（因为支持中文的字体也一定支持英文的不是吗?）

在com.itextpdf.tool.xml.css.apply下的ChunkCssApplier类中这样修改:(这两个类都是在IText Xml worker的jar下的）：

好这样中文问题就解决啦(你想换什么字体就换好了)

生成的主要代码只有一行:

	    XMLWorkerHelper.getInstance().parseXHtml(writer, document,

	        new StringReader("<html><body>"+arti.warpInfo()+"</body></html>"));

三个参数分别是:

com.itextpdf.tool.xml.XMLWorkerHelper com.itextpdf.text.Document java.io.Reader

当然还有其他重载的方式

example代码如下这段代码做测试用的生成的文件也是完好的:

package org.cc.abao.test;

import java.io.FileOutputStream;
import java.io.IOException;
import java.io.StringReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.ArrayList;
import java.util.List;

import org.cc.abao.vo.Article;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import com.itextpdf.text.DocumentException;
import com.itextpdf.text.pdf.PdfWriter;
import com.itextpdf.tool.xml.XMLWorkerHelper;
/**
 * 
 * @author cc fair_jm(http://fair-jm.iteye.com/)
 *
 */
public class TestJsoup {

	public static void main(String[] args) throws MalformedURLException,
			IOException, DocumentException {
		Document doc = Jsoup.parse(new URL(
				"http://www.douban.com/people/maybedekky/notes"), 5000);

		Elements elements = doc.select("a[data-url]");

		List<String> urls = new ArrayList<String>();

		for (Element element : elements) {
			urls.add(element.attr("data-url"));
		}

		System.out.println(urls);
		
		StringBuffer snote=new StringBuffer();

		Article arti=new Article();
		
//		for(String url:urls){
		Document article = Jsoup.parse(new URL(urls.get(0)), 5000);
		Elements notes = article.select("div#link-report");
		Element note = notes.get(0);
		
		arti.setContent(note.html());
		
		arti.setTitle(article.select("title").get(0).text());
	
		arti.setDate(article.select("span[class=pl]").get(0).text());
		
//		snote="<html><body>"+note.html().replaceAll("<div.*>", "")
//				.replaceAll("</div>", "")+"</body></html>";
		
		
//		snote.append(note.html().replaceAll("<div.*>", "").replaceAll("</div>", ""));
//		}
		
		
		com.itextpdf.text.Document document=new com.itextpdf.text.Document();

        String name=TestJsoup.class.getResource("/").getFile().substring(1)+"/results/loremipsum.pdf";
        
        Files.deleteIfExists(Paths.get(name));
        Files.createFile(Paths.get(name));
        
		PdfWriter writer = PdfWriter.getInstance(document,    
		new FileOutputStream(name));
		
		writer.setViewerPreferences(PdfWriter.HideToolbar);


	    document.open();
	    

	    XMLWorkerHelper.getInstance().parseXHtml(writer, document,

	        new StringReader("<html><body>"+arti.warpInfo()+"</body></html>"));
	    
//	    System.out.println(snote);

	    document.close();

	}

}

代码已经是乱七八糟的了....

还有个Article的vo类:

package org.cc.abao.vo;

public class Article {

	private String title;
	private String date;
	private String content;
	
	private String wrappedInfo;
	public String getTitle() {
		return title;
	}
	public void setTitle(String title) {
		this.title = title;
	}
	public String getDate() {
		return date;
	}
	public void setDate(String date) {
		this.date = date;
	}
	public String getContent() {
		return content;
	}
	public void setContent(String content) {
		this.content = content;
	}
	
	public  String warpInfo(){
		if(wrappedInfo==null){
		  wrappedInfo="<p><span style=\"font-size: xx-large;\">"+title+"</span></p><p>"+date+"</p><br /><hr /><h2>"+
		  content.replaceAll("<div.*>", "").replaceAll("</div>", "")+"</h2><br /><hr />";
		}
		return wrappedInfo;
	}
}

具体的代码就不放了说下流程:

从日志的首页获取全部的日志页(从全部的http://www.douban.com/people/maybedekky/notes?start=XX中得到形式 1到13页的话也就是 start=0 start=10.....start=120)
获取日志内容（同时生成Article 放在list中并排序)
生成日志

这三个分别对应三个工具类:

具体代码就不发了不是很难大家有兴趣自己动手下吧