PageRank算法java实现版本

AngelAndAngel

浏览: 236859 次
性别:
来自: 上海

最近访客更多访客>>

ymgjava

yk1316

troybianbian

shaokai132333

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

java综合
web算法

pagerank 算法搜索 web智能 google

   PageRank算法是Google的核心搜索算法，在所有链接型文档搜索中有极大用处，而且在我们的各种关联系统中都有好的用法，比如专家评分系统，微博搜索/排名,SNS系统等。
   PageRank算法的依据或思想：
    1，被重要的网页链接的越多（外链），此网页就越重要
    2，此网页对外的链接越少越重要
    这两个依据不能是独立的，是需要一起考虑的。但是问题来了，我们怎样判断本网页的外链是很重要的呢？循环判断？那不死循环了？
    解决办法是：给定阀值，让循环在此临界处停止。
   首先，我们准备了7个测试网页，这几个网页的链接情况如下:

i\j	test1	test2	test3	test4	test5	test6	test7
test1	0	1	1	0	0	0	0
test2	1	0	0	1	0	0	0
test3	0	0	0	1	1	1	0
test4	0	1	0	0	1	0	1
test5	0	0	1	1	0	0	0
test6	1	0	0	0	1	0	0
test7	0	1	0	1	0	0	1

表格的意思是 test1链接到 test2,test3 ....依次类推，我们大致的根据上面两个原则可以猜一下，哪个将会是排名第一的网页?哪个最不重要?
   貌似是test4和test6?
   下面我们看看怎样用java实现PageRank算法。
   首先创建html实体表示类，代码如下：

/**
 * 网页entity
 * 
 * @author afei
 * 
 */
class HtmlEntity {

	private String path;
	private String content;
	/* 外链(本页面链接的其他页面) */
	private List<String> outLinks = new ArrayList<String>();

	/* 内链(另外页面链接本页面) */
	private List<String> inLinks = new ArrayList<String>();

	private double pr;

	public String getPath() {
		return path;
	}

	public void setPath(String path) {
		this.path = path;
	}

	public String getContent() {
		return content;
	}

	public void setContent(String content) {
		this.content = content;
	}

	public double getPr() {
		return pr;
	}

	public void setPr(double pr) {
		this.pr = pr;
	}

	public List<String> getOutLinks() {
		return outLinks;
	}

	public void setOutLinks(List<String> outLinks) {
		this.outLinks = outLinks;
	}

	public List<String> getInLinks() {
		return inLinks;
	}

	public void setInLinks(List<String> inLinks) {
		this.inLinks = inLinks;
	}

}

核心算法代码如下：

/**
 * pagerank算法实现
 * 
 * @author afei
 * 
 */
public class HtmlPageRank {

	/* 阀值 */
	public static double MAX = 0.00000000001;

	/* 阻尼系数 */
	public static double alpha = 0.85;

	public static String htmldoc = "D:\\workspace\\Test\\WebRoot\\htmldoc";

	public static Map<String, HtmlEntity> map = new HashMap<String, HtmlEntity>();

	public static List<HtmlEntity> list = new ArrayList<HtmlEntity>();

	public static double[] init;

	public static double[] pr;

	public static void main(String[] args) throws Exception {
		loadHtml();
		pr = doPageRank();
		while (!(checkMax())) {
			System.arraycopy(pr, 0, init, 0, init.length);
			pr = doPageRank();
		}
		for (int i = 0; i < pr.length; i++) {
			HtmlEntity he=list.get(i);
			he.setPr(pr[i]);
		}
		
		List<HtmlEntity> finalList=new ArrayList<HtmlEntity>();
		Collections.sort(list,new Comparator(){

			public int compare(Object o1, Object o2) {
				HtmlEntity h1=(HtmlEntity)o1;
				HtmlEntity h2=(HtmlEntity)o2;
				int em=0;
				if(h1.getPr()> h2.getPr()){
					em=-1;
				}else{
					em=1;
				}
				return em;
			}
			
		});
		
		for(HtmlEntity he:list){
			System.out.println(he.getPath()+" : "+he.getPr());
		}

	}

	/* pagerank步骤 */

	/**
	 * 加载文件夹下的网页文件，并且初始化pr值(即init数组)，计算每个网页的外链和内链
	 */
	public static void loadHtml() throws Exception {
		File file = new File(htmldoc);
		File[] htmlfiles = file.listFiles(new FileFilter() {

			public boolean accept(File pathname) {
				if (pathname.getPath().endsWith(".html")) {
					return true;
				}
				return false;
			}

		});
		init = new double[htmlfiles.length];
		for (int i = 0; i < htmlfiles.length; i++) {
			File f = htmlfiles[i];
			BufferedReader br = new BufferedReader(new InputStreamReader(
					new FileInputStream(f)));
			String line = br.readLine();
			StringBuffer html = new StringBuffer();
			while (line != null) {
				line = br.readLine();
				html.append(line);
			}
			HtmlEntity he = new HtmlEntity();
			he.setPath(f.getAbsolutePath());
			he.setContent(html.toString());
			Parser parser = Parser.createParser(html.toString(), "gb2312");
			HtmlPage page = new HtmlPage(parser);
			parser.visitAllNodesWith(page);
			NodeList nodelist = page.getBody();
			nodelist = nodelist.extractAllNodesThatMatch(
					new TagNameFilter("A"), true);
			for (int j = 0; j < nodelist.size(); j++) {
				LinkTag outlink = (LinkTag) nodelist.elementAt(j);
				he.getOutLinks().add(outlink.getAttribute("href"));
			}

			map.put(he.getPath(), he);
			list.add(he);
			init[i] = 0.0;

		}
		for (int i = 0; i < list.size(); i++) {
			HtmlEntity he = list.get(i);
			List<String> outlink = he.getOutLinks();
			for (String ol : outlink) {
				HtmlEntity he0 = map.get(ol);
				he0.getInLinks().add(he.getPath());
			}
		}

	}

	/**
	 * 计算pagerank
	 * 
	 * @param init
	 * @param alpho
	 * @return
	 */
	private static double[] doPageRank() {
		double[] pr = new double[init.length];
		for (int i = 0; i < init.length; i++) {
			double temp = 0;
			HtmlEntity he0 = list.get(i);
			for (int j = 0; j < init.length; j++) {
				HtmlEntity he = list.get(j);
				// 计算对本页面链接相关总值
				if (i != j && he.getOutLinks().size() != 0
						&& he.getOutLinks().contains(he0.getPath())/*he0.getInLinks().contains(he.getPath())*/) {
					temp = temp + init[j] / he.getOutLinks().size();
				}

			}
			//经典的pr公式
			pr[i] = alpha + (1 - alpha) * temp;
		}
		return pr;
	}

	/**
	 * 判断前后两次的pr数组之间的差别是否大于我们定义的阀值 假如大于，那么返回false，继续迭代计算pr
	 * 
	 * @param pr
	 * @param init
	 * @param max
	 * @return
	 */
	private static boolean checkMax() {
		boolean flag = true;
		for (int i = 0; i < pr.length; i++) {
			if (Math.abs(pr[i] - init[i]) > MAX) {
				flag = false;
				break;
			}
		}
		return flag;
	}
	
	
	

}

直接运行算法类，得到的结果如下：

D:\workspace\Test\WebRoot\htmldoc\test4.html : 1.102472450686259
D:\workspace\Test\WebRoot\htmldoc\test5.html : 1.068131842865856
D:\workspace\Test\WebRoot\htmldoc\test2.html : 1.0249590169406457
D:\workspace\Test\WebRoot\htmldoc\test3.html : 1.0046891014946187
D:\workspace\Test\WebRoot\htmldoc\test1.html : 0.9943895104008613
D:\workspace\Test\WebRoot\htmldoc\test7.html : 0.9051236225340915
D:\workspace\Test\WebRoot\htmldoc\test6.html : 0.9002344550746025

此算法可以无限改造，以满足自身要求。
另外说一句：这个table咋编辑成这幅德行了？改都改不回来。

By 阿飞哥转载请说明
腾讯微博：http://t.qq.com/duyunfeiRoom
新浪微博：http://weibo.com/u/1766094735

分享到：

聚类算法之单链接算法java实现 | 聚类算法之kmeans算法java版本

2012-05-16 16:03
浏览 17512
评论(21)
分类:互联网
查看更多

21 楼 cyxy99 2016-06-15

u012534143 写道

我用同样的方法，同样的节点关系，为什么的得到的结果与您不一样呢？请教！！！

请问您的问题解决了吗？我也有相同的困惑///

20 楼 cyxy99 2016-06-15

schaha123 写道

楼主还有一个问题想请教一下，下面这2段代码
for (int i = 0; i < list.size(); i++) {
HtmlEntity he = list.get(i);
List<String> outlink = he.getOutLinks();
for (String ol : outlink) {
HtmlEntity he0 = map.get(ol);
he0.getInLinks().add(he.getPath());
}
}
我理解的应该是获取网页的内链集合。但是在计算pr值时代码为：
if (i != j && he.getOutLinks().size() != 0
&& he.getOutLinks().contains(he0.getPath()))
{
temp = temp + init[j] / he.getOutLinks().size();
}好像并没有用到内链集合。

我用爬虫抓取了几个简单的网页去测试该算法：在he0.getInLinks().add(he.getPath());这里会报错（空指针异常），如果注释掉第一段获取内链集合的代码，程序一切正常。使用您提供的测试集，结果和原来没注释一模一样，使用自己下载的网页，结果全是0.85(可能是下载的网页之间没什么相互链接关系吧).

这是什么原因了？

我也是相同的问题，改了路径和文件名一样，还是不行。

19 楼 u012534143 2016-04-21

我用同样的方法，同样的节点关系，为什么的得到的结果与您不一样呢？请教！！！

18 楼 zhang_guiren 2014-10-30

//经典的pr公式
pr[i] = alpha + (1 - alpha) * temp;
公式应该是
pr[i] = alpha * temp+1-alpha;
1-alpha表示用户从URL进入网页的概率

17 楼 AngelAndAngel 2014-07-10

lliiqiang 写道

厉害还要被别人知道.

？？？

16 楼 lliiqiang 2014-07-02

厉害还要被别人知道.

15 楼 wangyh_87 2014-04-16

AngelAndAngel 写道

schaha123 写道

你直接拿来用的话还要改装一下，因为你在网上抓取的网页的链接都是http开头，而不是具体的网页名字，我这里为了突出算法，就把链接地址当作文件名了。

请问楼主该怎么改装呢？

14 楼 wangyh_87 2014-04-16

wangyh_87 写道

楼主， Parser parser = Parser.createParser(html.toString(), "gb2312");
HtmlPage page = new HtmlPage(parser);
parser.visitAllNodesWith(page);
NodeList nodelist = page.getBody();
nodelist = nodelist.extractAllNodesThatMatch(
new TagNameFilter("A"), true);
for (int j = 0; j < nodelist.size(); j++) {
LinkTag outlink = (LinkTag) nodelist.elementAt(j);
he.getOutLinks().add(outlink.getAttribute("href"));
}
Parse,NodeList,HtmlPage都是在哪个包中呀？程序前面有小叉号

知道了，htmlparser.jar

13 楼 wangyh_87 2014-04-16

12 楼 zy353003874 2014-03-12

楼主，你这个是加载文件得到链接，那要是我要去爬取网站的链接改如何做呢？你知道的一个网站有上千个链接呀！

11 楼 AngelAndAngel 2012-10-22

zzjj0116 写道

你好，如何加载进我的JAVA环境中，新手，不好意思了

把地址改成你自己的html所在地址，并且把你需要操作的网页里面改成互相连接的地址

10 楼 zzjj0116 2012-10-20

你好，如何加载进我的JAVA环境中，新手，不好意思了

9 楼 hupenghui1224 2012-08-30

楼主，为什么在初始化时把 init[]元素初始化为0？刚开始每个页面不都应该有一个初始的pr值吗？

8 楼 AngelAndAngel 2012-06-06

schaha123 写道

7 楼 schaha123 2012-06-02

schaha123 写道

程序中：pr[i] = alpha + (1 - alpha) * temp;
为什么不是pr[i] =(1 - alpha)+ alpha * temp;
没看明白？

但是你的阻尼系数也是使用的通用值0.85啊。程序中为什么不是pr[i] =(1 - alpha)+ alpha * temp;难道您采用的不是常用值，是一个随便的值来计算的？

6 楼 schaha123 2012-06-02

5 楼 AngelAndAngel 2012-06-01

schaha123 写道

程序中：pr[i] = alpha + (1 - alpha) * temp;
为什么不是pr[i] =(1 - alpha)+ alpha * temp;
没看明白？

呵呵转换个思维啊，你说的和我说的没两样啊，看你对alpha怎么定义咯？

4 楼 schaha123 2012-06-01

程序中：pr[i] = alpha + (1 - alpha) * temp;
为什么不是pr[i] =(1 - alpha)+ alpha * temp;
没看明白？

3 楼 schaha123 2012-06-01

AngelAndAngel 写道

schaha123 写道

楼主，程序有错误啊。
Exception in thread "main" java.lang.NullPointerException
at edu.guet.pagerank.HtmlPageRank.loadHtml(HtmlPageRank.java:108)
at edu.guet.pagerank.HtmlPageRank.main(HtmlPageRank.java:24)

是路径的问题，除了改动一下程序里面的路径，html里面的链接路径也改一下

明白了，可以运行了，谢谢！

2 楼 AngelAndAngel 2012-05-31

schaha123 写道

是路径的问题，除了改动一下程序里面的路径，html里面的链接路径也改一下

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论