`

Google的PageRank原理

阅读更多

PageRank我想稍微接触过网络的人都知道,很多博客站长最关心的话题,也可以说成是一个博客或者网站是否受欢迎(流行度)的衡量标准。

在这里我依然把 PageRank的定义给大家复述一下,PageRank:又称“佩奇等级”或者PR值,是以Google公司创始人之一拉里.佩奇(Larry Page)而命名。“佩奇等级”着重考察的是网站的权威性,说的更通俗一些也就是网站内容能满足大众的搜索需求,从而引起人们的观注,网站被链接的越多说明网站的链接流行度越高。链接流行度高了,随之而来的就是搜索引擎会把你放一个好位置(搜索结果中),供更多有需求的人来看你提供的优质内容。

Google 的 “Page Rank” (网页排名)是怎么回事呢?其实简单说就是民主表决。打个比方,假如我们要找李开复博士,有一百个人举手说自己是李开复。那么谁是真的呢?也许有好几个真的,但即使如此谁又是大家真正想找的呢?:-)如果大家都说在 Google 公司的那个是真的,那么他就是真的。

在互联网上,如果一个网页被很多其它很多网页所链接,说明它受到普遍的承认和信赖,那么它的排名就高。这就是Page Rank 的核心思想。 当然 Google 的 Page Rank 算法实际上要复杂得多。比如说,对来自不同网页的链接对待不同,本身网页排名高的链接更可靠,于是给这些链接予较大的权重。Page Rank 考虑了这个因素,可是现在问题又来了,计算搜索结果的网页排名过程中需要用到本身网页的排名,这不成了先有鸡还是先有蛋的问题了吗?

Google 的两个创始人拉里•佩奇 (Larry Page )和谢尔盖•布林 (Sergey Brin) 把这个问题变成了一个二维矩阵相乘的问题,并且用迭代的方法解决了这个问题。他们先假定所有网页的排名是相同的,并且根据这个初始值,算出各个网页的第一次迭代排名,然后再根据第一次迭代排名算出第二次的排名。他们两人从理论上证明了不论初始值如何选取,这种算法都保证了网页排名的估计值能收敛到他们的真实值。值得一提的事,这种算法是完全没有任何人工干预的。

理论问题解决了,又遇到实际问题。因为互联网上网页的数量是巨大的,上面提到的二维矩阵从理论上讲有网页数目平方之多个元素。如果我们假定有十亿个网页,那么这个矩阵 就有一百亿亿个元素。这样大的矩阵相乘,计算量是非常大的。拉里和谢尔盖两人利用稀疏矩阵计算的技巧,大大的简化了计算量,并实现了这个网页排名算法。今天 Google 的工程师把这个算法移植到并行的计算机中,进一步缩短了计算时间,使网页更新的周期比以前短了许多。

我来 Google 后,拉里 (Larry) 在和我们几个新员工座谈时,讲起他当年和谢尔盖(Sergey) 是怎么想到网页排名算法的。他说:"当时我们觉得整个互联网就像一张大的图 (Graph),每个网站就像一个节点,而每个网页的链接就像一个弧。我想,互联网可以用一个图或者矩阵描述,我也许可以在用这个发现做个博士论文。" 他和谢尔盖就这样发明了 Page Rank 的算法。

网页排名的高明之处在于它把整个互联网当作了一个整体对待。它无意识中符合了系统论的观点。相比之下,以前的信息检索大多把每一个网页当作独立的个体对待,很多人当初只注意了网页内容和查询语句的相关性,忽略了网页之间的关系。

PageRank 评价一个网页质量用1~10的数字组成,通过Google 工具栏显示出来。PR值越大表示网站质量越高、越重要。下面秀一下博客联盟目前的PR值情况。本人用的是Fozilla Firefox的浏览器,速度、功能相当的不错。自带Google工具条。通过工具条可以让你更好的分析,你每打开一个网页的重要程度。现在博客联盟的PR值是4/10。

PageRank来源于一种数学公式,执行的是一种简单的概率分析。公式如下:

PR(A)=(1-d)+d(PR(Ti)/C(Ti)+….+PR(Tn)/ C(Tn))

PR(A):网页A的PR 。

PR(Ti):链接A的网页Ti的PR等级,“i”可以从0到n,”n“是链接的总数,这个链接可以来自任何网站的链接。

C(Ti):网页Ti往其它网站链接的数量。

分享到:
评论

相关推荐

    pagerank算法原理及分析

    PageRank算法,作为谷歌的核心算法之一,自问世以来便在信息检索领域占据了举足轻重的地位。它通过深入挖掘网络中网页之间的链接关系,评估网页的重要性,从而为用户提供更高质量的搜索结果。本文将详细介绍PageRank...

    Google的PageRank算法学习

    ### Google的PageRank算法详解 #### 一、PageRank算法概念与起源 PageRank是Google搜索引擎的核心算法之一,由Google的创始人Larry Page和Sergey Brin在斯坦福大学研究期间提出。该算法的主要目的是通过对网页之间...

    pagerank_大数据pagerank算法代码_pageRank_

    **PageRank原理** PageRank基于一个简单的概念:网页的重要性由其链接的数量和质量决定。一个被许多其他重要网页链接的网页,其PageRank值会更高。PageRank的计算公式可以表示为: \[ PR(p) = \frac{1-d}{N} + d \...

    Google PageRank and Beyond

    综上所述,《Google PageRank及超越》这本书不仅介绍了PageRank算法的基本原理和技术细节,还探讨了搜索引擎技术的未来发展以及面临的挑战。对于想要深入了解搜索引擎工作原理的研究者和开发者来说,本书是一份宝贵...

    PageRank_pageRank_python_

    **PageRank原理** PageRank的核心思想是,一个网页的PageRank值不仅取决于它自身的质量,还取决于其他网页对它的引用。一个被高质量网页引用的网页会获得更高的PageRank值。PageRank算法将整个互联网视为一个大型的...

    Google PageRank 算法挖掘重要物理文献

    首先,理解PageRank的基本原理至关重要。PageRank算法将每个网页视为网络中的一个节点,而链接则被视为节点间的边。它假设一个网页被其他网页链接的数量和质量(链接来源的PageRank值)可以反映其重要性。PageRank值...

    Java查询获取Google PageRank

    Java查询获取Google PageRank是一个关于搜索引擎优化(SEO)和网页排名技术的话题。Google PageRank是Google搜索引擎早期使用的一种算法,用于评估网页在互联网中的重要性。这个算法的主要思想是通过网页之间的链接...

    Google的秘密PageRank彻底解说中文版

    ##### 1.2 PageRank的计算原理 PageRank的计算涉及到概率论中的马尔可夫链理论。每个网页被视为马尔可夫链中的一个状态,而网页间的链接则表示状态间的转移概率。当用户从一个网页跳转到另一个网页时,这种行为可以...

    无忧搜网 Google PageRank及时速查系统 v2.2

    《无忧搜网 Google PageRank 及时速查系统 v2.2》是一款专注于查询Google PageRank的工具,它能够帮助用户快速获取网站在Google搜索引擎中的PageRank值,这对于SEO(搜索引擎优化)工作至关重要。PageRank是Google...

    Google_PageRank算法深入解析

    以上内容详细解析了Google PageRank算法的核心原理、计算方法以及其在实际应用中的迭代过程。理解PageRank算法有助于我们了解搜索引擎如何评估网页的重要性,以及为何某些页面在搜索结果中的排名高于其他页面。

    python实现PageRank算法

    PageRank是Google创始人Larry Page提出的一种网页排名算法,它通过计算网页之间的链接关系来评估网页的重要性,从而为搜索引擎提供一种衡量网页质量的方式。在Python中实现PageRank算法可以帮助我们理解其工作原理,...

    PageRank介绍

    PageRank算法是谷歌搜索引擎在搜索结果中对网页进行排序的一种方法,其命名来源于谷歌联合创始人之一拉里·佩奇(Larry Page)。该算法提供了一种衡量网页重要性的有效方式。 #### 基本概念 PageRank的基本思想是...

    WWW-Google-PageRank-0.12.tar.gz_pageRank_pagerank perl_perl page

    PageRank是Google搜索引擎早期的核心算法之一,用于评估网页在互联网中的重要性。这个算法由Google的创始人拉里·佩奇和谢尔盖·布林提出,它的主要思想是通过分析网页之间的链接关系来确定页面的价值。Perl是一种...

    基于PHP的Google PageRank PR值在线查询PHP.zip

    1. 理解PageRank算法的基本原理,虽然Google已不再公开更新PageRank,但基础概念仍具有参考价值。 2. 使用Google的PageRank API或者第三方API,因为Google官方已经不再直接提供PageRank查询服务,可能需要找到替代的...

    pagerank-java实现查询

    这篇博士论文文档详细阐述了PageRank的理论基础和实现原理,由Google的创始人Larry Page和Sergey Brin提出。Java实现的PageRank查询代码则为我们提供了实际操作这一算法的实例。 PageRank的基本思想是,一个网页的...

    pageRank算法实例加代码

    **PageRank原理** PageRank的核心概念是“投票”,每个链接被视为对目标页面的投票。一个页面的PageRank值由以下因素决定: 1. **入链数量**:越多的页面链接到一个页面,表示该页面获得的投票越多,PageRank值...

    [工具查询]Google PageRank PR值在线查询 v1.0_googlepr.zip

    Google PageRank(PR值)是Google搜索引擎早期用来评估网页重要性的一个重要指标,由Google创始人拉里·佩奇提出。这个概念基于学术界的引文理论,认为一个被许多其他高质量网页链接的网页具有更高的价值。PageRank...

Global site tag (gtag.js) - Google Analytics