`
lzj0470
  • 浏览: 1276939 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

谈 Page Rank – Google 的民主表决式网页排名技术

阅读更多

谈 Page Rank – Google 的民主表决式网页排名技术

<script></script>



大家可能听说过,Google 革命性的发明是它名为 “Page Rank” 的网页排名算法,这项技术彻底解决了搜索结果排序的问题。其实最先试图给互联网上的众多网站排序的并不是 Google。Yahoo! 公司最初第一个用目录分类的方式让用户通过互联网检索信息,但由于当时计算机容量和速度的限制,当时的 Yahoo! 和同时代的其它搜索引擎都存在一个共同的问题: 收录的网页太少,而且只能对网页中常见内容相关的实际用词进行索引。那时,用户很难找到很相关信息。我记得 1999 年以前查找一篇论文,要换好几个搜索引擎。后来 DEC 公司开发了 AltaVista 搜索引擎,只用一台 ALPHA 服务器,却收录了比以往引擎都多的网页,而且对里面的每个词进行索引。AltaVista 虽然让用户搜索到大量结果,但大部分结果却与查询不太相关,有时找想看的网页需要翻好几页。所以最初的 AltaVista 在一定程度上解决了覆盖率的问题,但不能很好地对结果进行排序。

Google 的 “Page Rank” (网页排名)是怎么回事呢?其实简单说就是民主表决。打个比方,假如我们要找李开复博士,有一百个人举手说自己是李开复。那么谁是真的呢?也许有好几个真的,但即使如此谁又是大家真正想找的呢?:-) 如果大家都说在 Google 公司的那个是真的,那么他就是真的。

在互联网上,如果一个网页被很多其它网页所链接,说明它受到普遍的承认和信赖,那么它的排名就高。这就是 Page Rank 的核心思想。 当然 Google 的 Page Rank 算法实际上要复杂得多。比如说,对来自不同网页的链接对待不同,本身网页排名高的链接更可靠,于是给这些链接予较大的权重。Page Rank 考虑了这个因素,可是现在问题又来了,计算搜索结果的网页排名过程中需要用到网页本身的排名,这不成了先有鸡还是先有蛋的问题了吗?

Google 的两个创始人拉里•佩奇 (Larry Page )和谢尔盖•布林 (Sergey Brin) 把这个问题变成了一个二维矩阵相乘的问题,并且用迭代的方法解决了这个问题。他们先假定所有网页的排名是相同的,并且根据这个初始值,算出各个网页的第一次迭代排名,然后再根据第一次迭代排名算出第二次的排名。他们两人从理论上证明了不论初始值如何选取,这种算法都保证了网页排名的估计值能收敛到他们的真实值。值得一提的事,这种算法是完全没有任何人工干预的。

理论问题解决了,又遇到实际问题。因为互联网上网页的数量是巨大的,上面提到的二维矩阵从理论上讲有网页数目平方之多个元素。如果我们假定有十亿个网页,那么这个矩阵 就有一百亿亿个元素。这样大的矩阵相乘,计算量是非常大的。拉里和谢尔盖两人利用稀疏矩阵计算的技巧,大大的简化了计算量,并实现了这个网页排名算法。今天 Google 的工程师把这个算法移植到并行的计算机中,进一步缩短了计算时间,使网页更新的周期比以前短了许多。

我来 Google 后,拉里 (Larry) 在和我们几个新员工座谈时,讲起他当年和谢尔盖(Sergey) 是怎么想到网页排名算法的。他说:"当时我们觉得整个互联网就像一张大的图 (Graph),每个网站就像一个节点,而每个网页的链接就像一个弧。我想,互联网可以用一个图或者矩阵描述,我也许可以用这个发现做个博士论文。" 他和谢尔盖就这样发明了 Page Rank 的算法。

网页排名的高明之处在于它把整个互联网当作了一个整体对待。它无意识中符合了系统论的观点。相比之下,以前的信息检索大多把每一个网页当作独立的个体对待,很多人当初只注意了网页内容和查询语句的相关性,忽略了网页之间的关系。

今天,Google 搜索引擎比最初复杂、完善了许多。但是网页排名在 Google 所有算法中依然是至关重要的。在学术界, 这个算法被公认为是文献检索中最大的贡献之一,并且被很多大学引入了信息检索课程 (Information Retrieval) 的教程。

分享到:
评论

相关推荐

    Page Rank

    Page Rank是Google搜索引擎算法的核心组成部分,它通过评估网页之间的链接关系来确定网页的重要性。这个概念由Google的创始人拉里·佩奇(Larry Page)和谢尔盖·布林(Sergey Brin)在1996年提出,是他们早期搜索...

    Rank-Rnet.rar_Page Rank_driverh92_page_重要性排序

    Page Rank是Google创始人Larry Page提出的一种网页排名算法,它通过计算网页之间的链接关系来评估网页的重要性,成为搜索引擎优化(SEO)领域的一个核心概念。在这个名为"Rank-Rnet.rar"的压缩包文件中,我们看到一...

    [搜索链接]Page Rank查询_pagerank.zip

    Page Rank是Google创始人Larry Page提出的一种网页排名算法,它在搜索引擎优化(SEO)领域具有重要地位。这个压缩包文件“Page Rank查询_pagerank.zip”很可能包含关于Page Rank算法的详细资料,帮助我们理解其原理...

    人工智能-项目实践-搜索引擎-基于page rank的个人搜索引擎项目

    Page Rank是由Google创始人拉里·佩奇和谢尔盖·布林提出的算法,用于评估网页的重要性。该算法的基本思想是,一个网页的Page Rank值不仅取决于其本身的质量,还与链接到它的其他网页的Page Rank有关。高Page Rank的...

    Google-Chrome-Google-Page-Rank:获取 Google 页面排名并将其显示在地址栏中的 Chrome 扩展程序

    "Google-Chrome-Google-Page-Rank" 指的是一款针对 Google Chrome 浏览器的扩展程序,它的主要功能是获取网页的 Google Page Rank(谷歌页面排名),并将其结果显示在浏览器的地址栏中。Google Page Rank 是 Google ...

    ASP.NET百度权重,alexa排名,google page rank,google收录,百度收录和百度快照查询源代码.rar

    在这个压缩包中,提供的源代码主要用于查询网站的关键性能指标,包括百度权重、Alexa排名、Google PageRank、Google收录量、百度收录量以及百度快照更新情况。这些数据对于网站优化和搜索引擎营销(SEO)至关重要。 ...

    根据《集体智慧编程》实现的一个小型的搜索引擎,包括page rank算法和BF 神经网络算法的实现.zip

    Page Rank是Google创始人拉里·佩奇和谢尔盖·布林提出的一种网页排名算法。它基于互联网网页之间的链接关系来评估其重要性。Page Rank的基本思想是:被高质量网页链接的网页更有可能是高质量的。算法的具体步骤如下...

    java实现网页排名算法

    网页排名算法是搜索引擎技术的核心部分,它通过评估网页之间的相互链接关系来确定网页的重要性,从而决定搜索结果的排序。在本话题中,我们将专注于Java实现PageRank算法的详细过程。 PageRank是由Google创始人拉里...

    谷歌pagerank算法

    谷歌 pagerank 算法是互联网历史上具有里程碑意义的算法之一,由谷歌创始人拉里·佩奇和谢尔盖·布林共同设计。它的核心思想来源于论文引用关系的研究,认为一篇论文的重要性可以通过引用它的其他论文数量来衡量。在...

    WebPageMaker. 自己动手做网页

    总的来说,WebPageMaker是一个强大而易用的网页制作工具,它让没有技术背景的人也能轻松创建专业的网页,实现互联网上的自我表达或商业展示。通过不断的实践和学习,用户可以进一步提升网页设计技能,创造出更加独特...

    page rank 介绍

    PageRank是Google搜索引擎早期采用的一种核心算法,由斯坦福大学的Sergey Brin和Lawrence Page在1998年提出。这个算法是第一代谷歌搜索引擎的基础,它被用来衡量网页的重要性和进行搜索结果的排序。PageRank的理论...

    google's page rank and beyond&&&Understanding search engines

    1.google's page rank and beyond2.Understanding search engines附带阅读器,欢迎搜索爱好者和我联系交流,email:gigglesun@163.com.

    Google Chrome R-page 谷歌浏览器 查看不同尺寸移动设备中网页的布局插件.rar

    谷歌Chrome R-page是一款专为网页开发者设计的插件,它允许用户在谷歌浏览器上预览并测试网页在不同尺寸的移动设备上的布局效果。这款工具对于优化响应式网页设计(Responsive Web Design,简称RWD)至关重要,因为...

    Matt Cutts:不要把注意力放在PR上.docx

    在互联网搜索引擎优化(SEO)领域,Google Page Rank曾是衡量网页重要性和排名的一个关键指标。然而,Google前员工Matt Cutts在一段视频中提出一个引人深思的观点:SEO专家和网站管理员不应过度关注Page Rank。在...

    在线打开word,excel插件之pageoffice使用

    PageOffice是一款专为Web应用程序设计的在线编辑Office文档的插件。它允许用户在网页浏览器中直接打开、编辑、预览、打印Word、Excel和PowerPoint等Microsoft Office格式的文件,无需安装任何额外的客户端软件。这个...

    评论:Google的潘多拉星球.docx

    评论中的内容讨论了Google搜索引擎的发展历程及其核心技术Page Rank的演变。Google搜索引擎的使命是通过爬行、收录、相关性计算和传送四个步骤,为用户提供准确的答案。早期的搜索引擎依赖于简单的重要性排名,容易...

    PageOne网页源码

    PageOne网页源码是一款以极简主义为设计原则的网页模板,它的特点是风格清新,注重用户体验,同时融入了多种高效且炫酷的JavaScript技术。在这个名为"PageOne10"的压缩包中,你将找到构建这个独特网页的全部源代码。...

    google hacking 技术手册

    ### Google Hacking技术手册知识点详解 #### 一、Google Hacking概述 Google Hacking是一种利用Google搜索引擎的强大功能来发现安全漏洞或敏感信息的技术。通过掌握特定的搜索语法和技巧,安全专家可以找到可能被...

Global site tag (gtag.js) - Google Analytics