`
hz_chenwenbiao
  • 浏览: 1007741 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

深度解析Google PageRank 技术(转)

阅读更多

一:什么是PageRank(网页级别)

PageRank(网页级别)是Google用于评测一个网页“重要性”的一种方法。在揉合了诸如Title标识和Keywords标识等所有其它因素之后,Google通过PageRank来调整结果,使那些更具“重要性”的网页在搜索结果中另网站排名获得提升,从而提高搜索结果的相关性和质量。

简单说来,Google通过下述几个步骤来实现网页在其搜索结果页(SERPS)中的排名:

1) 找到所有与搜索关键词匹配的网页

2) 根据页面因素如标题\关键词密度等排列等级

3) 计算导入链接的锚文本中的关键词

4) 通过PageRank得分调整网站排名结果

事实上,真正的网站排名过程并不是这么简单,我们会在后面进行详细深入的阐述。

 

二:PageRank的决定因素

Google的PageRank是基于这样一个理论:若B网页设置有连接A网页的链接(B为A的导入链接时),说明B认为A有链接价值,是一个“重要”的网页。当B网页级别(重要性)比较高时,则A网页可从B网页这个导入链接分得一定的级别(重要性),并平均分配给A网页上的导出链接。

导入链接(也叫逆向链接)指链至你网站的站点,也就是我们一般所说的“外部链接”。而当你链至另外一个站点,那么这个站点就是你的“导出链接”,即你向其它网站提供的本站链接。

PageRank反映了一个网页的导入链接的级别(重要性)。所以一般说来,PageRank是由一个网站的导入链接的数量和这些链接的级别(重要性)所决定的。

 

三:如何知道一个网页的PageRank得分

可从http://toolbar.google.com上下载并安装Google的工具栏,这样就能显示所浏览网页的PageRank得分了。PageRank得分从0到10,若不能显示PageRank得分,可检查所安装版本号,需将老版本完全卸载,重启机器后安装最新版本即可。

 

四:PageRank的重要性

搜索引擎网站排名算法中的各排名因子的重要性均取决于它们所提供信息的质量。但如果排名因子具有易操纵性,则往往会被一些网站管理员利用来实现不良竞争。例如初引入的排名因子之一--关键词元标识(Meta Keywords),是由于理论上它可以很好地概括反映一个页面的内容,但后来却由于一些网站管理员的恶意操纵而不得不黯然退出。所以“加权值”--即我们对该因子提供信息的信任程度是由排名因子的易操纵程度和操纵程度共同决定的。

PageRank无疑是颇难被操纵的一个排名因子了。但在它最初推出时针对的只是链接的数量,所以被一些网站管理员钻了空子,利用链接工厂和访客簿等大量低劣外部链接(最简单如用一个网面重复N次一个网页链接,那么那个被链接的网页就会获得很大的链入数)轻而易举地达到了自己的目的。Google意识到这个问题后,便在系统中整合了对链接的质量分析,并对发现的作_弊网站进行封杀,从而不但有效地打击了这种做法,而且保证了结果的相关性和精准度。

 

 

五:Google的前1,000项搜索结果

一般说来,网站排名因素包括网页标题(META TITLE),网页正文中的关键词密度,锚文本(也叫链接文本,指链接或超链的文本内容)和PageRank所决定的。

请记住:单靠PageRank是无法使你获得比较理想的网站排名的。PageRank只是网站排名算法中的一个乘积因子(宽的计算与页面的内容无关,它是一个纯粹由外界页面的链接数经过计算面得的值,它与页面内容的相关性一起才是决定这个页面的排名的决定力量),若你网站的其它排名因子的得分是零,就算你的PageRank是两百亿,最后的得分还是零。但这并不是说PageRank就毫无价值,而是在什么情况下PageRank才能完全发挥其功力。

 

如果在Google上进行广泛搜索,看起来好象有几千个结果,但实际显示最多前1,000项结果。例如对“car rental”,显示搜索结果为5,110,000,但实际显示结果只有826个。而且用时只有0.81秒。试想一下,0.84秒的时间就可以计算这五百万搜索结果的每个排名因子得分,然后给出最终我们所看到的网站排名结果吗?

答案就在于:搜索引擎选取与查询条件最相关的那些网页形成一个子集来加速搜索的速度。例如:假设子集中包含2,000个元素,搜索引擎所做的就是使用排名因子中的两到三个因素对整个数据库进行查询,找到针对这两三个排名因子得分较高的前2,000个网页。(请记住,虽然可能有五百多万搜索结果,但最终实际显示的1,000项搜索结果却是从这个2,000页的子集中提炼出来的。) 然后搜索引擎再把所有排名因子整合进这2,000项搜索结果组成的子集中并进行相应的网站排名。由于按相性进行排序,子集中越靠后的搜索结果(不是指网页)相关性(质量)也就越低,所以搜索引擎只向用户显示与查询条件最相关的前1,000项搜索结果。

请注意,在搜索引擎生成这2,000项网页的子集中我们强调了“相关性”这个词。即搜索引擎找寻的是与查询条件有共同主题的网页。如果这时候我们把PageRank考虑进去,就很可能得到一些PageRank很高但主题只是略微相关的一些搜索结果。显然这有违搜索引擎为用户提供最为相关和精准的搜索结果的原则。

一旦理解了为什么会如此,就说明了为什么你应当首先努力在“页面”因子和锚文本上下足工夫,最后才是PageRank。

所以关键在于:

你必须首先在页面因素和/或锚文本上下足工夫,使这些排名因子能够获得足够的得分,从而使你的网站能够按目标关键词跻身于这2,000项搜索结果的子集中,否则PageRank再高也与事无补(PageRank应该是搜索出相关结果集后再用的排名因子,故网页内容要下工夫,后才是pageRank上下工夫)。

 

 

六:PageRank和其它排名因子之间的不同

网页Title标识 仅能被列出一次。

正文中的关键词 连续的重复只会降低关键词的重要性,重要的是接近度。

锚文本 加权值极高,但存在上限,超过上限的锚文本信息将被忽略或降低权值。

PageRank 潜质无穷,没有上限的限制,但需要大量工作。

备注 其它排名因子都存在一个上限(阙值),超过上限部分其权值将降低或不再计分。PageRank则不存在此问题。

除了PageRank外,其它排名因子都存在一个阙值,也叫临界值或差值。即当增长到一定值时,因子的重要性反而开始慢慢降低,则该值就是非PageRank因子的阙值。

 

 

七:非PageRank因子的上限阙值(Non-PageRank Factor Threshold)

除了PageRank外,其它排名因子都存在一个阙值,也叫临界值或差值。即当增长到一定值时,因子的重要性反而开始慢慢降低,则该值就是非PageRank因子的阙值。

 

设阙值为1,000,如果网页A和B是我们对某一查询条件的其中两个查询结果,且A的总分数(包括页面因子得分和PageRank得分)是900,B是500,则显然A会排在B的前面。但由于A和B的分数均低于我们上面假设的非PageRank因子阙值,因而在不改变PageRank的情况下,我们可以通过对B页进行精心的页面优化使页面因子分数得到提高来使其排名超过A。但如果A的总得分升至1,100分,则B若还只是一味优化页面因子是远远不够的。在这种情况下,提升PageRank就成为首要任务了。

一般说来,Google的查询结果页中既可能包含一些分数超过阙值的网页,也可能包含一些分数低于阙值的网页。所以:

为了提高竞争能力,必须在阙值范围内尽可能提高页面的搜索引擎排名得分,否则会降低页面的竞争力。“页面因子”是接近和达到阙值最迅捷的方式,它与PageRank的结合使用才是提升网站排名得分的最佳优化策略。

 

 

八:使用阙值推知两种排名策略的价值

阙值解释了搜索引擎商所遵循的原则和不同的实施途径,同时亦阐述了为什么会产生关于PageRank的一些误解。我们可以把这两种策略当成两个人A和B。

A认为“PageRank”并不重要。他们已有数年网页优化经验并知道如何完美地利用“页面因素”来达到优化的目的。他们亦理解基本的锚文本,但对PageRank得分毫不在意。结果如何呢?由于最大化地使用了“页面因子”,从而使A迅速达到“非PageRank因子的阙值”。所以通过精心选择关键词可使他们获得较好的网站排名。而且只要网站内容比较好,随着时间推移总会有排名高的站点链接,涓涓细流汇成河。A最后亦得到了PageRank得分,并籍此巩固了排名。

B认为“PageRank”十分重要。他掌握了很多关于提升PageRank得分的信息,并为提高该得分下足了工夫。结果又如何呢?B的做法和A相反,但A在非PageRank因子上下工夫,结果却得到了PageRank得分。而B在PageRank因子上下工夫,结果却得到非PageRank因子得分。究其原因,就是由于提高PageRank得分需要外部链接,链接又具有锚文本,从而通过精心挑选外部链接的锚文本,B自发提高了其非PageRank因子的得分,从而赢得了较高的PageRank得分。

虽然这只是两个极端,但我们可以利用它们来推知这两种途径各自的优缺点:

A:忽略PageRank 网站排名在短期内就可得到提升

自我生成链接节省了工作量

需投入大量工作维持网站排名

对新竞争者的应变速度较慢

B:忽略页面排名因子 可获得可靠网站排名,并可在需要时轻松修改页面因素使排名迅速提升

极可能从非搜索类引擎来源上获得更高访问量

网站排名提升较慢

操作难度较大

容易为SPAM过滤程序所制

事实上,我们前面说过,最终排名得分=所有非PageRank因子实际得分x实际PageRank得分。亦即二者相辅相成,再加上随着网上营销方式的发展壮大,关键词的竞争也变的愈来愈激烈,这种情况下只靠非PageRank因子得到好排名显然是不可能的。而且非PageRank因子存在着阙值的局限性。同时,对于竞争性极高的关键词,还存在着PageRank下限的问题。也就是说,除非网站的PageRank得分超过这个下限标准,否则网站排名很难上去。PageRank的下限由关键词的竞争度所决定。竞争性一般的关键词PageRank下限也不高,而对竞争较为激烈的关键词来说,它所要求的PageRank下限相应就要高。而PageRank得分的提升又非常有难,这时候非PageRank因子就变的非常重要了。

综上所述:我们需要充分发挥各排名因子的优势来赢取理想的综合排名得分。同时关键词(竞争度适宜)的精心选择亦变的非常重要,它可以节省大量的支出。

 

 

九:PageRank的计算方法

PageRank (A) = (1-d) + d(PageRank (T1)/C(T1) + … + PageRank (Tn)/C(Tn))

其中PageRank (A)表示给定页面A的PageRank得分;

D为阻尼因子,一般设为0.85;

PageRank (T1)表示一个指向A页的网站其本身的PageRank得分;

C(T1)表示该页面所拥有的导出链接数量;

PageRank (Tn)/C(Tn)表示为每一个指向A页的页面重复相同的操作步骤。

事实上,计算某个页面的PageRank得分需要大量繁复计算。例如若计算A页的PageRank得分则首先要知道所有链至A页的网页(导入链接)的PageRank得分。要想知道这些外部链接页的PageRank得分,又需要先知道这些页面的外部链接的PageRank得分,等等。我们只需要知道:

A页的外部链接B能够带给A的PageRank得分与B的导出链接数量成反比,即随着B上导出链接数的增加,带给A的PageRank得分亦随之降低。这同样表明了一个网页的PageRank得分是该网页对其它页面投票的一个基本的度量形式。一个网页可以投票给一个或多个导出链接,但其总投票权一定,并被平均分配给所有的导出链接。假设B的PageRank得分是5,且B上只有一条指向A的链接,那么A将获得B全部的PageRank得分(B没有损失任何东西,而A赢得了B的PageRank得分)。但如果B上有N个链接,则A只能得到B的PageRank得分的N分之一。

假设A页链向B,根据PageRank计算公式,其初始PageRank为0.15,链接后的PageRank变为1。如果A链向C,而C又链回A,则A此时的PageRank变成了1.4594594595。也就是说若A链向一个外部网页,而那个网页又回链向A的话,则使A的PageRank会增加。(如果A链向一个网页,而该网页又链向C,C再链向A的话,也会发生同样的情形)。如果把所有相互链接的页面看做是一个系统整体的话,其实链接前后系统总的PageRank并没有发生改变,只是由于不同链接关系的发生导致了PageRank对系统内每个链接页面的重新分布。

PageRank计算可以参考《Google 的秘密- PageRank 彻底解说 中文版

 

十:PageRank的反馈性

PageRank的反馈机制说明了为什么一个网站的导出链接能够使网站自身受益。

假设A页链向B,根据PageRank计算公式,其初始PageRank为0.15,链接后的PageRank变为1。如果A链向C,而C又链回A,则A此时的PageRank变成了1.4594594595。也就是说若A链向一个外部网页,而那个网页又回链向A的话,则使A的PageRank会增加。(如果A链向一个网页,而该网页又链向C,C再链向A的话,也会发生同样的情形)。如果把所有相互链接的页面看做是一个系统整体的话,其实链接前后系统总的PageRank并没有发生改变,只是由于不同链接关系的发生导致了PageRank对系统内每个链接页面的重新分布。

其增量比较小,整体则视情况而定。但有一点是显而易见的 – 提供导出链接的网页往往会通过一种叫做PageRank反馈的机制提升了自身的PageRank。

结论:

这表明和一些大型站点进行互惠链接交换是比较明智的。这些大网站均采用链接结构,并对链接页给予高度关注。你所链接的对象站点所包含的网页数量及其设计结构对于你网站的PageRank反馈总数有着显著的影响。

 

十一:如何控制PageRank

虽然PageRank因子很难控制,但我们可以通过其它技术来得到理想的结果。而且,良好优化过的页面因子整合较高的PageRank得分无疑会使网站更具竞争力。

PageRank因子的优化可从下面三个方面着手:

1. 导入链接。包括如何选取导入链接,获得导入链接所付出的努力是与收获呈正比的。

2. 导出链接。包括导出链接的选取及它们在你网站上的合适位置,应使PageRank得到最大回馈(Feedback) 和最小损耗(Leakage)。

3. 网站内部导航结构和内部页面的联接。实现PageRank在网站内部的良好分布。

 

十二:导入链接(Links to Your Site)

寻找导入链接时,一般总是容易陷入这样的误区:只看链接页的PageRank得分,得分越高就越好。而事实上,一个链接页的PageRank得分遵循平均分配原则被平均分配给该页面上的所有链接。所以,只注重外部链接的PageRank得分的链接策略无疑是片面的。正确的做法应该是既要考虑链接页的PageRank,又要考虑该页的链接数量(应注意:PageRank的单位是网页而不是网站,即每个页面都有其特定的PageRank。所以在寻找链接时应查看“链接”页面的PageRank,也就是说,需要考虑的是放置你网站链接的那个页面的PageRank得分情况。) 而且PageRank较高的站点对链接请求一般总是比较挑剔的。

结论:

那些看起来较为适宜,具有良好质量的网站都是理想的链接对象。先别去管它们的PageRank到底是多少,倘若它们既与你的网站相关,又具有较高的质量,那么总是会有益你的PageRank,只是个时间问题罢了。另外,网站被DMOZ和Yahoo收录亦能相当有效地提升PageRank。

 

十三:导出链接(Links out of your site)

导出链接并不会损失PageRank,但网站整体的PageRank将会降低。所以,选择导出链接时宜遵循这样的定律:

1. 尽量保持自己网站的PageRank

2. 尽量使内部页面分得尽可能多的PageRank

向大家推荐一种方法:可以在网站上设立一个对导出链接的“评审”页。用于放置对外部链接站点的评审内容。每条评审内容应包括指向其相应外部站点的超链。(注意:由于搜索引擎的SPIDERS无法支持javascript,所以不宜用JAVA程序打开这些页面。)

“评审”页应链回网站内部等级较高的一个页面 (最好是主页,其它重量级页也可)。这样做可显著降低网站PageRank的流失。放置外部链接的页面亦需链回主页及其它重要内部页面。但“评审”页上只要放置一个重量级内部页面即可(最好是主页)。此外,可以告诉你的”评审“链接对象你已经”评审“过他们的网站,这样一来他们很有可能会把你的这个”评审“页链接到他们自己的网站上,这样就可以从他们那里得到两个导入链接。自然效果就更好了。用文字描述太麻烦了,我们还是用图表来说明吧。(下表包括主页A,外部链接页页D和其它两个内页B和C)

在放置导出链接的页面上同时放一些网站的内部链接是提高PageRank的相当重要的内部因素之一。这种收益虽然无法和网站所从导入链接上获得的收益相提并论,但却极易操作,并可有益于网站读者

说完了“外部链接”,现在让我们来看看“内部链接”。如果PageRank确由页面投票的质量和数量所决定,那么我们立即就可以得出网站内链与PageRank的关系的一个重要结论:网站上每个已被Google收录的内部网页(内链)都是对该网站的一记投票,不过投票份量很小。因而,一个网站若能拥有更多已被Google收录的内部网页,就有可能获得更多的总投票。

 

十四:网站的内部结构和联接

一:网站的内部页面

说完了“外部链接”,现在让我们来看看“内部链接”。如果PageRank确由页面投票的质量和数量所决定,那么我们立即就可以得出网站内链与PageRank的关系的一个重要结论:

网站上每个已被Google收录的内部网页(内链)都是对该网站的一记投票,不过投票份量很小。因而,一个网站若能拥有更多已被Google收录的内部网页,就有可能获得更多的总投票。

这样一来,我们可以通过创建大量内部网页来提高网站整体的PageRank。但这还远远不够。因为我们此处所指的内部网页是指已被Google收录,即拥有自己的PageRank的那些内链页面。这些网页之所以被Google检索是由于它们具备丰富充实的内容。所以应尽力充实和丰富你的网站,一旦网站内容得到充实和丰富,会有更多的内页得到检索,从而带来更多的PageRank。同时“升值”的网站也会获得更多站点的青睐,从而会有更多的站点主动链接你。

简言之,就提升PageRank而言,对“内”最需要做的就是为网站填充更加丰富和有价值的内容。应确保网页内容不会过长或过短,如有必要可将网页内容分割成若干网页。

 

二:网站的内部结构、联接

网站有三种内部联方式,宜结合使用这三种联接方式进行网站的建设。假设一个网站由“主页”,“关于我们”页,“产品介绍”页和“更多信息”页这四个页面组成,通过下表我们可以看出每种结构对网站PageRank的影响度。

在未考虑外部链接因素的前提下,可以看出类层级结构(Hierarchical-Like)能够改变网站内部页面的PageRank分布。(注意:我们所指的并不一定是严格意义上的层级结构,不过必须比环路结构(Looping)或广泛互联(Extensive Interlinking)结构包含更多层级结构的属性。)

若PageRank均匀分布于网站内部页中,那么网站管理员可以通过层级结构这种能够使PageRank发生转移的性能来有选择地转移内部网页的PageRank:即把一些不太重要的页面的PageRank适当地转移到那些关键词竞争性比较强的网页上,或想提高特定关键词排名的网页上去,从而使网站获得最大的收益。

上面只是封闭网站设计结构(即无导入也无导出链接的结构)下内部各网页的分布情况,如果加入外部链接--即导入和导出链接后情况又会怎样呢?

 

 

十五:Google如是说

关于PageRank,最权威的发言人自然还是Google。虽然Google不会也不可能提供相关的技术信息,但我们亦可从中窥得一斑:

Chris:PageRank的命名是基于“Page”,还是和某个创始人有关?

Google:PageRank是以Google的联合创始人兼总裁Larry Page的名字命名的。

Chris:Google是否把PageRank视做显著区别于其它搜索引擎的一个特性?

Google:PageRank是一种能够使Google在搜索速度和搜索结果的相关性上区别于其它搜索引擎的技术。不唯如此,在排名公式中Google还使用了100种其它的算法。

Chris:Google是否认为引入PageRank可以显著提高搜索结果的质量?以后是否仍将继续使用PageRank?

Google:由于PageRank使用了量化方法来分析链接,所以它仍将是决定Google搜索结果页排名的一个重要因素。

Chris:您认为Google工具栏上的PageRank的信息对普通用户/网站管理员/搜索引擎优化专家来说各有什么意义?

Google:Google工具栏上所提供的PageRank信息仅作为一种网站评估信息使用。用户们会觉得它很有趣,网站管理员一般用它来衡量网站性能。不过,由于PageRank只是一个大体评估,所以对搜索引擎专家的价值并不大。

Chris:常有网站试图通过“链接工厂”和访客簿的手段达到提升PageRank的目的。对这样的网站Google有什么举措?

Google:Google的工程师会经常更新Google的排名算法以防止对Google排名的恶意操纵。

分享到:
评论

相关推荐

    程序员必知之SEO深度解析

    PageRank是谷歌早期的一种重要排名算法,它考虑了其他网站链接到你的网站的数量和质量,以及流量和域名等因素。一个高PageRank的网站更有可能在搜索结果中排名靠前。 大多数网站都需要SEO,尤其是那些依赖搜索引擎...

    单元学习Google搜索引擎及其实现技术.pdf

    文中提到的“JOURNAL OF GUANGXI UNIVERSITY OF TECHNOLOGY Vol115No12 June 2004”表明Google搜索引擎的技术实现相关内容,不仅在技术界内部广泛研究,也发表了学术论文,体现了Google技术的深度和广度。...

    GOOGLE算法

    ### GOOGLE算法解析 #### 一、概述 Google算法是指由Google公司开发的一系列用于网络信息检索的技术和方法。Google搜索引擎自1998年推出以来,凭借其独特的算法和技术优势,迅速成为全球最广泛使用的搜索引擎之一...

    Google搜索引擎算法的秘密

    同时,文件可能还会讨论到最新的算法更新,如BERT(Bidirectional Encoder Representations from Transformers),这是Google用于改善自然语言理解的深度学习模型。 总之,Google搜索引擎算法的秘密在于不断进化和...

    百度,google,搜索引擎分析

    而Google以其强大的PageRank技术和全球最大的网页索引量闻名,提供了多语言支持,其搜索结果通常被认为具有较高的质量和相关性。 在使用搜索引擎时,了解其工作原理和特性可以帮助用户更有效地获取信息。例如,理解...

    搜索引擎:原理、技术与系统

    当用户输入查询后,搜索引擎会解析查询语句,然后在索引库中查找相关文档,并根据一定的排名算法(如PageRank)返回最相关的搜索结果。谷歌的PageRank算法是通过对网页之间的链接结构进行分析,评估网页的重要性,这...

    google9搜索引擎源码

    谷歌搜索引擎是全球知名的互联网搜索引擎,其背后的技术与算法在行业内具有极高的研究价值。"google9搜索引擎源码"虽然可能并非官方的Google搜索系统,但作为一个类似的开源项目,它为学习和理解搜索引擎工作原理...

    google9搜索引擎源码.zip

    6. **机器学习应用**:随着人工智能的发展,谷歌可能在源码中融入了深度学习和自然语言处理技术,用于理解用户查询、改进搜索结果的精准度。 7. **反垃圾策略**:防止低质量内容出现在搜索结果中是谷歌的重要任务。...

    Google VS 百度 对搜索引擎习惯的分析.

    本文将从搜索引擎的基本概念出发,逐步解析两者的技术实现方式、排名算法、索引策略及其对用户体验的影响。 ### 一、搜索引擎概述 搜索引擎是一种通过网络自动收集网页信息,并根据特定算法对这些信息进行组织、...

    搜索引擎--原理、技术与系统

    3. **网页排名算法**:PageRank是Google的标志性算法,通过链接分析确定网页的重要性。其他如HITS、TrustRank、Pagerank等也是重要的排名算法。 4. **分布式计算**:搜索引擎需要处理海量数据,因此常采用MapReduce...

    常用搜索引擎技术概述[参考].pdf

    用户查询部分则涉及到查询解析、相关性排名算法,如Google的PageRank,这些算法决定了搜索结果的展示顺序。 搜索引擎的分类主要包括目录式、全文检索和元搜索引擎。目录式搜索引擎如Yahoo!,依赖人工编辑将网站分类...

    搜主义Google持续成长的秘密

    1. **强大的搜索引擎技术**:Google的核心竞争力在于其先进的搜索算法,如PageRank,它通过链接分析确定网页的重要性,为用户提供更为精准的搜索结果。 2. **AdWords与AdSense广告系统**:Google的广告业务是其主要...

    a10、同济大学计算机前沿技术PDF.rar

    5. **同济大学计算机前沿技术概论-第8章-网页排名算法.pdf**:这部分内容可能围绕搜索引擎的网页排名算法展开,如谷歌的PageRank,讨论其原理和在信息检索中的重要性。 6. **同济大学计算机前沿技术概论 第4章 - ...

Global site tag (gtag.js) - Google Analytics