一:什么是PageRank(网页级别)
PageRank是Google用于评测一个网页“重要性”的一种方法。通过该网页级别的比较使那些更具“重要性”的网页在搜索结果中排名获得提升,从而提高搜索结果的相关性和质量。
大致步骤如下:
1) 找到所有与关键词匹配的网页
2) 根据页面因素标题/关键词密度等排列等级
3) 计算导入链接的锚文本中的关键词
4) 通过PageRank得分调整网站排名结果
其中锚文本概念如下:
1.锚文本实际上是建立了文本关键词与URL链接的关系,锚文本的代码:<a href="
URL链接">
文本关键词</a>。锚文本可以做为锚文本所在的页面的内容的评估。另一方面,锚文本能作为对所指向页面的评估。锚文本能精确的描述所指向页面的内容,个人网站上增加的链接,锚文本为 “搜索引擎”页面添加的链接一般来说都应该跟页面有直接相关的联系,搜索引擎可以根据指向某一个网页的链接的锚文本描述来判断该网页的内容属性。
由此可见,在网页设计中选择合适的锚文本,会让所在网页和所指向网页的重要程度有所提升。
2.锚文本对SEO的作用,其中SEO是指
Search Engine Optimization,搜索引擎优化,是较为流行的网络营销方式,主要是增加特定关键字的曝光率以增加网站的能见度,进而增加销售的机会。分为站外SEO和站内SEO。SEO的主要工作是通过了解各类搜索引擎如何抓取互联网页面、如何进行索引以及如何确定其对某一特定关键词的搜索结果排名等技术,来对网页进行相关的优化,使其提高搜索引擎排名,从而提高网站访问量,最终提升网站的销售能力或宣传能力的技术。
1.对锚文本所在的页面的作用:正常来讲,页面中增加的链接锚文本都和页面本身有一定的关系,因此,锚文本可以做为锚文本所在的页面的内容的评估。
2.对锚文本所指向页面的作用:锚文本能精确的描述所指向页面的内容,因此,锚文本能做为对所指向页面的内容评估。
3.锚文本对关键词排名的影响:页面添加的锚文本链接一般来讲,都应该跟页面有相关性,从而可以提升所在页面和所指页面在搜索引擎中的锚文本关键词排名。
4.收集一些搜索引擎不能索引的文件:对于一些搜索引擎不能索引的文件或者网页,锚文本正好作为一个桥梁,搜索引擎蜘蛛通过所在页面的锚文本链接地址,爬向另外一个网页,这样搜索引擎就可以索引到所指页面的网页内容和文件了
二:PageRank的决定因素
理论:若B网页设置有连接A网页的链接(B-->A),也就是B认为A有链接价值,是一个“重要”的网页。当B网页级别(重要性)比较高时,则A网页可从B网页这个导入链接分得一定的级别(重要性),并平均分配给A网页上的导出链接。其中关于导入链接(
逆向链接)指链至你网站的站点,也就是我们所说的“外部链接”。而当你链至另外一个站点,那么这个站点就是你的“导出链接”。
一般说来,PageRank是由一个网站的导入链接的数量和这些链接的级别(重要性)所决定的。
三:如何获得一个网页的PR(0--10)
http://toolbar.google.com:下载安装Google的工具栏,这样就能显示所浏览网页的PageRank得分了。若不能显示PageRank得分,可检查所安装版本号,需将老版本完全卸载,重启机器后安装最新版本即可。
四:PageRank的重要性
搜索引擎网站排名算法中的各排名因子的重要性均取决于它们所提供信息的质量。如果排名因子具有易操纵性,则往往会被一些网站管理员利用来实现不良竞争。
例如初引入的排名因子之一--关键词元标识(Meta Keywords),是由于理论上它可以很好地概括反映一个页面的内容,但后来却由于一些网站管理员的恶意操纵而不得不黯然退出。所以“加权值”--即对该因子提供信息的信任程度是由排名因子的易操纵程度和操纵程度共同决定的。
对于PR:在最初推出时针对的只是链接的数量,所以被一些网站管理员钻了空子,利用链接工厂和访客簿等大量低劣外部链接轻而易举地达到了自己的目的。Google意识到这个问题后,便在系统中整合了对链接的质量分析,并对发现的网站进行封杀,从而不但有效地打击了这种做法,而且保证了结果的相关性和精准度。
五:Google的前1000项搜索结果
网站排名因素包括网页标题(META TITLE),网页正文中的关键词密度,锚文本和PageRank共同决定的。
Note:PageRank只是网站排名算法中的一个乘积因子,若你网站的其它排名因子的得分是零,就算你的PageRank是两百亿,最后的得分还是零。但这并不是说PageRank就毫无价值,而是在什么情况下PageRank才能完全发挥其作用力。
如果在Google上进行广泛搜索,看起来好象有几千个结果,但实际显示最多前1,000项结果。例如对“car rental”,显示搜索结果为5,110,000,但实际显示结果只有826个。而且用时只有0.81秒。试想一下,0.84秒的时间就可以计算这五百万搜索结果的每个排名因子得分,然后给出最终我们所看到的网站 排名结果吗?
答案:
搜索引擎选取与查询条件最相关的那些网页形成一个子集来加速搜索的速度。例如:假设子集中包含2000个元素,搜索引擎所做的就是使用排名因子中的两到三个因素对整个数据库进行查询,找到针对这两三个排名因子得分较高的前2000个网页。 然后搜索引擎再把所有排名因子整合进这2,000项搜索结果组成的子集中并进行相应的网站排名。由于按相性进行排序,子集中越靠后的搜索结果(不是指网页)相关性(质量)也就越低,所以搜索引擎只向用户显示与查询条件最相关的前1,000项搜索结果。
Note:虽然可能有五百多万搜索结果,但最终实际显示的1,000项搜索结果却是从这个2,000页的子集中提炼出来的。在这2,000项网页的子集中我们强调了“相关性”这个词。即搜索引擎找寻的是与查询条件有共同主题的网页。如果这时候我们把PageRank考虑进去,就很可能得到一些PageRank很高但主题只是略微相关的一些搜索结果。显然这有违搜索引擎为用户提供最为相关和精准的搜索结果的原则。
所以对于想把自己的网站出现在搜索结果并且排名较高,你应当首先努力在“页面”因子和锚文本上(也就是考虑“相关性”)下足工夫,最后才是PageRank。具体为:首先在侧重页面因素和锚文本,使这些排名因子能够获得足够的得分,从而使你的网站能够按目标关键词跻身于这2,000项搜索结果的子集中,然后再根据PR值进行计算。
六:PageRank和其它排名因子之间的比较
1.网页Title标识:仅能被列出一次。
2.正文中的关键词:重复性只会降低关键词的重要性,重要的是接近度。
3.锚文本:加权值极高,但存在上限,超过上限的锚文本信息将被忽略或降低权值。
4.PageRank:潜质无穷,没有上限的限制,但需要大量工作。
备注:其它排名因子都存在一个上限,超过上限部分其权值将降低或不计,PageRank不存在此问题。
七:Non-PageRank Factor Threshold
Non-PageRank排名因子都存在一个阙值,也叫临界值或差值。即当增长到一定值时,排名因子的重要性反而开始慢慢降低。
For example:假设阙值为1000,如果网页A和B是我们对某一查询条件的其中两个查询结果,A的总分数(包括页面因子得分和PageRank得分)是900,B是500,则显然A会排在B的前面。但是由于A和B的分数均低于我们上面假设的非PageRank因子阙值,因而在不改变PageRank的情况下,我们可以通过对B页进行精心的页面优化使页面因子分数得到提高来使其排名超过A。如果A的总得分升至1,100分,则B若还只是一味优化页面因子是远远不够的。在这种情况下,提升PageRank就成为首要任务了。一般说来,Google的查询结果页中既可能包含一些分数超过阙值的网页,也可能包含一些分数低于阙值的网页。所以:为了提高竞争能力,必须在阙值范围内尽可能提高页面的搜索引擎排名得分,否则会降低页面的竞争力。“页面因子”是接近和达到阙值最迅捷的方式,它与PageRank的结合使用才是提升网站排名得分的最佳优化策略。
八:使用阙值推知两种排名策略的价值
阙值解释了搜索引擎商所遵循的原则和不同的实施途径,同时说明了为什么会产生关于PageRank的一些误解。我们可以把这两种策略当成两个个体A和B。
1.A认为“PageRank”并不重要。他们已有数年网页优化经验并知道如何完美地利用“页面因素”来达到优化的目的。他们亦理解基本的锚文本,但对 PageRank得分毫不在意。结果如何呢?由于最大化地使用了“页面因子”,从而使A迅速达到“阙值”。所以通过精心选择关键词可使他们获得较好的网站排名。而且只要网站内容比较好,随着时间推移总会有排名高的站点链接,涓涓细流汇成河。A最后也得到了PageRank得分,并籍此巩固了排名。
2.B认为“PageRank”十分重要。他掌握了很多关于提升PageRank得分的信息,并为提高该得分下足了工夫。结果又如何呢?B的做法和A相反,B在PageRank因子上下工夫,结果却得到非PageRank因子得分。究其原因,就是由于提高PageRank得分需要外部链接,链接又具有锚文本,从而通过精心挑选外部链接的锚文本,B自发提高了其非PageRank因子的得分,从而赢得了较高的PageRank得分。
对于A:忽略PageRank网站排名在短期内就可得到提升,自我生成链接节省了工作量,需投入大量工作维持网站排名,对新竞争者的应变速度较慢
对于B:忽略页面排名因子,可获得可靠网站排名,并可在需要时轻松修改页面因素使排名迅速提升,极可能从非搜索类引擎来源上获得更高访问量,网站排名提升较慢,操作难度较大
,容易为SPAM过滤程序所制。
事实上,最终排名得分=所有非PageRank因子实际得分x实际PageRank得分。亦即二者相辅相成,再加上随着网上营销方式的发展壮大,关键词的竞争也变的愈来愈激烈,这种情况下只靠非PageRank因子得到好排名显然是不可能的,而且非PageRank因子存在着阙值的局限性。同时,对于竞争性极高的关键词,
还存在着PageRank下限的问题。也就是说,除非网站的PageRank得分超过这个下限标准,否则网站排名很难上去。PageRank的下限由关键词的竞争度所决定。竞争性一般的关键词PageRank下限也不高,而对竞争较为激烈的关键词来说,它所要求的 PageRank下限相应就要高。而PageRank得分的提升又非常有难,这时候非PageRank因子就变的非常重要了。
综上所述:我们需要充分发挥各排名因子的优势来赢取理想的综合排名得分。同时关键词(竞争度适宜)的精心选择亦变的非常重要,它可以节省大量的支出。
九:PR计算
PR (A) = (1-d) + d(PR (T1)/C(T1) + ... + PR (Tn)/C(Tn))
其中PR(A):页面A的PR得分;
d:阻尼因子,一般=0.85;
PR(T1)表示一个指向A页的网站其本身的PR得分;[IN]
C(T1)表示该页面所拥有的导出链接数量;[OUT]
PR(Tn)/C(Tn)表示为每一个指向A页的页面重复相同的操作步骤。
事实上,计算某个页面的PageRank得分需要大量繁复计算。例如若计算A页的PageRank得分则首先要知道所有链至A页的网页(导入链接)的 PageRank得分。要想知道这些外部链接页的PageRank得分,又需要先知道这些页面的外部链接的PageRank得分,等等。我们只需要知道:A页的外部链接B能够带给A的PageRank得分与B的导出链接数量成反比,即随着B上导出链接数的增加,带给A的PageRank得分亦随之降低。这同样表明了一个网页的PageRank得分是该网页对其它页面投票的一个基本的度量形式。一个网页可以投票给一个或多个导出链接,但其总投票权一定,并被平均分配给所有的导出链接。假设B的PageRank得分是5,且B上只有一条指向A的链接,那么A将获得B全部的PageRank得分(B没有损失任何东西,而A赢得了B的PageRank得分)。如果B上有N个链接,则A只能得到B的PageRank得分的N分之一。
一种PR改进算法:
非平均传递PR值,而采用加权传递。
权重计算公式为:w(j,i)=Win(j,i)×Wout(j,i) 【j-->i】
十:PageRank的反馈性:说明了一个网站的导出链接能够使网站自身受益。
假设A页链向B,根据PageRank计算公式,其初始PageRank为0.15,链接后的PageRank变为1。如果A链向C,而C又链回A,则A 此时的PageRank变成了1.4594594595。也就是说若A链向一个外部网页,而那个网页又回链向A的话,则使A的PageRank会增加。(如果A链向一个网页,而该网页又链向C,C再链向A的话,也会发生同样的情形)。如果把所有相互链接的页面看做是一个系统整体的话,其实链接前后系统总的PageRank并没有发生改变,只是由于不同链接关系的发生导致了PageRank对系统内每个链接页面的重新分布。
结论:和一些大型站点进行互惠链接交换是比较明智的。这些大网站均采用链接结构,并对链接页给予高度关注。你所链接的对象站点所包含的网页数量及其设计结构对于你网站的PageRank反馈总数有着显著的影响。
十一:如何控制PageRank
虽然PageRank因子很难控制,但我们可以通过其它技术来得到理想的结果。而且,良好优化过的页面因子整合较高的PageRank得分无疑会使网站更具竞争力。
PageRank因子的优化:
1. 导入链接:包括如何选取导入链接,获得导入链接所付出的努力是与收获呈正比的。
2. 导出链接:包括导出链接的选取及它们在你网站上的合适位置,应使PageRank得到最大回馈(Feedback) 和最小损耗(Leakage)。
3. 网站内部导航结构和内部页面的联接,并且实现PageRank在网站内部的良好分布。
分享到:
相关推荐
PageRank是Google创始人Larry Page提出的一种网页排名算法,它通过计算网页之间的链接关系来评估网页的重要性,从而为搜索引擎提供一种衡量网页质量的方式。在Python中实现PageRank算法可以帮助我们理解其工作原理,...
PageRank是Google创始人Larry Page提出的一种网页排名算法,它在搜索引擎优化(SEO)和网络分析领域具有重要地位。在这个南开大学的大数据课程大作业中,学生们被要求实现PageRank算法,通过Python代码来处理大规模...
无向图PageRank算法是Google创始人拉里·佩奇和谢尔盖·布林提出的一种网页排名技术,它在搜索引擎优化(SEO)和链接分析中起着重要作用。这个算法通过模拟随机浏览网络的行为来评估网页的重要性,使得重要的网页...
PageRank算法是Google创始人拉里·佩奇提出的一种衡量网页重要性的算法,它基于网络链接结构来评估网页的相对重要性。PageRank的核心思想是,一个网页的重要性与其被其他重要网页链接的数量和质量有关。简单来说,...
PageRank是Google创始人Larry Page提出的一种网页排名算法,它通过分析网页之间的链接关系来评估网页的重要性。这个算法在搜索引擎优化(SEO)和网络数据分析中扮演着关键角色。在这个Python实现中,我们将深入探讨...
PageRank是Google创始人Larry Page提出的一种网页排名算法,它在搜索引擎优化(SEO)和网络分析领域具有重要地位。在这个“南开大学大数据课程大作业一”中,学生被要求实现PageRank算法的一个分块版本,这涉及到大...
在本实验中,我们将探索如何使用Hadoop框架来实现PageRank算法,这是Google早期用于网页排名的核心算法。这个实验由山东大学设计,旨在让学生深入理解大数据处理和分布式计算的概念。 首先,我们来看PageRank的基本...
PageRank算法是Google创始人拉里·佩奇和谢尔盖·布林在1996年提出的一种评估网页重要性的数学模型,它极大地影响了早期搜索引擎的排名方式,并且至今仍对搜索引擎优化(SEO)有着重要的参考价值。在这个报告中,...
PageRank是Google搜索引擎的核心算法之一,它通过评估网页之间的链接关系来确定网页的重要性,从而对整个互联网上的网页进行排名。这篇由谷歌创始人撰写的原始论文《The PageRank Citation Ranking: Bringing Order ...
PageRank是Google搜索引擎的核心算法之一,它通过计算网页之间的链接关系来评估网页的重要性。这篇博士论文文档详细阐述了PageRank的理论基础和实现原理,由Google的创始人Larry Page和Sergey Brin提出。Java实现的...
**PageRank算法** PageRank是Google搜索引擎早期使用的核心算法之一,由Google的创始人拉里·佩奇(Larry Page)提出,因此得名“PageRank”。这个算法主要通过分析网页之间的链接关系来评估网页的重要性,为搜索...
《深入解析PageRank算法:搜索引擎优化的关键》 随着信息技术的飞速发展,互联网已经成为人们获取信息的主要途径。在这个浩瀚的数字海洋中,搜索引擎扮演着至关重要的角色,它帮助用户从海量信息中筛选出最相关、最...
PageRank算法是Google搜索引擎的核心技术之一,用于评估网页在互联网中的重要性,进而影响搜索结果的排序。这个算法诞生于互联网早期,旨在解决如何在海量网页中为用户提供最有价值的信息。PageRank的基本思想是将...
`truncated-pagerank`是一种优化的PageRank算法,它在大规模网络数据处理中非常有用,尤其是在图论和搜索引擎优化领域。PageRank是Google最早使用的网页排名算法之一,用于评估网页在网络中的重要性。这个算法的基本...
PageRank算法是Google创始人拉里·佩奇和谢尔盖·布林提出的一种评估网页重要性的数学模型,它在搜索引擎优化(SEO)和链接分析中起着关键作用。PageRank算法的基本思想是:一个网页的重要性取决于其他网页链接到它...
pagerank.py Pagerank算法是Google创始人拉里·佩奇和谢尔盖·布林在1990年代末提出的一种网页排名算法,它通过分析网页之间的链接关系来评估网页的重要性,是搜索引擎优化(SEO)中的核心概念。在这个“pagerank...
PageRank是Google创始人拉里·佩奇提出的一种网页排名算法,它通过分析网络中的超链接结构来评估网页的重要性。在本项目中,我们看到的是一个使用Matlab实现PageRank算法的代码包,包含三个关键的M文件:`...
**Go-pagerank-加权PageRank算法Go实现** PageRank是Google早期用于网页排名的一种算法,它通过分析网络中的链接结构来评估网页的重要性。在Go语言中实现加权PageRank算法,可以让我们更好地理解其原理,并在实际...
PageRank是Google创始人Larry Page提出的一种重要算法,用于评估网页在网络中的重要性,进而改进搜索引擎的搜索结果排序。这个算法的核心思想是,一个被许多高质量网页链接的网页具有更高的PageRank值,因为这些链接...
PageRank是Google创始人拉里·佩奇提出的一种网页排名算法,它通过计算网页之间的链接关系来评估网页的重要性。这个算法是Google搜索引擎早期的核心技术之一,对互联网搜索结果的排序起到了关键作用。以下是对...