搜索引擎网页排序算法研究
(转自中点线网络:http://www.cnbjyh.com/seo/201103075540.html)
随着互联网的飞速发展,网络信息资源越来越庞大,通常情况下,用户检索到的结果成千上万,所以对于任何一个搜索引擎而言,都必须配备理想的网页排序算法。可以说,排序算法的好坏在一定程度上决定了搜索引擎的质量。目前比较著名的排序算法有词频位置加权排序算法、Direct Hit 算法、PageRank 算法、HITS 算法、以及竞价排名服务等。
一、词频位置加权排序算法
词频位置加权排序算法[2]通过查询关键词在页面中出现的次数和位置对网页进行排序,它是计算机情报检索中最基础的排序算法。该算法的基本思想是,对于用户输入的搜索关键词,如果它在某网页中出现的频率越高,位置越重要,就认为该网页和关键词的相关性越好,也越能满足用户的需求。举例来说,假设搜索关键词出现在“网页主体body”中的权重为l,出现在“标题title”中的权重为2,出现在“链接URL”中的权重为0.5,那么根据关键词出现的次数和位置加权求和,再进行一些辅助计算,就可以得到网页和关键词的相关性权值,这样就可以根据这一权值对查询结果进行排序。
显然,这种排序算法具有思想简单、容易实现的优点,但它的缺点也很明显[3]。因为关键词出现的频率和位置并不是决定排序结果的唯一要素,而该算法过于依赖关键词的重要性,无法保证页面的质量。例如,一些网页设计者在页面中罗列大量与主题无关但常被搜索的词,或者在页面的隐藏域中添加与该页面毫无关联的词,那么在搜索这些关键词时,不相关的页面也会出现在搜索结果中。所以,随着搜索引擎技术的发展,词频位置加权排序算法只能辅助排序,而不能在搜索引擎网页排序中单独使用。
二、Direct Hit 算法
Direct Hit 算法[4]是一种注重信息质量和用户反馈的排序方法。它的基本思想是,搜索引擎将查询的结果返回给用户,并跟踪用户在检索结果中的点击。如果返回结果中排名靠前的网页被用户点击后,浏览时间较短,用户又重新返回点击其它的检索结果,那么可以认为其相关度较差,系统将降低该网页的相关性。另一方面,如果网页被用户点击打开进行浏览,并且浏览的时间较长,那么该网页的受欢迎程度就高,相应地,系统将增加该网页的相关度。可以看出,在这种方法中,相关度在不停地变化,对于同一个词在不同的时间进行检索,得到结果集合的排序也有可能不同,它是一种动态排序。
该算法的优点是能够节省大量时间,因为用户阅读的是从搜索结果中筛选出来的更加符合要求的结果。同时,这种算法直接融入用户的反馈信息,能够保证页面的质量。然而,统计表明,Direct Hit 算法只适合于检索关键词较少的情况,因为它实际上并没有进行排序,而是一种筛选和抽取,在检索数据库很大、关键词很多的时候,返回的搜索结果成千上万,用户不可能一一审阅。因此,这种方式也不能作为主要的排序算法来使用,而是一种很好的辅助排序算法,目前在许多搜索引擎当中仍然在使用。
三、PageRank算法
斯坦福大学的Larry Page 和Sergey Brin 于1996 年提出了PageRank算法[5]。该算法基于这样的假设:如果一个页面被许多其它页面引用,则这个页面很可能是重要页面;一个页面尽管没有被多次引用,但被一个重要页面引用,那么这个页面很可能也是重要页面;一个页面的重要性被均分并传递到它所引用的页面。设网页A 有T1,T2,…,Tn 共n 个网页指向它,参数d 是0 到l 之间的控制系数,通常为0.85,C(Ti)是一个从网页A链出的网页数,则A 的PageRank 值由以下公式[6]计算:PR(A)=(1-d)+d×(PR(T1))/ C(T1)+…+ PR(Tn)/ C(Tn)通常情况下,设定每个网页的初始PageRank 值为1,通过公式递归计算各网页的PageRank 值,直到趋于稳定。由于其用户行为模型假设用户访问网络是完全随机的,因此一个页面的PageRank 值被平分给了其所指向的页面,由公式中的项PR(Ti)/ C(Ti)可以明显地看出其平分策略。
四、HITS 算法
1998 年,康奈尔大学的Jon Kleinberg 博士提出了HITS(Hyperlink-Induced Topic Search)算法,即超文本引入主题搜索[7]。不同于PageRank 所采用的计算网页权值的方法,HITS算法根据网页的出链接和入链接数来判断网页的重要性。HITS 算法将网页分为两种类型[8]:一种是表达某一主题的权威页面,称为Authority 页面;另一种是能把Authority 页面联结在一起的页面,称为Hub 页面。通常情况下,好的Hub页面指向很多好的Authority 页面;好的Authority 页面也会有许多Hub 页面所指向。HITS 算法正是利用了页面间的这种关系,从而大大提高了搜索质量。由于网页的这种分类,HITS 算法也就涉及两个重要的权值,Authority 值和Hub 值。Authority 表示一个权威网页被其它网页所引用的加权数量,即该权威网页的加权入度值,若某网页被引用的数量越大,则该网页的加权入度值越大,Authority 越大;Hub 表示一个Web 页面指向其它网页的加权数量,即该Web 页面的加权出度值,它提供了指向权威页面的链接集合,某网页的加权出度值越大,则该网页的Hub值越大。
HITS 算法的基本流程是:
(1) 对于一个检索关键词,从搜索引擎返回的网页中取前n 个作为根集,用S 表示,S 中所含的网页必须是和关键词相关的,且数量相对较少,包含较多权威页面;
(2) 在根集S 中加入引用S 的网页和被S 引用的网页,得到扩展集T;
(3) 计算网页的Authority 值和Hub 值,并据此对网页进行排序。
设T 中的Hub 页面为顶点集V1,Authority 页面为顶点集V2,V1 中网页到V2 中网页的链接为边集E,那么对于V1中的任一顶点v,h(v)表示该网页的Hub 值,对于V2 中的顶点u,a(u)表示该网页的Authority 值。
HITS 算法计算简单、效率高,可以获得比较好的查全率,但它仅仅根据网页之间的链接关系来决定其重要程度,还存在一些缺点:第一,某些网页可能通过恶意大量引用其它页面,来提高排名;第二,会造成里主题漂移问题,例如用户输入查询关键词“流感”,想了解“流感”的症状及其预防和治疗,那么一些门户网站上的新闻类网页很有可能会排在专业医学网站的前面,这样就不符合用户的需要,导致主题漂移。本文章由搜索引擎优化中点线网络整理,中点线致力于百度优化,网站建设,网站优化,关键词优化,等seo业务。搜索引擎营销服务
分享到:
相关推荐
### 搜索引擎页面排序算法研究综述 #### 一、引言 随着互联网技术的快速发展,网络信息量呈指数级增长。据统计,互联网上的网页数量几乎每隔一年就会翻一番。在这种背景下,如何从海量信息中高效精准地获取所需...
搜索引擎排序算法的主要目标是根据用户的查询请求,从庞大的网络数据中筛选出最相关的网页,并按照相关性高低进行排序展示给用户。一个好的排序算法不仅能够提高用户体验,还能显著提升搜索引擎的价值。 #### 经典...
搜索引擎排序算法的研究 搜索引擎排序算法是搜索引擎中最重要的组成部分之一,它直接影响搜索结果的质量和用户体验。随着互联网信息的爆炸式增长,搜索引擎已经成为我们日常生活中的重要工具。但是,如何在海量信息...
### 基于本体的元搜索引擎结果排序算法研究 #### 摘要与背景 本文探讨了如何通过结合本体论(ontology)与元搜索引擎技术来提高信息检索的效果。作者们提出了一种新的方法,即将本体的概念融入元搜索引擎之中,...
基于本体的元搜索引擎结果排序算法研究.caj 文献,需要安装CAJViewer 7.0.1.sfx.exe阅读器。
由于提供的文件内容不足以进行详细的知识点生成,我将仅根据标题和描述中提到的“面向主题的网页排序算法研究”这一主题,展开对相关知识点的介绍。 网页排序算法是搜索引擎中至关重要的一个环节,它直接影响了搜索...
搜索引擎排序算法是人工智能在信息检索领域中的核心应用之一。随着互联网的快速发展,信息量呈现爆炸式增长,如何高效地从海量数据中找到相关信息成为搜索引擎的关键挑战。本文将深入探讨搜索引擎排序算法的重要性和...
nh格式的文件,主要介绍排序算法的!
综上所述,PageRank算法作为搜索引擎排序算法的核心之一,在互联网信息检索领域发挥着重要作用。通过对PageRank算法进行改进,不仅可以提高搜索结果的质量,还能增强搜索引擎的整体性能。未来的研究方向可以进一步...
总的来说,基于Lucene的医疗搜索引擎排序算法研究,需要综合运用自然语言处理、信息检索、机器学习等多领域知识,结合医疗领域的特性,设计出既满足专业需求又具备良好用户体验的排序策略。这是一项挑战性的工作,但...
综上所述,这篇研究致力于改进医疗搜索引擎的排序算法,结合主题相关性和网页权威性,以提升搜索结果的精确性。通过中文分词技术的优化和概率模型的应用,研究人员成功地提高了Lucene在医疗搜索中的表现,这对于智慧...
针对 PageRank 算法,研究了该算法的基本思想,讨论了网页 的链接结构对页面 PageRank 值的影响,并提出相应的提升网站排 名的策略。分析了 PageRank 算法存在的缺点,主要就其产生主题 漂移的问题提出了一种基于...
【搜索引擎排序算法的分析与研究】 搜索引擎排序算法是互联网信息检索的核心技术之一,它决定了用户在搜索关键词时,搜索引擎返回结果的排列顺序。搜索引擎的目标是为用户提供最相关、最有价值的信息,因此,排序...
通过以上的知识点,我们可以深入理解基于分布式学习自动机和用户反馈的网页排序算法研究的背景、动机、方法和意义,以及它在信息检索领域的潜在影响。同时,也能够把握住传统PageRank算法的局限性和当前网页排序算法...
Nutch是一个优秀的开放源代码的Web...分析开源搜索引擎Nutch代码,研究了Nutch的页面排序方法。在Nutch原有的结构基础上提出了3种修改Nutch 排序的方法,对每种方法的实现进行了阐述,最后对这些方法的特点进行了比较