n版本 0.9
n采用了 OPIC算法来实现
目前网络上的排序算法都是依托图论来实现对整个互联网页面的排序,起基本的思想有以下几点:将互联网表示为一个图G,用矩阵L来描述,其中L非负,如果在L中的两点(i,j)存在链接,那么L|(i,j)|>0,google直接认为如果存在链接,那么d(i,j)=外链的倒数。
剩下的就是一堆md所谓的数学推导,其实基本上离不开d(i,j)这个鸟概念,对于函数实现主要就是搞搞d(ij)
n 中的 OPIC算法主要就是基于d(i,j)这个概念出发,构建了L矩阵,将整个爬到的网页分为n个节点,每个节点分配一个cash值一个history值,cash值在初始分配的时候被n设置为1,然后在抓取到了网页之后,score=history = sum(links[i].cash),即修改history值为所有其他外链的cash值之和,修改之后,将外链的cash值置为当前score/validLinkNumber,即将其本身的cash再分配给其他的网页,不过原论文里面在这里会将当前页面cash值置零,而n并没有,nutch用了一个score同时充当了history和cash,这样搞下去好像有点诡异,因为在爬行中cash的总数会增多,估了一下大概是2倍的增量关系,增量就会传递错误,但是如果确保爬行的次数和完整性,后面的增加的网页又会将错误降低。就opic算法而言,其最终目的是证明在无限次爬行和等概率redirect情况下,网页的重要性大致等于history除以所有网页的history之和,在nutch中,只要保证被爬行的次数的增多话,其score一定是向上提高的,而且越多次迭代之后,其在整个拓扑中的排序应该是可靠的(只是一种直觉哈,我也给不出完备的数学证明),反正就是一个针对链接的算法。看了nutch的实现,发现工程和论文还是有差别的,一般论文都是数学上异常复杂吹牛逼吹的很圆,而我们如果自己实现论文算法,特别是某些领域,编程时候拍拍脑袋,方向上和论文一致就可以了,很复杂的算法也许可以简单实现,效果也不一定差啊(也没见谁去抱怨怀疑nutch,不过nutch排序算法实现程序确实没有人愿意署名倒是了:)),继续日之~。
贴段代码,这个实现的确很简单,opic算法可以去查看http://www2003.org/cdrom/papers/refereed/p007/p7-abiteboul.html
float adjust = 0.0f;
for (int i = 0; i < inlinked.size(); i++) {
CrawlDatum linked = (CrawlDatum)inlinked.get(i);
adjust += linked.getScore();
}
if (old == null) old = datum;
datum.setScore(old.getScore() + adjust);
分享到:
相关推荐
在本系统中,我们主要实现了五种常用的排序算法:冒泡排序法、快速排序法、直接插入排序法、折半插入排序法和树形选择排序法。这些算法都是在计算机科学中最基本和最重要的排序算法,广泛应用于各种数据处理和分析...
常见的经典排序算法有希尔排序、二分插入法、直接插入法、带哨兵的直接排序法、冒泡排序、选择排序、快速排序、堆排序等。 一、希尔排序(Shell 排序法) 希尔排序法,又称宿小增量排序,是 1959 年由 D.L.Shell ...
常见的排序算法有插入排序、快速排序、选择堆积排序法等。 插入排序算法是一种简单的排序算法,适用于小规模的数据结构。该算法将数据结构分成已排序部分和未排序部分,并将未排序部分的元素插入到已排序部分中。...
在计算机科学领域,排序算法是数据处理中的核心部分,它涉及到如何有效地重新排列一组数据,使其按照特定的顺序排列。本资源"总结了各种排序算法,并用C++代码实现,并有演示",提供了丰富的学习材料,包括不同类型...
希尔排序是一种基于插入排序的算法,通过将待排序的数组元素按某个增量分组,然后对每组使用直接插入排序算法排序。随着增量逐渐减少,每组包含的关键词越来越多,当增量减至1时,整个文件恰被分成一组,算法便终止...
本篇文章将介绍一种经典的排序算法——**合并排序法**(Merge Sort),并通过C语言实现该算法。合并排序是一种非常有效的排序方法,其核心思想是分治法:将数据分为若干个子集,对这些子集分别进行排序,最后将排序...
最快的排序算法 最快的内部排序法—桶排序法,排序算法数据结构
在IT领域,排序算法是计算机科学中的基础但至关重要的概念,尤其在数据处理和算法设计中扮演着核心角色。本文将深入探讨标题中提到的几种基于比较的排序算法:选择排序、插入排序、归并排序、快速排序、堆排序、冒泡...
最快的排序算法 最快的内部排序法—桶排序法 (1),排序算法数据结构
在计算机科学领域中,排序算法是一种基本的算法,它可以将数据按照一定的顺序排列,以便更好地存储、检索和处理数据。排序算法的速度和效率对程序的性能有着至关重要的影响。 1.冒泡排序算法 冒泡排序算法是一种...
该程序包含7大排序算法: # sort.bubbleSort() #冒泡排序 # sort.shellSort() #希尔排序 # sort.insertionSort() #插入排序 # sort.Selectionsort1() #选择排序 # sort.heapSort() #堆排序 # sort.countSort() ...
根据给定文件的信息,本文将深入探讨C语言中的两种经典排序方法:插入排序法与冒泡排序法。这两种方法在实际编程中应用广泛,对于理解数据结构与算法的基础概念至关重要。 ### 一、冒泡排序法 #### 1.1 基本原理 ...
双向起泡排序法是一种在链表结构中实现的排序算法,尤其适用于双向链表。它借鉴了传统冒泡排序的基本思想,但在链表环境中进行了优化,以提高效率。本篇文章将详细探讨双向起泡排序法及其在带头结点的双向链表中的...
六种排序算法的排序系统 本篇文章主要讲解了六种排序算法的排序系统,包括插入排序、冒泡排序、选择排序、快速排序、堆排序和归并排序。该系统可以让用户选择六种排序算法中的任意一个,并输出结果。 插入排序 ...
在IT领域,排序算法是计算机科学中的基础但至关重要的部分,尤其在数据处理和数据分析中起着关键作用。本文将详细探讨标题所提及的几种排序算法:合并排序、插入排序、希尔排序、快速排序、冒泡排序以及桶排序,并...
在计算机科学中,排序算法是数据结构领域的重要组成部分,它涉及到如何有效地重新排列一组数据,使其按照特定的顺序排列。本资源提供了三种经典的排序算法的C语言实现:堆排序、直接插入排序和快速排序。 首先,让...
在计算机科学领域,排序算法是数据处理中至关重要的一部分,它涉及到如何有效地重新排列一组数据,使其按照特定的顺序排列。本资源提供了七大经典排序算法的实现程序,包括快速排序、冒泡排序、选择排序、归并排序、...
时间复杂度用于衡量排序算法的效率,通常以大O表示法来表示。文档中提到了几种不同排序算法的时间复杂度: - **O(n²)**:插入排序、冒泡排序和选择排序的时间复杂度均为O(n²),这意味着随着数据量的增加,这些...
排序算法是计算机科学中最基础和重要的算法之一,用于将一组数据按照特定的顺序进行排列。本文将对几种常见的内部排序算法和外部排序算法进行详细总结。 首先,排序的基本定义是:给定一个包含n个记录的序列,其...
在编程领域,排序算法是计算机科学中的重要组成部分,特别是在数据处理和算法效率分析上。本文将详细介绍C++中实现的希尔排序、快速排序、堆排序和归并排序这四种经典排序算法。 希尔排序,由Donald Shell于1959年...