- 浏览: 159853 次
- 性别:
- 来自: 北京
最新评论
-
w156445045:
我最近想写这方面的论文,学位论文啊,哎。希望博主能给点思路,谢 ...
《Lucene+Nutch搜索引擎》看过以后。。。 -
inprice:
这也要研究啊!!!!! 失望ing.........
完成了对于heritrix的初步研究 -
dt_fb:
您好,我想问问您,你有跳过recrawl.sh这个脚本文件么? ...
Nutch开源搜索引擎的crawl日志分析及工作目录说明 -
lovepoem:
能增量吗?是不是还是把所有的url遍历出来。和以前的对比。算是 ...
Nutch开源搜索引擎增量索引recrawl的终极解决办法 -
itang:
见到牛人照片了, MS下巴动过刀(开玩笑)
搜索引擎名人堂之Jeff Dean
最近monner兄共享了一篇搜索引擎资料《原理技术与系统》,很有收获啊。下面我将其中的术语部分列出来,大家一起学习一下。
附录. 术语
B:
半结构化数据(semi-structured data),和普通纯文本相比,Web上的网页数据具有一定的结构性,表现在其中的HTML标注上;但和具有严格理论模型的关系数据库的数据相比,这种HTML标注带来的结构性又要弱很多,因此人们称Web上的数据为半结构化数据,这是Web上数据的基本特点。
布尔模型(boolean model),在信息检索领域,不同的场合有不同的含义。当我们讨论用户提交查询的时候,指的是为形成最终查询结果集合,由一个查询的各个成分对查询结果子集之间所要求的一种运算关系;而在讨论文档比较的向量空间模型中,布尔模型指的是构成一个文档向量的各个分量只取1和0两个值,分别代表对应特征项的出现与否。
C:
查全率(recall), 判断检索系统质量的一种度量,表示系统所检索到的与查询相关的文档数占与查询相关的总文档数的百分比。
查询(query),用户使用信息系统提供的输入语言和规则对自己信息需求的一种表达。常用的输入语言包含关键词规范和一些布尔连接符。
查准率(precision), 判断检索系统质量的一种度量。系统所检索到的与查询相关的文档数占检索出的所有文档数的百分比,即反映检索结果“正确性”的度量。
词典(vocabulary),文档(或文档集合)中所有不同词项的集合。
词频(term frequency,tf或TF),TF(i,j)是指一个词项ti在一篇文档dj中出现的次数。
D:
代理(agent),或称代理程序,在应用中,接收到用户的请求后,能代表用户完成任务并返回结果,但不受用户监督的程序、进程或部分系统。在中,代理程序用于从存档或信息库中搜索与用户所给主题词相关的内容,所以有时又称为智能代理(Intelligent Agent)。
倒排文件(inverted file), 组织和索引文件,以便于检索的一种方法。在该方法中,一个关键字的集合是基础,该集合中每一个关键字对应一串记录项,其中每一项包含一个文档编号、该关键字在该文档中出现的情况等信息。
倒置文档频率(inversed document frequency,idf或IDF),通常IDF(ti) 取值为,其中N是所有文档的总数,n)/log(inNi是在N个文档中包含词项ti的文档数。
动态网页(dynamic Web page),需要通过提交查询信息才能获取的网页。
动态摘要(dynamic abstract),做文档摘要的一种方法。对于搜索引擎来说,就是在响应用户查询的时候,根据查询词在文档中出现的位置,提取出查询词周围相关的文字并返回给用户。由于一篇文档会含有不同的查询词,因此动态摘要技术可能把同一个文档形成不同的摘要文字。
G:
共有词汇假设(shared bag of words),信息检索技术的一个最基本假设,即认为文档的含义可以由它所包含的关键词的集合来表达。
H:
HTML(hypertext markup language),超文本标记语言,是Web的关键技术之一,它为ASCII格式的超文本文档提供了一种标准表述方式。
缓存(cache),在计算机科学领域经常出现的一个概念,其基本含义是利用局部性原理实现的一种匹配两种不同速度的中间机制。它可以出现在CPU和RAM中间,也可以出现在应用系统的I/O操作与磁盘之间。在搜索引擎中,为缓解查询要求的高速度和磁盘访问低速的矛盾,常会在内存中设计各种缓存,包括查询缓存、点击缓存,以及倒排表缓存等。
J:
静态网页(static Web page),不需要通过提交查询信息即可获得的页面。
镜像网页(mirror Web page),网页的内容完全相同,未加任何修改。
局部性原则(locality principle),是程序行为的一种性质。它包括:时间局部性和空间局部性。前者指的是,如果某数据刚才被访问,则它很可能在近期内还要被访问;后者指的是,如果某数据刚才被访问,则和它在位置上相邻的数据很可能将被访问。
拒绝服务攻击(denial of service,DoS),是一种攻击行动,使网站服务器充斥大量要求回复的信息,消耗网络带宽或系统资源,导致网络或系统不胜负荷以至于瘫痪而停止提供正常的网络服务。
L:
链接分析(link analysis): Web上的网页及其相互之间的链接可以看成一个巨大的有向图,链接分析指的是利用网页之间的链接信息来评判其重要性(或者相关性)的技术。常用的链接信息包含网页的出度、入度,锚文本内容等;常用的链接分析算法有:PageRank,HITS,SALSA,PHITS,Bayesian等。
M:
MD5(message digest 5), 报文摘要,用于报文编码的一种算法。MD5算法在RFC1321中定义,其基本功能是将一个任意长的报文变换为一个128位的摘要,两个不同的报文对应的摘要相同的概率极小,两个摘要之间的相近程度和对应两个报文的相近程度没有任何关系。
锚文本(anchor text),HTML文本中的链接描述信息,向读者提示该链接所指向网页的性质或特征。例如,在一篇网页中书写有<a href = “http://www.cctv.com”>新闻频道</a>,则“新闻频道”就是链接href= “http://www.cctv.com”在本网页中的锚文本。
目录型网页(hub page),该网页提供很多指向其它权威型网页的超链接。是与权威型网页相对应的。
Q:
齐普夫定律(Zipf’s law), 由美国学者G.K.齐普夫于本世纪40年代提出的词频分布定律。它可以表述为:如果把一篇较长文档中每个词出现的频次统计起来,按照高频词在前、低频词在后的递减顺序排列,并用自然数给这些词编上等级序号,即频次最高的词等级为1,频次次之的等级为2,……。若用f表示频次,r表示等级序号,则有f=C/r(C为常数)。
切词(word segmentation),或称分词,主要在中文信息处理中使用,即把一句话分成一个词的序列。如,“网络与分布式系统实验室”,分词为“网络 与 分布式 系统 实验室”。
全文检索(full text retrieval),文本信息检索的一种方法(或者说是一种精细程度),其特点是不仅文档中出现的每一个词都可以被检索出来,而且每一个词的每一次出现也可以被检索出来。
权威型网页(authority page),网页内容通常有一个特定的主题,并且被许多其它网页链接,是与目录型网页相对应的一个概念。
S:
散列表(Hash Table),或称哈希表,是一种数据结构,它便于快速的信息查找。散列表生成时为表中的每项数据分配一个随机索引代码。这种索引代码的随机性使得数据的分布比较均匀,从而可能大大节省后续查找的时间。
数字图书馆(digital libarary),一个数字信息对象收藏、组织和表现这些对象的方法以及将这些对象提供给用户的相关的信息技术。它包括支持用户进行定位、检索和获取这些信息对象的服务。
搜索引擎(search engine,SE),Web上的一种应用软件系统,它以一定的策略在Web上搜集和发现信息,对信息进行处理和组织后,为用户提供Web信息查询服务。
索引词载体信息(index term carrier),HTML的标签信息标识了文档中索引词的字体和大小写等信息。
T:
停用词(stop word),指文档中出现的连词,介词,冠词等并无太大意义词。例如在英文中常用的停用词有the,a, it等;在中文中常见的有“是”,“的”,“地”等。
吞吐量(throughput),或称吞吐率,是指在单位时间里系统完成的总任务量。对于搜索引擎来说,就是指系统在单位时间(秒)里可以服务的最大用户查询数量。
U:
URL(uniform resource locator),用来定位互联网上信息资源的一种协议(或者说描述规范),网页的定位通常就是以形如“http://host/path/file.html”的URL来描述的,而FTP资源则用形如“ftp://host/path/file”的URL来描述。
URL域名深度,网页对应的url中域名部分包含的子域个数。
URL目录深度,网页对应的url中除去域名部分的目录层次,即url = schema://host/localpath中的localpath部分。如url为http://www.pku.edu.cn,则目录深度为0;如果是http://www.pku.edu.cn/cs,则目录深度为1。
W:
网页出度(page outdegree),针对一个网页,该网页指向其他网页的超链接数目。
网页净化(noise reduction), 识别并去除网页噪音的过程;即去除网页内与该网页主题内容无关的信息,如广告、版权信息等。
网页爬取器(gatherer),指网页搜集子系统中根据url完成一篇网页抓取的进程或者线程,通常一个搜集子系统上会同时启动多个gatherer并行工作。
网页入度(page indegree)针对一个网页,整个网络中指向该网页的超链接数目。
网页搜集子系统(crawler system),尤指在搜索引擎系统中,利用HTML文档之间的链接关系,在Web上依照网页之间的超链关系一个个抓取网页的程序。鉴于其在Web上沿超链“爬行”的工作方式,这种程序有时也称为“蜘蛛”(spider)。Crawler,spider,robot,bot一般都指的是相同的事物。
文档对象模型(document object model,DOM),DOM将一个XML文档转换成一个对象集合,然后可以任意处理该对象模型。这一机制也称为“随机访问”协议,因为可以在任何时间访问数据的任何一部分,然后修改、删除或插入新数据。
文档自动分类(automatic text categorization,ATC),用计算机程序来确定指定文档和预先定义文档类别之间的隶属关系。
X:
先进先出(first in first out,FIFO),是一种页面替换算法,选择最先装入主存储器的那一页调出,或者说是把驻留在主存时间最长的那一页调出。
相关排序(relevance ranking),指信息检索系统返回结果的排序,其中条目的顺序反映了系统确定的结果和查询的相关程度。
向量空间模型(vector space model,VSM),按照共有词汇假设,一组文档有一个总词语集合Σ,一篇文档可以用一个向量表示,其元素是对应词语在该文档中出现情况的一种定量描述,一组文档就可以看成是一个向量空间中的若干元素,于是可以应用向量空间中距离的概念来考察两篇文档之间的相似程度等。
响应时间(response time),在计算机系统中,从提交请求(或询问)到开始看到回答之间所经历的时间。对于搜索引擎来说,就是用户提交查询到他看到返回结果之间所经历的时间。在搜索引擎的具体实践中,由于这个时间和动态变化的网络状态有关,常常用检索系统为完成一个查询所消耗的响应时间来近似。
消重(replicas or near-replicas detection), 清除所搜集网页集合中的镜像或转载网页的过程。
协议(protocol),为实现通信而制定的能够协调各功能单元操作的一组规则。
信息检索(information retrieval,IR), 将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。
信息检索模型(IR model),依照用户查询,对文档集合进行相关排序的一组前提假设和算法。IR模型可形式地表示为一个四元组< D, Q, F, R(qi,dj) >,其中D是一
个文档集合,Q是一个查询集合,F是一个对文档和查询建模的框架,R(qi,dj) 是一个排序函数,它给查询qi和文档 dj 之间的相关度赋予一个排序值。常用的信息检索模型有:集合论模型、代数模型、概率模型等。
Y:
用户查询日志(user query log),是在用户提交查询请求时由系统自动记录的相关信息,它包括用户查询时提交的关键词、提交时间、用户IP地址、页号(通常查询结果分页显示,每页显示10个查询结果,用户首次查询页号为1,用户翻页时页号即为用户选择的结果页面号)和是否在缓存中命中等信息。
用户点击日志(user hit log),是用户浏览查询结果并点击页面时由系统自动记录的相关信息,它通常包括用户点击页面的时间、点击页面的URL、用户IP地址、点击页面的序号(该页面在查询结果中的位置)、该点击对应的查询词等信息。
元数据(meta data),描述某种类型资源(或对象)的属性、并对这种资源进行定位和管理、同时有助于数据检索的数据。
元搜索引擎(meta search engine),又称集成型搜索引擎,它将用户的查询发送给多个独立的搜索引擎,收集它们产生的结果,然后按照一定的算法进行选择和重新排序以形成一个最终结果返回给用户。
Z:
中文信息处理(Chinese information processing),用计算机对汉语的音、形、义等语言文字进行信息的加工和操作,包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。
主题搜集(topic-specific/focused crawling),即面向主题的信息搜集系统,其主要任务是利用有限的网络带宽、存储容量和较少的时间,抓取尽可能多的与主题内容密切相关的网页。
转载网页(near-replicas Web page),内容基本相同但可能有一些额外的编辑信息等。虽然网页做了部分改动,但其主题内容未变;即去除网页的噪声(如广告、版权等信息)外,其它正文内容相同。转载网页也称为近似镜像网页。
最低频使用(least frequently used,LFU),缓存内容维护的一种数据替换策略,当缓存满,且有新的数据要进来时,它总是淘汰现有数据中在过去使用频率最低的数据。数据替换的粒度可以根据应用场合确定。
最近最少使用(least recently used,LRU),缓存内容维护的一种数据替换策略,当缓存满,且有新的数据要进来时,它总是淘汰现有数据中在过去最长时间未被使用过的数据。
附录. 术语
B:
半结构化数据(semi-structured data),和普通纯文本相比,Web上的网页数据具有一定的结构性,表现在其中的HTML标注上;但和具有严格理论模型的关系数据库的数据相比,这种HTML标注带来的结构性又要弱很多,因此人们称Web上的数据为半结构化数据,这是Web上数据的基本特点。
布尔模型(boolean model),在信息检索领域,不同的场合有不同的含义。当我们讨论用户提交查询的时候,指的是为形成最终查询结果集合,由一个查询的各个成分对查询结果子集之间所要求的一种运算关系;而在讨论文档比较的向量空间模型中,布尔模型指的是构成一个文档向量的各个分量只取1和0两个值,分别代表对应特征项的出现与否。
C:
查全率(recall), 判断检索系统质量的一种度量,表示系统所检索到的与查询相关的文档数占与查询相关的总文档数的百分比。
查询(query),用户使用信息系统提供的输入语言和规则对自己信息需求的一种表达。常用的输入语言包含关键词规范和一些布尔连接符。
查准率(precision), 判断检索系统质量的一种度量。系统所检索到的与查询相关的文档数占检索出的所有文档数的百分比,即反映检索结果“正确性”的度量。
词典(vocabulary),文档(或文档集合)中所有不同词项的集合。
词频(term frequency,tf或TF),TF(i,j)是指一个词项ti在一篇文档dj中出现的次数。
D:
代理(agent),或称代理程序,在应用中,接收到用户的请求后,能代表用户完成任务并返回结果,但不受用户监督的程序、进程或部分系统。在中,代理程序用于从存档或信息库中搜索与用户所给主题词相关的内容,所以有时又称为智能代理(Intelligent Agent)。
倒排文件(inverted file), 组织和索引文件,以便于检索的一种方法。在该方法中,一个关键字的集合是基础,该集合中每一个关键字对应一串记录项,其中每一项包含一个文档编号、该关键字在该文档中出现的情况等信息。
倒置文档频率(inversed document frequency,idf或IDF),通常IDF(ti) 取值为,其中N是所有文档的总数,n)/log(inNi是在N个文档中包含词项ti的文档数。
动态网页(dynamic Web page),需要通过提交查询信息才能获取的网页。
动态摘要(dynamic abstract),做文档摘要的一种方法。对于搜索引擎来说,就是在响应用户查询的时候,根据查询词在文档中出现的位置,提取出查询词周围相关的文字并返回给用户。由于一篇文档会含有不同的查询词,因此动态摘要技术可能把同一个文档形成不同的摘要文字。
G:
共有词汇假设(shared bag of words),信息检索技术的一个最基本假设,即认为文档的含义可以由它所包含的关键词的集合来表达。
H:
HTML(hypertext markup language),超文本标记语言,是Web的关键技术之一,它为ASCII格式的超文本文档提供了一种标准表述方式。
缓存(cache),在计算机科学领域经常出现的一个概念,其基本含义是利用局部性原理实现的一种匹配两种不同速度的中间机制。它可以出现在CPU和RAM中间,也可以出现在应用系统的I/O操作与磁盘之间。在搜索引擎中,为缓解查询要求的高速度和磁盘访问低速的矛盾,常会在内存中设计各种缓存,包括查询缓存、点击缓存,以及倒排表缓存等。
J:
静态网页(static Web page),不需要通过提交查询信息即可获得的页面。
镜像网页(mirror Web page),网页的内容完全相同,未加任何修改。
局部性原则(locality principle),是程序行为的一种性质。它包括:时间局部性和空间局部性。前者指的是,如果某数据刚才被访问,则它很可能在近期内还要被访问;后者指的是,如果某数据刚才被访问,则和它在位置上相邻的数据很可能将被访问。
拒绝服务攻击(denial of service,DoS),是一种攻击行动,使网站服务器充斥大量要求回复的信息,消耗网络带宽或系统资源,导致网络或系统不胜负荷以至于瘫痪而停止提供正常的网络服务。
L:
链接分析(link analysis): Web上的网页及其相互之间的链接可以看成一个巨大的有向图,链接分析指的是利用网页之间的链接信息来评判其重要性(或者相关性)的技术。常用的链接信息包含网页的出度、入度,锚文本内容等;常用的链接分析算法有:PageRank,HITS,SALSA,PHITS,Bayesian等。
M:
MD5(message digest 5), 报文摘要,用于报文编码的一种算法。MD5算法在RFC1321中定义,其基本功能是将一个任意长的报文变换为一个128位的摘要,两个不同的报文对应的摘要相同的概率极小,两个摘要之间的相近程度和对应两个报文的相近程度没有任何关系。
锚文本(anchor text),HTML文本中的链接描述信息,向读者提示该链接所指向网页的性质或特征。例如,在一篇网页中书写有<a href = “http://www.cctv.com”>新闻频道</a>,则“新闻频道”就是链接href= “http://www.cctv.com”在本网页中的锚文本。
目录型网页(hub page),该网页提供很多指向其它权威型网页的超链接。是与权威型网页相对应的。
Q:
齐普夫定律(Zipf’s law), 由美国学者G.K.齐普夫于本世纪40年代提出的词频分布定律。它可以表述为:如果把一篇较长文档中每个词出现的频次统计起来,按照高频词在前、低频词在后的递减顺序排列,并用自然数给这些词编上等级序号,即频次最高的词等级为1,频次次之的等级为2,……。若用f表示频次,r表示等级序号,则有f=C/r(C为常数)。
切词(word segmentation),或称分词,主要在中文信息处理中使用,即把一句话分成一个词的序列。如,“网络与分布式系统实验室”,分词为“网络 与 分布式 系统 实验室”。
全文检索(full text retrieval),文本信息检索的一种方法(或者说是一种精细程度),其特点是不仅文档中出现的每一个词都可以被检索出来,而且每一个词的每一次出现也可以被检索出来。
权威型网页(authority page),网页内容通常有一个特定的主题,并且被许多其它网页链接,是与目录型网页相对应的一个概念。
S:
散列表(Hash Table),或称哈希表,是一种数据结构,它便于快速的信息查找。散列表生成时为表中的每项数据分配一个随机索引代码。这种索引代码的随机性使得数据的分布比较均匀,从而可能大大节省后续查找的时间。
数字图书馆(digital libarary),一个数字信息对象收藏、组织和表现这些对象的方法以及将这些对象提供给用户的相关的信息技术。它包括支持用户进行定位、检索和获取这些信息对象的服务。
搜索引擎(search engine,SE),Web上的一种应用软件系统,它以一定的策略在Web上搜集和发现信息,对信息进行处理和组织后,为用户提供Web信息查询服务。
索引词载体信息(index term carrier),HTML的标签信息标识了文档中索引词的字体和大小写等信息。
T:
停用词(stop word),指文档中出现的连词,介词,冠词等并无太大意义词。例如在英文中常用的停用词有the,a, it等;在中文中常见的有“是”,“的”,“地”等。
吞吐量(throughput),或称吞吐率,是指在单位时间里系统完成的总任务量。对于搜索引擎来说,就是指系统在单位时间(秒)里可以服务的最大用户查询数量。
U:
URL(uniform resource locator),用来定位互联网上信息资源的一种协议(或者说描述规范),网页的定位通常就是以形如“http://host/path/file.html”的URL来描述的,而FTP资源则用形如“ftp://host/path/file”的URL来描述。
URL域名深度,网页对应的url中域名部分包含的子域个数。
URL目录深度,网页对应的url中除去域名部分的目录层次,即url = schema://host/localpath中的localpath部分。如url为http://www.pku.edu.cn,则目录深度为0;如果是http://www.pku.edu.cn/cs,则目录深度为1。
W:
网页出度(page outdegree),针对一个网页,该网页指向其他网页的超链接数目。
网页净化(noise reduction), 识别并去除网页噪音的过程;即去除网页内与该网页主题内容无关的信息,如广告、版权信息等。
网页爬取器(gatherer),指网页搜集子系统中根据url完成一篇网页抓取的进程或者线程,通常一个搜集子系统上会同时启动多个gatherer并行工作。
网页入度(page indegree)针对一个网页,整个网络中指向该网页的超链接数目。
网页搜集子系统(crawler system),尤指在搜索引擎系统中,利用HTML文档之间的链接关系,在Web上依照网页之间的超链关系一个个抓取网页的程序。鉴于其在Web上沿超链“爬行”的工作方式,这种程序有时也称为“蜘蛛”(spider)。Crawler,spider,robot,bot一般都指的是相同的事物。
文档对象模型(document object model,DOM),DOM将一个XML文档转换成一个对象集合,然后可以任意处理该对象模型。这一机制也称为“随机访问”协议,因为可以在任何时间访问数据的任何一部分,然后修改、删除或插入新数据。
文档自动分类(automatic text categorization,ATC),用计算机程序来确定指定文档和预先定义文档类别之间的隶属关系。
X:
先进先出(first in first out,FIFO),是一种页面替换算法,选择最先装入主存储器的那一页调出,或者说是把驻留在主存时间最长的那一页调出。
相关排序(relevance ranking),指信息检索系统返回结果的排序,其中条目的顺序反映了系统确定的结果和查询的相关程度。
向量空间模型(vector space model,VSM),按照共有词汇假设,一组文档有一个总词语集合Σ,一篇文档可以用一个向量表示,其元素是对应词语在该文档中出现情况的一种定量描述,一组文档就可以看成是一个向量空间中的若干元素,于是可以应用向量空间中距离的概念来考察两篇文档之间的相似程度等。
响应时间(response time),在计算机系统中,从提交请求(或询问)到开始看到回答之间所经历的时间。对于搜索引擎来说,就是用户提交查询到他看到返回结果之间所经历的时间。在搜索引擎的具体实践中,由于这个时间和动态变化的网络状态有关,常常用检索系统为完成一个查询所消耗的响应时间来近似。
消重(replicas or near-replicas detection), 清除所搜集网页集合中的镜像或转载网页的过程。
协议(protocol),为实现通信而制定的能够协调各功能单元操作的一组规则。
信息检索(information retrieval,IR), 将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。
信息检索模型(IR model),依照用户查询,对文档集合进行相关排序的一组前提假设和算法。IR模型可形式地表示为一个四元组< D, Q, F, R(qi,dj) >,其中D是一
个文档集合,Q是一个查询集合,F是一个对文档和查询建模的框架,R(qi,dj) 是一个排序函数,它给查询qi和文档 dj 之间的相关度赋予一个排序值。常用的信息检索模型有:集合论模型、代数模型、概率模型等。
Y:
用户查询日志(user query log),是在用户提交查询请求时由系统自动记录的相关信息,它包括用户查询时提交的关键词、提交时间、用户IP地址、页号(通常查询结果分页显示,每页显示10个查询结果,用户首次查询页号为1,用户翻页时页号即为用户选择的结果页面号)和是否在缓存中命中等信息。
用户点击日志(user hit log),是用户浏览查询结果并点击页面时由系统自动记录的相关信息,它通常包括用户点击页面的时间、点击页面的URL、用户IP地址、点击页面的序号(该页面在查询结果中的位置)、该点击对应的查询词等信息。
元数据(meta data),描述某种类型资源(或对象)的属性、并对这种资源进行定位和管理、同时有助于数据检索的数据。
元搜索引擎(meta search engine),又称集成型搜索引擎,它将用户的查询发送给多个独立的搜索引擎,收集它们产生的结果,然后按照一定的算法进行选择和重新排序以形成一个最终结果返回给用户。
Z:
中文信息处理(Chinese information processing),用计算机对汉语的音、形、义等语言文字进行信息的加工和操作,包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。
主题搜集(topic-specific/focused crawling),即面向主题的信息搜集系统,其主要任务是利用有限的网络带宽、存储容量和较少的时间,抓取尽可能多的与主题内容密切相关的网页。
转载网页(near-replicas Web page),内容基本相同但可能有一些额外的编辑信息等。虽然网页做了部分改动,但其主题内容未变;即去除网页的噪声(如广告、版权等信息)外,其它正文内容相同。转载网页也称为近似镜像网页。
最低频使用(least frequently used,LFU),缓存内容维护的一种数据替换策略,当缓存满,且有新的数据要进来时,它总是淘汰现有数据中在过去使用频率最低的数据。数据替换的粒度可以根据应用场合确定。
最近最少使用(least recently used,LRU),缓存内容维护的一种数据替换策略,当缓存满,且有新的数据要进来时,它总是淘汰现有数据中在过去最长时间未被使用过的数据。
发表评论
-
Nutch1.0开源搜索引擎与Paoding在eclipse中用plugin方式集成(终极篇)
2009-09-14 13:15 4332本文主要描述的是如何将paoding分词用plugi ... -
Nutch1.0的那些事
2009-09-10 12:37 2195很久没有更新博客了,应该快一年了。现在呢,我把去年 ... -
配置linux服务器之间ssh不用密码访问
2008-11-05 13:55 3906在配置nutch的时候,我 ... -
搜索引擎机器人研究报告
2008-10-13 15:35 1930从该文对googlebot的分析看,googlebot似乎是想 ... -
搜索引擎算法研究
2008-10-13 15:11 21201.引言 万维网WWW(World Wide Web ... -
谁说搜索引擎只关注结果-看我viewzi的72变
2008-10-04 20:15 1835搜索引擎给大家的感觉,就是用起来简单,以google为首,一个 ... -
《Lucene+Nutch搜索引擎》看过以后。。。
2008-10-03 23:42 7638研究搜索引擎技术快一 ... -
微软有趣的人物关系搜索引擎——人立方
2008-10-03 20:00 3961最近,微软亚洲研究院 ... -
Nutch开源搜索引擎增量索引recrawl的终极解决办法(续)
2008-09-28 19:30 3474十一要放假了,先祝广大同学们节日快乐! 在之前的一篇文章中, ... -
Nutch:一个灵活可扩展的开源web搜索引擎
2008-09-28 11:46 2265在网上找到一篇于2004年11月由CommerceNet La ... -
Google公司都是些什么牛人?
2008-09-27 17:31 2072Google公司都是些什么牛人? 1 Vi ... -
搜索引擎名人堂之Doug Cutting
2008-09-27 11:41 2638Doug Cutting是一个开源搜索技术的提倡者和创造者。他 ... -
Nutch开源搜索引擎增量索引recrawl的终极解决办法
2008-09-26 19:12 5175本文重点是介绍Nutch开源搜索引擎如何在Hadoop分布式计 ... -
Nutch开源搜索引擎与Paoding中文分词用plugin方式集成
2008-09-26 15:31 4592本文是我在集成中文分词paoding时积累的经验,单独成一篇文 ... -
关于Hadoop的MapReduce纯技术点文章
2008-09-24 18:10 3515本文重点讲述Hadoop的整 ... -
MapReduce-免费午餐还没有结束?
2008-09-24 09:57 1483Map Reduce - the Free Lunch is ... -
搜索引擎名人堂之Jeff Dean
2008-09-22 15:09 14975最近一直在研究Nutch,所以关注到了搜索引擎界的一些名人,以 ... -
Lucene于搜索引擎技术(Analysis包详解)
2008-09-22 14:55 2221Analysis 包分析 ... -
Lucene与搜索引擎技术(Document包详解)
2008-09-22 14:54 1721Document 包分析 理解 ... -
Lucene的查询语法
2008-09-22 14:53 1412原文来自:http://liyu2000.nease.net/ ...
相关推荐
以上是关于搜索引擎优化的一些核心专业术语,了解并应用这些概念,有助于提升网站在搜索引擎中的表现,为C#.NET、ASP.NET、SQLDBA等相关技术领域的毕业设计、项目开发以及源码分享等提供有力支持。在实际操作中,...
索匹配结果进行排 点石互动 搜索引擎优化(SEO)术语表 ...搜索引擎营销也称为搜索营销. 搜索引擎优化(SEO ,Search Engine Optimization) 是付费排名)的一系列技术和方法
搜索引擎优化(SEO)是互联网营销领域的一个核心概念,旨在提升网站在搜索引擎结果页面(SERP)上的排名,...理解并熟练运用这些术语,能够帮助优化网站以获得更好的搜索引擎表现,从而提升网站流量和潜在客户转化率。
【搜索引擎优化行业术语详解】 1. **Sandbox(沙盒)**:Google为了打击垃圾网站而设立的一种机制。新网站在被收录后会进入“沙盒”,经历一个观察期,通常持续两三个月到一年不等。在此期间,新网站需要通过Google...
在SEO(搜索引擎优化)中,了解并运用特定的术语至关重要,尤其是像“权威网站”(Authority site)和“集线器网站”(Hub site)这样的概念。 首先,让我们深入理解“权威网站”。在Google的PageRank算法中,一个...
在互联网世界中,搜索引擎优化(SEO)是一种至关重要的策略,旨在提高网站在搜索引擎结果页上的排名,从而增加网站的可见性和流量。...理解并应用这些术语,将有助于你有效地优化网站,提升在搜索引擎中的表现。
【搜索引擎优化行业术语详解】 1. Alexa:Alexa是由亚马逊公司运营的一个网站,它通过估算全球网站的流量来评估网站的受欢迎程度。Alexa值越小,表示网站排名越高,流量越大。但需要注意的是,Alexa的数据是第三方...
本篇文章是搜索引擎优化行业术语大全的第六篇,涵盖了从T到X的搜索引擎优化相关术语,包括Title Tag、Unique Visitor、Validation、W3C、XML Sitemap等,旨在帮助读者更好地了解搜索引擎优化领域的专业术语。...
《中文搜索引擎——Ollydbg插件深度解析》 在信息技术领域,搜索引擎是我们获取信息的重要工具,而当我们将视角转向软件调试时,Ollydbg插件则成为了一个强大的辅助工具。本文将深入探讨“中文搜索引擎”这一针对...
搜索引擎优化(SEO)是互联网营销领域中的核心策略之一,它涉及到一系列术语和技术,旨在提高网站在搜索引擎结果页面上的排名,从而吸引更多的流量。以下是一些关键的SEO术语及其详细解释: 1. **Hidden Text(隐蔽...
【SEO搜索引擎优化专业术语详解】 SEO(Search Engine Optimization)指的是搜索引擎优化,旨在提高网站在搜索引擎结果页(SERP)上的排名,从而增加流量。搜索引擎优化包括了多种技术和策略,如关键词优化、链接...
在这个项目实践中,我们将探讨如何利用人工智能技术,特别是自然语言处理(NLP),来构建一个化学专业术语在线翻译的搜索引擎。这个搜索引擎是通过Vue 2.x前端框架和Koa2后端框架实现的,旨在为化学领域的专业人士...
搜索引擎这一术语可拆解为“搜”、“索”、“引擎”三个概念。“搜”指的是从互联网上抓取海量信息,包括网页内容的智能提取、排重和质量分析;“索”涉及信息的存储、排序和快速查询;而“引擎”则强调系统应具有...
搜索引擎优化(SEO)是...了解这些术语有助于深入理解搜索引擎优化的过程,从而更有效地提高网站在搜索引擎中的排名,吸引更多的有机流量。通过不断学习和实践,可以掌握优化技巧,提升网站的在线可见性和影响力。
《2009年中国搜索引擎用户行为研究报告》是中国互联网络信息中心(CNNIC)发布的一份具有权威性的报告,深入分析了2009年时中国搜索引擎市场的用户行为、发展趋势及市场规模。报告旨在为业界提供宝贵的市场洞察,帮助...
搜索引擎优化(SEO)是互联网营销的关键领域,...了解并掌握这些SEO术语和概念对于提升网站在搜索引擎中的表现至关重要。持续关注和遵循搜索引擎的指南,同时提供优质内容和用户体验,是实现长期成功的SEO策略的基础。
总之,GOOGLE 搜索引擎以其强大的索引能力、高效的检索速度和独特的 PageRank 算法,成为了全球最受欢迎的搜索引擎之一。通过掌握其搜索秘笈,用户不仅能更有效地找到所需信息,还能在海量的数据中找到隐藏的宝藏。...