搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。
真正意义上的搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。
现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的内容,还分析索引所有指向该网页的链接的URL、AnchorText、甚至链接周围的文字。所以,有时候,即使某个网页A中并没有某个词比如“恶魔撒旦”,但如果有别的网页B用链接“恶魔撒旦”指向这个网页A,那么用户搜索“恶魔撒旦”时也能找到网页A。而且,如果有越多网页(C、D、E、F……)用名为“恶魔撒旦”的链接指向这个网页A,或者给出这个链接的源网页(B、C、D、E、F……)越优秀,那么网页A在用户搜索“恶魔撒旦”时也会被认为更相关,排序也会越靠前。
搜索引擎的原理,可以看做三步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。
从互联网上抓取网页
利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。
建立索引数据库
由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。
在索引数据库中搜索排序
当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。
最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
搜索引擎的Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页内容的更新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变化情况就会反映到用户查询的结果中。
互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几亿至几十亿的网页索引,数据量达到几千G甚至几万G。但即使最大的搜索引擎建立超过二十亿网页的索引数据库,也只能占到互联网上普通网页的不到30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。我们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的内容。而互联网上有更大量的内容,是搜索引擎无法抓取索引的,也是我们无法用搜索引擎搜索到的。
你心里应该有这个概念:搜索引擎只能搜到它网页索引数据库里储存的内容。你也应该有这个概念:如果搜索引擎的网页索引数据库里应该有而你没有搜出来,那是你的能力问题,学习搜索技巧可以大幅度提高你的搜索能力。
分享到:
相关推荐
《搜索引擎原理、实践与应用》是一本深入探讨搜索引擎技术的权威资料,涵盖了从基础理论到实际操作的全方位知识。在互联网信息爆炸的时代,搜索引擎作为获取信息的重要工具,其工作原理和优化策略对于开发者、研究...
《基于Ruby+Java搜索引擎原理与实现》是一部深入探讨搜索引擎技术的书籍,虽然只涵盖了前三个章节,但已足以让我们对搜索引擎的基本运作有初步的理解。在本文中,我们将围绕Ruby和Java这两种编程语言如何应用于搜索...
### 搜索引擎原理介绍与分析 #### 一、引言 随着互联网的迅速发展和信息量的爆炸性增长,搜索引擎已成为人们获取信息不可或缺的工具。无论是寻找学术资料、娱乐资源还是商业信息,人们越来越依赖于搜索引擎来高效...
### 搜索引擎原理、技术与系统 #### 一、引言 随着互联网的快速发展和信息量的爆炸式增长,搜索引擎已成为获取信息的重要工具之一。《搜索引擎:原理、技术与系统》这本书由李晓明、闫宏飞和王继民共同撰写,通过...
而“周恒_搜索引擎原理.ppt”可能涵盖了搜索引擎的基本概念、工作原理,以及谷歌搜索引擎的特点和技术细节。周恒教授是中国搜索引擎领域的重要研究者,他的讲解可能会从理论与实践两个层面深入剖析搜索引擎的工作...
搜索引擎技术教程 网络搜索引擎原理-第1章 简介 共21页 搜索引擎技术教程 网络搜索引擎原理-第2章 爬虫 共64页 搜索引擎技术教程 网络搜索引擎原理-第3章 网络搜索与信息检索 共103页 搜索引擎技术教程 网络搜索引擎...
大数据时代背景下的搜索引擎解决方案/大数据搜索引擎原理分析及实现 内 容 简 介 大数据时代背景下的搜索引擎解决方案 搜索引擎的技术架构、算法体系及取得的效果, 以模块化的方式进行组织。 着重介绍了机器 学习...
《搜索引擎原理与实践》是由北京邮电出版社出版的教材,主要由袁津生主编。这本教材深入浅出地介绍了搜索引擎的基本概念、体系结构、工作原理以及相关技术,旨在帮助读者理解和掌握搜索引擎的设计与实现。课程配套的...
本书涉及网络数据挖掘、搜索引擎原理、编译原理、数据库原理、正则表达式、软件工程、设计模式、Ruby语言、HTTP协议等计算机科学与技术的知识,适合搜索引擎开发人员作为参考,也适合有一定计算机基础的读者阅读,以...
【目录】 买家系统卖家怎样发生关系 淘宝系统抓取&排序原理解析
总的来说,搜索引擎原理涉及网络爬虫技术、网页搜集策略、链接分析、网页重要性计算、关键词提取和中文分词等多个方面。Perl作为一门强大的脚本语言,被广泛用于实现这些功能,尤其是在教学和研究中,构建简单的搜索...
### Google搜索引擎原理详解 #### 一、概述与背景 Google搜索引擎是互联网时代最具影响力的信息检索工具之一,其设计理念和技术架构引领了搜索引擎行业的变革与发展。本文旨在深入探讨Google搜索引擎的工作原理,...