搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。
■ 全文搜索引擎
全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。
从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。
■ 目录索引
目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎。其他著名的还有Open Directory Project(DMOZ)、LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。
■ 元搜索引擎 (META Search Engine)
元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。
除上述三大类引擎外,还有以下几种非主流形式:
1、集合式搜索引擎:如HotBot在2002年底推出的引擎。该引擎类似META搜索引擎,但区别在于不是同时调用多个引擎进行搜索,而是由用户从提供的4个引擎当中选择,因此叫它“集合式”搜索引擎更确切些。
2、门户搜索引擎:如AOL Search、MSN Search等虽然提供搜索服务,但自身即没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎。
3、免费链接列表(Free For All Links,简称FFA):这类网站一般只简单地滚动排列链接条目,少部分有简单的分类目录,不过规模比起Yahoo等目录索引来要小得多。
由于上述网站都为用户提供搜索查询服务,为方便起见,我们通常将其统称为搜索引擎。
Go Top
分享到:
相关推荐
**LUCENE搜索引擎基本工作原理** Lucene是一个开源的全文搜索引擎库,被广泛应用于构建复杂的搜索引擎系统。它的设计目标是高效、灵活且可扩展。理解Lucene的工作原理有助于开发人员更好地利用这一强大的工具。 **...
搜索引擎是互联网上获取信息的关键工具,其基本工作原理主要包括三个主要步骤:抓取网页、处理网页和提供检索服务。搜索引擎的爬虫程序(Spider)通过网络中的超链接不断抓取网页,形成网页快照。抓取过程中,搜索...
### 搜索引擎基本工作原理详解 #### 一、搜索引擎的工作流程 搜索引擎作为互联网时代重要的信息检索工具之一,其核心功能在于帮助用户快速准确地找到所需的信息。为了实现这一目标,搜索引擎的基本工作流程主要...
搜索引擎的工作原理主要分为全文搜索引擎和目录索引两种类型。 全文搜索引擎是通过自动化程序,即“蜘蛛”或“爬虫”,来抓取互联网上的网页信息。有两种抓取方式:定期搜索和提交网站搜索。定期搜索是指搜索引擎...
本文旨在介绍搜索引擎的基本概念,深入探讨其工作原理及类型,并分析当前搜索引擎的发展现状与未来趋势。此外,还将简要介绍主流的中文搜索引擎网站。 #### 搜索引擎的基本概念 搜索引擎是一种网络应用程序,它...
### 搜索引擎工作原理详解 #### 一、搜索引擎的基本概念 搜索引擎是互联网上提供自动搜索服务的一种工具,它能够帮助用户快速找到所需的信息资源。在实际应用中,搜索引擎的工作流程主要包括网页抓取(爬虫)、...
【搜索引擎基本工作原理】 搜索引擎的工作流程可以概括为以下几个主要步骤: 1. **抓取(Crawling)**:搜索引擎的“蜘蛛”或“机器人”通过跟踪网页间的链接,遍历互联网,发现并下载新的网页。这个过程叫做网络...
全面介绍WEB搜索引擎,搜索引擎工作原理,搜索开发技术
《搜索引擎:原理、技术与系统》这本书深入浅出地介绍了搜索引擎的核心工作原理和技术实现。 1. **网页的搜集**:搜索引擎通过爬虫程序自动抓取互联网上的网页。这些爬虫遵循一定的规则访问不同的网站,并下载网页...