在浩如烟海的Internet上,特别是其上的Web(World Wide Web万维网)上,不会搜索,就不会上网。网虫朋友们,你了解搜索引擎吗?它们是怎么工作的?你都使用哪些搜索引擎?今天我就和大家聊聊搜索引擎的话题。
一、搜索引擎的分类
获得网站网页资料,能够建立数据库并提供查询的系统,我们都可以把它叫做搜索引擎。按照工作原理的不同,可以把它们分为两个基本类别:全文搜索引擎(FullText Search Engine)和分类目录Directory)。
全文搜索引擎的数据库是依靠一个叫“网络机器人(Spider)”或叫“网络蜘蛛(crawlers)”的软件,通过网络上的各种链接自动获取大量网页信息内容,并按以定的规则分析整理形成的。Google、百度都是比较典型的全文搜索引擎系统。
分类目录则是通过人工的方式收集整理网站资料形成数据库的,比如雅虎中国以及国内的搜狐、新浪、网易分类目录。另外,在网上的一些导航站点,也可以归属为原始的分类目录,比如“网址之家”(http://www.hao123.com/)。
全文搜索引擎和分类目录在使用上各有长短。全文搜索引擎因为依靠软件进行,所以数据库的容量非常庞大,但是,它的查询结果往往不够准确;分类目录依靠人工收集和整理网站,能够提供更为准确的查询结果,但收集的内容却非常有限。为了取长补短,现在的很多搜索引擎,都同时提供这两类查询,一般对全文搜索引擎的查询称为搜索“所有网站”或“全部网站”,比如Google的全文搜索(http://www.google.com/intl/zh-CN/);把对分类目录的查询称为搜索“分类目录”或搜索“分类网站”,比如新浪搜索(http://dir.sina.com.cn/)和雅虎中国搜索(http://cn.search.yahoo.com/dirsrch/)。
在网上,对这两类搜索引擎进行整合,还产生了其它的搜索服务,在这里,我们权且也把它们称作搜索引擎,主要有这两类:
⒈元搜索引擎(META Search Engine)。这类搜索引擎一般都没有自己网络机器人及数据库,它们的搜索结果是通过调用、控制和优化其它多个独立搜索引擎的搜索结果并以统一的格式在同一界面集中显示。元搜索引擎虽没有“网络机器人”或“网络蜘蛛”,也无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索技术。比如“metaFisher元搜索引擎”
(http://www.hsfz.net/fish/),它就调用和整合了Google、Yahoo、AlltheWeb、百度和OpenFind等多家搜索引擎的数据。
⒉集成搜索引擎(All-in-One Search Page)。集成搜索引擎是通过网络技术,在一个网页上链接很多个独立搜索引擎,查询时,点选或指定搜索引擎,一次输入,多个搜索引擎同时查询,搜索结果由各搜索引擎分别以不同页面显示,比如“网际瑞士军刀”(http://free.okey.net/%7Efree/search1.htm)。
二、搜索引擎的工作原理
全文搜索引擎的“网络机器人”或“网络蜘蛛”是一种网络上的软件,它遍历Web空间,能够扫描一定IP地址范围内的网站,并沿着网络上的链接从一个网页到另一个网页,从一个网站到另一个网站采集网页资料。它为保证采集的资料最新,还会回访已抓取过的网页。网络机器人或网络蜘蛛采集的网页,还要有其它程序进行分析,根据一定的相关度算法进行大量的计算建立网页索引,才能添加到索引数据库中。我们平时看到的全文搜索引擎,实际上只是一个搜索引擎系统的检索界面,当你输入关键词进行查询时,搜索引擎会从庞大的数据库中找到符合该关键词的所有相关网页的索引,并按一定的排名规则呈现给我们。不同的搜索引擎,网页索引数据库不同,排名规则也不尽相同,所以,当我们以同一关键词用不同的搜索引擎查询时,搜索结果也就不尽相同。
分享到:
相关推荐
揭开均线系统的神秘面纱pdf版本 揭开均线系统的神秘面纱pdf版本
第一篇章初识XGBoost 揭开神秘面纱
正是因为搜索引擎离我们越来越近,所以越来越多的人期待着能够揭开她神秘的面纱。其实搜索引擎并不是变幻莫测的大海,也不是高不可攀的山峰。请拿起本书,它就是引领你的火炬,它就是你身边的伙伴,它将带着你走进...
### 揭开J2EE集群的神秘面纱 #### 序言 随着互联网技术的快速发展,J2EE(Java 2 Platform, Enterprise Edition)作为企业级应用开发的标准平台之一,在金融、电商等领域得到了广泛的应用。为了确保关键业务系统的...
傅里叶变换是一种数学工具,用于将信号从时间域转换到频率域,它在众多科学和工程领域中具有广泛的应用,如电力系统、通信、雷达技术、声学和控制系统等。傅立叶变换的核心思想是将复杂的时变信号分解为一系列不同...
本篇文章将深入探讨均线系统的原理、类型、应用以及在实际交易中的策略。 均线系统的基本原理在于平滑价格数据,消除短期波动的影响,揭示出价格的长期趋势。其计算方法通常是选取一段时间内的收盘价总和除以天数,...
2. 存储引擎:设计适合特定场景的存储引擎,比如InnoDB适合事务处理,MyISAM则强调读性能。 3. 索引设计:优化索引结构以加速查询,如使用B+树、 Bitmap索引或空间索引等。 4. 查询优化器:选择最优执行路径,以最小...
还是能够匹配多种字符的表达式,它们在默认情况下都只匹配一次。然而,在实际应用中,我们往往需要...无论是在编程中用于字符串匹配和搜索,还是在日常的文本编辑和格式化工作中,正则表达式都是一项不可或缺的技能。
揭开病毒和木马的神秘面纱
"小游戏源码,揭开游戏神秘面纱"这个标题和描述正揭示了我们可以通过学习游戏源码来理解游戏背后的运作机制。源码是软件的灵魂,它记录了游戏从无到有的每一个细节。下面我们将深入探讨游戏源码相关的知识点。 1. *...
揭开货币的神秘面纱高一政治李红芹.pptx
高中政治《揭开货币的神秘面纱》教案.doc
1-1高一政治揭开货币的神秘面纱.ppt
总的来说,《揭开J2EE集群的神秘面纱》这篇文档将带领读者深入探讨J2EE集群的核心原理,帮助开发者和系统管理员更好地理解和运用这项技术,以构建稳定、高效的企业级应用环境。无论是初学者还是经验丰富的专业人士,...
推荐:高一政治(揭开货币的神秘面纱).ppt