`

集成搜索引擎与元搜索引擎

阅读更多

搜 索引擎是开启网络知识殿堂的钥匙,获取知识信息的工具。随着网络技术的飞速发展,搜索技术的日臻完善,中外搜索引擎已广为人们熟知和使用。任何搜索引擎的 设计,均有其特定的数据库索引范围、独特的功能和使用方法,以及预期的用户群指向。一种搜索引擎不可能满足所有人或一个人所有的检索需求。在某些情况下, 如文献普查、专题查询、新闻调查与朔源、软件及 MP3 下载地址搜索等等,人们往往需要使用多种搜索引擎,对搜索结果进行比较、筛选和相互印证。为解决逐一登陆各搜索引擎,并在各搜索引擎中分别多次输入同一检索请求(检索字串)等烦琐操作,集成搜索引擎和元搜索引擎应运而生。

搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎( Full Text Search Engine )、目录索引类搜索引擎( Search Index/Directory )和元搜索引擎( Meta Search Engine )。

集成搜索引擎和元搜索引擎尽可能地减少和优化了检索操作,实现了“一次检索输入,多引擎同时搜索”。

 

目前国内对集成搜索引擎和元搜索引擎的概念界定尚不清晰,二者多互称、通用。事实上,集成搜索引擎和元搜索引擎是两种不同类型的搜索工具,既有共同特点,又有明显差异。

 

一、集成搜索引擎

集成搜索引擎( All in One Search Page ),亦称为“多引擎同步检索系统 ”(如 http://www.bioon.com/multisearch.htm )是在一个 WWW 页面上链接若干种独立的搜索引擎,检索时需点选或指定搜索引擎,一次检索输入,多引擎同时搜索,搜索结果由各搜索引擎分别以不同页面提交,其实质是利用网站链接技术形成的搜索引擎集合,而并非真正意义上的搜索引擎。

 

集成搜索引擎无自建数据库,不需研发支持技术,当然也不能控制和优化检索结果。但集成搜索引擎制作与维护技术简单,可随时对所链接的搜索引擎进行增删调整和及时更新,尤其大规模专业(如 FLASH MP3 等)搜索引擎集成链接,深受特定用户群欢迎。在搜索引擎发展进程中,集成搜索引擎只是元搜索引擎的初级形态,以其方便、实用在网络搜索工具家族中占据一席之地。典型的集成搜索引擎有“搜索之家”( http://so.web165.com/ )、“网际瑞士军刀”( http://free.okey.net/~free/search1.htm )等。

 

二、元搜索引擎

元搜索引擎( Metasearch Engine ),是一种调用其它独立搜索引擎的引擎 , 亦称“搜索引擎之母( The mother of searce engines) ”。在这里,“元”( Meta )为“总的”、“超越”之意,元搜索引擎就是对多个独立搜索引擎(也称成员搜索引擎)的整合、调用、控制和优化利用。相对元搜索引擎,可被利用的独立搜索引擎称为“源搜索引擎”( source Engine ),或“搜索资源”( searcing resources ),整合、调用、控制和优化利用源搜索引擎的技术,称为“元搜索技术”( Meta-searching technique ),元搜索技术是元搜索引擎的核心。

 

元搜索引擎分为并行处理式和串行处理式两大类。并行处理式元搜索引擎将用户的查询请求同时转送给它调用链接的多个独立型搜索引擎进行查询处理,串行处理式元搜索引擎将用户的查询请求依次转送给它调用链接的每一个独立型搜索引擎进行查询处理。

 

元 搜索引擎是用户同时利用多引擎进行网络搜索的中介。检索时,元搜索引擎根据用户提交的检索请求,调用源搜索引擎进行搜索,对搜索结果进行汇集、筛选、删并 等优化处理后,以统一的格式在同一界面集中显示。元搜索引擎虽没有网页搜寻机制,亦无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等 方面,均有自己研发的特色元搜索技术支持。如提交检索请求时,根据源搜索引擎的特点和技术参数,指定优先顺序,并对检索时间、检索结果数量进行控制;作为 若干源搜索引擎的检索接口代理,元搜索引擎必须具有较强的字符和语法转换功能,使用户的检索请求为各具语法特点的不同的源搜索引擎所人知和接受; 而对检索结果的显示,不同的元搜索引擎有不同的处理技术,由于元搜索引擎设定的检索结果排序依据、最大返回结果数量、相关度参数及优化机制等不同,调用相同的源搜索引擎的不同元搜索引擎显示检索结果的数量多少、排序先后、结果信息描述选择亦有较大差异。

 

一款理想的元搜索引擎应该具备以下特点和功能:第一,含盖较多的搜索资源,可随意选择和调用源搜索引擎;其次,具备尽可能多的可选择功能,如资源类型(网站、网页、新闻、软件、 FTP MP3 、图像等)选择、返回结果数量控制、结果时段选择、过滤功能选择等;第三,强大的检索请求处理功能(如支持逻辑匹配检索、短语检索、自然语言检索等)和不同搜索引擎间检索语法规则、字符的转换功能(如对不支持“ NEAR ”算符的搜索引擎,可自动实现由“ NEAR ”向“ AND ”算符的转换等);第四,详尽全面的检索结果信息描述(如网页名称、 URL 、文摘、源搜索引擎、结果与用户检索需求的相关度等);第五,支持多种语言检索。

 

目 前运营的元搜索引擎各具特色,功能各有侧重,完全“理想”的尚不多见。一些元搜索引擎在某些方面较为优秀,而其它功能则欠缺或需改进:如大多元搜索引擎不 支持多语种,尤其是汉语检索;一些元搜索引擎实现检索语法转换的能力有限,不支持指定字段检索,不能充分发挥各个独立搜索引擎的高级检索功能;部分元搜索 引擎无源搜索引擎列表,用户不能自主选择和调用源搜索引擎;大部分元搜索引擎仅支持调用 AltaVista Excite GoTo com Yahoo !、 Infoseek Lycos 等常用的搜索引擎,一些大型搜索引擎如 NorthernLight HotBot 等 被排除在外,人为地限制了搜索资源的利用;在检索结果上,元搜索引擎只能返回十几、数十条“相关度”较高的结果,大量可能有价值的源搜索引擎的检索结果被 忽视,影响检索结果的全面性。元搜索引擎的功能受着源搜索引擎和元搜索技术的双重制约:一方面,源搜索引擎的各具特色的强大功能在元搜索引擎中受到限制而 不能充分体现,而另一方面,任何一种元搜索技术都不能发掘和利用源搜索引擎的全部功能。

 

1995 年华盛顿大学硕士生 Eric Selberg Oren Etzioni 推出第一个元搜索引擎 ---Metacrawler 以 来,这一新型的网络检索工具异军突起,发展迅速,目前可用的元搜索引擎已近百种。尽管元搜索引擎存在着这样那样的功能局限,但其以含盖较多的搜索资源,能 够在尽可能短的时间内提供相对全面、准确的检索结果等诸多优异功能受到用户的青睐,已渐成为一种不可或缺的极具潜力的网络检索工具。

 

 

 

著名元搜索引擎

1 InfoGrid http://www.infogrid.com/

提供与主要搜索网站的直接连结和目录检索,具有强大的元搜索和新闻搜索功能。

2 Infonetware RealTerm Search http://www.infonetware.com/

原为检验网络分类技术而设计。它以元搜索引擎知名,但具有强大的对搜索结果进行主题分类的功能。与众不同的是,用户可选择不同的主题,并得到来自所有主题搜索结果,而不是仅仅把搜索结果限制在一个主题范围之内。

3 Ithaki http://www.ithaki.net/dir.html

支持包括中文在内的 14 种语言检索。

4 Ixquick http://www.ixquick.com/

可搜索网站、 MP3 、新闻、图象等多种网络资源。

5 ProFusion ( http://www.profusion.com)

拥有智能化的搜 索方案,提供诸如搜索引擎选择、检索类型、结果显示、摘要选项、链接检查等较多的检索选项,支持个性化设置,可以选择三个最好的搜索引擎、或三个最快的搜 索引擎、或全部搜索引擎、或手工选择任意几个搜索引擎来进行搜索。自动实现符合特殊检索语法要求的转换,如在调用 Excite InfoSeek WebCrawler 时将“ NEAR ”转换成“ AND ”,在调用 GoTo Yahoo 时将“ NOT ”删除等。原为堪萨斯州大学所有, 2000 年四月被 Intelliseek 搜索公司购买。

6 Mamma http://www.mamma.com

1996 年面世,自称为“搜索引擎之母”的并行元搜索引擎,可同时调用 7 个最常用的独立搜索引擎,并且可查询网上商店、新闻、股票指数、图像和声音文件等资源。其特点是检索界面友好,检索选项丰富,主要包括:可控制调用的独立搜索引擎、选择使用短语检索功能、设定检索时间、设定每页可显示记录数等。另外, Mamma 支持常用检索语法在不同搜索引擎中的转换,还提供了专门检索页面文件标题的特殊检索服务,以及通过 E mail 传输检索结果的特色功能。检索结果以相关性排序,内容包括网页名称、 URL 、文摘、源搜索引擎。  

7 MetaCrawler http://www.metacrawler.com

1995 年由华盛顿大学推出, 1997 年被 InfoSpace 购买。支持调用 12 个独立搜索引擎,提供涵盖近 20 个 主题的目录检索服务。其检索特性非常丰富,包括常规检索、高级检索、定制检索、国家或地区的资源检索等检索服务模式。其中,高级检索模式可实现:搜索引擎 的选择调用,基于域名、地区或国家的检索结果过滤,最长检索时间设置,每页可显示的和允许每个搜索引擎返回的检索结果数量的设定,设定检索结果排序依据 (包括相关度、域名、源搜索引擎)等。以上内容均可作为定制检索的个性化选项并予以保存。另外,检索结果中包括一个以 1000 为最大值的相关度指标。

8 ByteSearch http://www.bytesearch.com

搜索速度快,可检索资源丰富,搜索范围包括 Web 、城市信息、公司名录、域名、 FTP 网站、多媒体、新闻组、包裹跟踪等,并提供新闻浏览、 URL 提交、最新的 20 个检索浏览、联机商店等内容方面的服务。支持完全匹配( All )、部分匹配( Any )、短语检索( Phrase )等特性检索功能,没有搜索引擎列表,不能控制源搜索引擎的选择。

9 SavvySearch ( http://savvy.cs.colostate.edu:2000/)

支持二十种语言 ( 不包括中文 ) ,可调用全部或任意几个搜索引擎,可选择每个搜索引擎返回结果的数目,可进行目录检索。

分享到:
评论

相关推荐

    给自己的网站集成搜索引擎收录查询功能

    标题 "给自己的网站集成搜索引擎收录查询功能" 描述了一个个人站长如何通过技术手段解决日常查询网站搜索引擎收录情况的繁琐工作。这一过程涉及到多个IT领域的知识点,包括网站开发、API接口利用、前端交互以及数据...

    国外搜索引擎大全!!!

    3. **Bing**:微软旗下的搜索引擎,以其在图像搜索、视频搜索和地图服务方面的优势著称,同时也与Windows操作系统深度集成。 4. **Ask Jeeves**:最初以问答形式的界面吸引用户,现在则提供传统的搜索服务,但仍然...

    qBittorrent Enhanced Edition v4.3.4.11(集成搜索引擎).zip

    qBittorrent,好用的免费开源BitTorrent客户端,磁力链接BT种子下载工具,支持资源搜索引擎插件、订阅Tracker服务器列表、BT文件做种分享、DHT网络及匿名隐私,采用Vuze兼容协议加密,IP过滤用的Ajax技术,兼容...

    [搜索链接]无极搜索引擎 v1.0_gss.zip

    - 示例代码或API接口,帮助开发者集成或扩展搜索引擎功能。 - 使用指南,指导用户如何配置、部署和使用无极搜索引擎。 - 测试报告,展示了搜索引擎的性能指标和测试结果。 - 用户手册,解答了常见问题,提供了操作...

    易语言搜索引擎集成

    在"易语言搜索引擎集成"这个主题中,我们主要探讨的是如何利用易语言来实现搜索引擎的功能集成。 搜索引擎集成涉及到的关键技术包括数据抓取、关键词提取、索引构建、查询处理以及结果排序等。首先,数据抓取是搜索...

    易语言源码易语言搜索引擎集成源码.rar

    易语言源码易语言搜索引擎集成源码.rar 易语言源码易语言搜索引擎集成源码.rar 易语言源码易语言搜索引擎集成源码.rar 易语言源码易语言搜索引擎集成源码.rar 易语言源码易语言搜索引擎集成源码.rar 易语言源码...

    元搜索引擎,VB源程序

    元搜索引擎是一种特殊的网络搜索工具,它并不直接存储信息,而是通过集成多个主流搜索引擎的结果,为用户提供一站式的信息检索服务。在VB(Visual Basic)编程环境中,我们可以构建这样的元搜索引擎,利用VB的网络...

    集合众多搜索引擎 第一搜索网站 万能超级搜索引擎V7.1

    标题中的“集合众多搜索引擎 第一搜索网站 万能超级搜索引擎V7.1”指的是一个集成多种搜索引擎功能的在线平台,可能是一个聚合型的搜索引擎工具,旨在提供一站式的搜索体验。这种工具通常会整合Google、Bing、百度等...

    Java搜索引擎

    6. **元搜索引擎集成**:元搜索引擎需要调用多个独立搜索引擎API,获取它们的结果。这涉及到API的调用频率限制、错误处理、结果融合等问题。融合策略可以是简单合并,也可以是基于某种评分机制的加权平均。 7. **...

    搜索引擎测试方法分析

    因此,功能测试还需要检验搜索引擎与前端应用之间的集成是否顺畅。这涉及到测试用户界面的搜索框是否能正确处理用户的输入,并将请求准确地发送到搜索引擎。同时,还需确认搜索引擎返回的结果能否被前端应用正确解析...

    ASP超级搜索程序!集成N中搜索引擎在线切换!直接词联想补全!可供学习~!

    而“so”文件在Windows环境下通常是动态链接库(DLL),在这个搜索程序中,可能提供了搜索算法或与搜索引擎API交互的特定功能模块。 对于有志于深入学习和研究ASP编程的开发者而言,ASP超级搜索程序不仅是一个学习...

    JAVA基于网络爬虫的搜索引擎设计与实现.pdf

    "JAVA基于网络爬虫的搜索引擎设计与实现" 本文档主要讨论了基于Java的网络爬虫搜索引擎的设计和实现。以下是从该文档中提炼出的相关知识点: 一、搜索引擎概述 * 搜索引擎是指通过网络爬虫或蜘蛛来收集、处理和...

    基于J2EE架构的智能元搜索引擎系统设计与实现

    ### 基于J2EE架构的智能元搜索引擎系统设计与实现 #### 一、引言 随着互联网的快速发展,信息量呈爆炸性增长,如何有效地获取所需信息成为了亟待解决的问题。传统的搜索引擎通过索引网页来提供搜索服务,但往往...

    网盘搜索引擎v1.3,网盘搜索引擎入口,PHP

    《全面解析:网盘搜索引擎v1.3与PHP技术应用》 网盘搜索引擎v1.3是一款高效且实用的在线工具,专为用户提供便捷的网盘资源搜索服务。这款程序的核心在于其基于PHP编程语言的实现,使得它能够对多个主流的网盘平台...

    仿百度搜索引擎PHP源码

    PHP是一种广泛使用的开源服务器端脚本语言,尤其适合于Web开发,能够与各种数据库系统集成,如MySQL,这在搜索引擎中非常重要,因为它们通常需要处理大量的数据存储和查询。"搜索引擎源码"则表明该系统包含了实现...

    群晖自带DS下载BT搜索引擎

    "TPB Syno Search" 和 "MP4BA" 可能是两种针对不同资源库的BT搜索引擎插件,它们被设计为与群晖的Download Station集成,帮助用户直接在Download Station内部搜索并添加BT任务。 安装这些搜索引擎插件的过程通常是...

    e语言-搜索引擎集成

    在这个项目中,易语言被用来编写代码,实现了与多个知名搜索引擎的接口对接,包括谷歌、百度、搜搜(已并入腾讯搜狗)、BING(微软的搜索引擎)和有道(网易的搜索引擎)。 搜索引擎集成的核心在于API调用。每个...

Global site tag (gtag.js) - Google Analytics