`
mfcai
  • 浏览: 409113 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
阅读更多
1.为什么需要搜索引擎?
什么叫搜索引擎呢?Internet是一个巨大的信息资源宝库,几乎所有的Internet用户都希望宝库中的资源越来越丰富,使之应有尽有。每天都有新的主机被连接到Internet上,每天都有新的信息资源被增加到Internet中,使Internet中的信息以惊人的速度增长。然而Internet中的信息资源分散在无数台主机之中,如果用户想将所有主机中的信息都做一番详尽的考察,无异于大海捞针。那么用户如何在数百万个网站中快速有效地查找到想要得到的信息呢?这就要借助于Internet中的搜索引擎。

2.搜索引擎使用的信息检索技术
目前搜索引擎使用的信息检索技术主要有:Robot技术、索引技术、翻译技术、转换技术、过滤技术、数据库技术、结果处理技术等。
2.1Robot技术
搜索引擎通过蜘蛛机器人自动在选定的范围内进行检索,并将所检索到的信息自动标引导入数据库中
2.2翻译技术
翻译技术主要运用于跨语言搜索引擎工作过程。如下:
用户向系统提交检索词,形成一个源语言的搜索式,系统对搜索式进行语言识别,识别出语种后,就对进行提问式的词法分析和结构分析,然后把这个分析过的搜索式翻译成各种语言的搜索式,最后把这一系列的搜索式提交给系统进行检索就可以了。
2.3转换技术
转换技术主要针对中文繁简转换出理。如下:
大陆与台湾、香港的文化背景不同,因此形成的一些词汇方面的差异。例如:
大陆词汇 录像   知识产权 磁盘   新西兰  克林顿 硅谷  
台港词汇 录影   智慧财产权 磁碟   纽西兰  柯林顿  矽谷
搜索引擎应该根据自动判别词汇的繁简编码,转成相对应的词汇意思,然后进行检索
2.4过滤技术
搜索引擎通过“关键字过滤”等过滤技术对检索到的信息进行过滤、屏蔽。
2.5结果处理技术
结果处理技术主要是将检索到查询结果,进行去重、基本信息提取、排序等操作。



3.搜索引擎分类
3.1按信息的组织方式
按照信息的组织方式,一般把搜索引擎分为目录式分类搜索引擎,机器人搜索引擎,“混合型”搜索引擎
(1)目录式分类搜索引擎
录搜索引擎是通过人工方式进行资源搜集,且采取人工方式来进行网站描述。
参照分类法的思路,按照主题建立分类索引,形成一个树形等级式的分类体系结构,建立起一套既可搜索又可浏览的等级式主题分类目录,以

超文本链接方式把资源按不同类型划分成不同的目录,各类目录下面引出属于这一类别的网站名称和网址链接以及每个网站的内容简介
目前,对于中文网站来说,最重要的分类目录有以下几个:开放式目录ODP,Yahoo!,门户搜索引擎目录搜狐、网易、新浪。
。当用户查询某个关键词,系统会在这些描述中进行搜索。由于目录是依靠人工进行整理搜索的,而且只在保存的对站点的描述中进行搜索,

因此搜索范围较小,查全率较低,对偏僻主题、新兴学科、交叉学科不能很好地涵盖,类目间的交叉又会导致重复和资源浪费。另外,由于数

据库更新速度比较慢,站点本身的动态变化不能及时地反映到搜索结果中,严重影响了查询结果的时效性。
够提供更为准确的查询结果,但收集的内容却非常有限
(2)机器人搜索引擎
搜索引擎机器人(robots), 或者说是爬行程序(crawlers)、蜘蛛程序(spiders)。
机器人(robots)事实上是一个精心设计的网站爬行程序,依照网站的连接从一个网站游历到另一个网站。根据这种自动化程序,基于预先设计

好的网站排名标准及算法,对网站进行评估排名。
查全率,精确率
(3)“混合型”搜索引擎
提供分类浏览检索和关键词检索两种途径.目前,大多数引擎都采用这种方式。

3.2按支持的语言进行分类
目前国内用户使用的搜索引擎主要有两类:即英文引擎和中文引擎。
常用的英文搜索引擎包括google、Yahoo!、MSN、Infoseek等。
常用的中文搜索引擎主要有:中文google、一搜、3721、百度、中搜、搜狐搜狗、网易等。
传统中文引擎所采用的技术:
中文分词技术;
索引技术;
繁简转换;
关键词加亮;
热词提取;
词频分析;
新词发现;
更新频率;
新一代中文搜索引擎的技术特点:
海量级数据的精确搜索;
智能信息处理—基于语义理解的文本挖掘技术;

3.3垂直搜索引擎和普通的网页搜索引擎
垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。
   垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,而垂直搜索是以结构化数据为最小单位。然后将这些数据存储到数据库,进行进一步的加工处理,如:去重、分类等,最后分词、索引再以搜索的方式满足用户的需求。
  整个过程中,数据由非结构化数据抽取成结构化数据,经过深度加工处理后以非结构化的方式和结构化的方式返回给用户。
    垂直搜索引擎的应用方向很多,比如企业库搜索、供求信息搜索引擎、购物搜索、房产搜索、人才搜索、地图搜索、mp3搜索、图片搜索…

…几乎各行各业各类信息都可以进一步细化成各类的垂直搜索引擎。
    举个例子来说明会更容易理解,比如购物搜索引擎,整体流程大致如下:抓取网页后,对网页商品信息进行抽取,抽取出商品名称、价格、简介……甚至可以进一步将笔记本简介细分成“品牌、型号、CPU、内存、硬盘、显示屏、……”然后对信息进行清洗、去重、分类、分析比较、数据挖掘,最后通过分词索引提供用户搜索、通过分析挖掘提供市场行情报告。
   垂直搜索引擎大体上需要以下技术:
    网页结构化信息抽取技术或元数据采集技术
    分词、索引
    其他信息处理技术
   垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。



4.主流中文搜索引擎简介
4.1、Google简介
http://www.google.com
Google的成功得益于其强大的功能和独到的特点:

Google检索网页数量达24亿,搜索引擎中排名第一;
Google支持多达132种语言,包括简体中文和繁体中文;
Google网站只提供搜索引擎功能,没有花里胡哨的累赘;
Google速度极快,年初时据说有15000多台服务器,200多条T3级宽带;
Google的专利网页级别技术PageRank能够提供准确率极高的搜索结果;
Google智能化的“手气不错”功能,提供可能最符合要求的网站;
Google的“网页快照”功能,能从Google服务器里直接取出缓存的网页。

Google具有独到的图片搜索功能;
Google具有强大的新闻组搜索功能;
Google具有二进制文件搜索功能(PDF,DOC,SWF等);
Google还有很多尚在开发阶段的令人吃惊的设想和功能。

4.2、百度搜索
http://www.baidu.com
百度搜索引擎拥有目前世界上最大的中文搜索引擎,总量超过3亿页以上,并且还在保持快速的增长。百度搜索引擎具有高准确性、高查全率、更新快以及服务稳定的特点

4.3、雅虎中国
http://www.yahoo.com.cn
雅虎在全球共有24个网站,12种语言版本,其中雅虎中国网站(www.yahoo.com.cn)于1999年9月正式开通,它是雅虎在全球的第20个网站。
Yahoo!目录是一个Web资源的导航指南,包括14个主题大类的内容
支持中国用户完成包括英文在内的38种语言搜索
4.4、中国搜索
http://www.zhongsou.com/
中国搜索(原慧聪搜索)2002年正式进入中文搜索引擎市场,2003年8月24日慧聪搜索(现中国搜索)正式推出第三代智能中文搜索引擎.特点:
海量数据:超过2亿网页的中文信息库。
高速响应:检索平均响应时间不超过0.2秒,支持500次/秒高迸发量。
智能排序:非唯一主导因素的高级人工排序
行业分类:43个行业的分类,使搜索更加精准
具备第三代智能中文搜索引擎的特点


4.5、搜狗搜索
http://www.sogou.com/
搜狗是搜狐公司于2004年8月3日推出的完全自主技术开发的全球首个第三代互动式中文搜索引擎,是一个具有独立域名的专业搜索网站--“搜狗”。以一种人工智能的新算法,分析和理解用户可能的查询意图,给予多个主题的“搜索提示”,在用户查询和搜索引擎返回结果的人机交互过程中,引导用户更快速准确定位自己所关注的内容,帮助用户快速找到相关搜索结果,并可在用户搜索冲浪时,给与用户未曾意识到的主题提示。
搜狗搜索引擎的三大特点:
  海量:全球首个网页收录量达到100亿的中文搜索引擎
  及时:每天更新5亿网页,最新资讯最快1分钟即可被检索到
4.6、奇虎社区搜索引擎
http://www.qihoo.com/
特点:
奇虎社区搜索引擎是具备Web2.0特征的垂直搜索引擎
专著于社区搜索,增强与网民的互动,强调个性化搜索。

4.7、网易搜索引擎 (http://search.163.com/)
特点:
开放式目录管理系统(ODP)
拥有超过一万个类目,超过25万条活跃站点信息,
日增加新站点信息500~1000条,日访问量超过500万次
4.8、北京大学天网中英文搜索引擎
http://e.pku.edu.cn/
收录 135 万网页和 9 万新闻组文章,
支持电子邮件查询。
无分类查询。
不支持数字关键词和URL名检索。

4.9、Openfind搜索引擎
http://www.openfind.com.tw
Openfind创立于1998年1月,其技术源自台湾中正大学吴升教授所领导的GAIS实验室。Openfind起先只做中文搜索引擎,鼎盛时期同时为三大著名门户新浪、奇摩、雅虎提供中文搜索引擎,但2000年后市场逐渐被Baidu和Google瓜分。2002年6月,Openfind重新发布基于GAIS30 Project的Openfind搜索引擎Beta版,特点:
海量数据:宣布累计抓取网页35亿,
多元排序(PolyRankTM):使用者用可以不同标准来排序查询结果

分享到:
评论
1 楼 cnpollux 2008-02-25  
奇虎搜索是最烂的,分词还只是按两个字做为一个词来分

相关推荐

    中文搜索引擎源代码XunLong0.7

    《中文搜索引擎源代码XunLong0.7》是一款开源的搜索技术实现,旨在提供一个学习和研究中文信息检索的平台。这款源代码包含了搜索引擎的基本架构和功能,为开发者和研究者提供了深入理解搜索引擎工作原理的机会。 一...

    学术学位论文.搜索引擎专辑 10篇之一:Web数据挖掘和个性化搜索引擎研究.rar

    Web数据挖掘和个性化搜索引擎研究.rar Web搜索与Web缓存的若干关键问题研究.rar 基于Lucene的Web站内信息搜索系统.rar 基于多Agent的信息搜索引擎技术研究与应用.rar 基于多Agent的智能搜索引擎系统研究.rar 搜索...

    中文搜索引擎相关的几篇论文

    1. **智能中文搜索引擎若干关键技术的研究与实现**:这篇论文可能探讨了中文搜索引擎的智能化特性,包括自动分词、关键词提取、用户意图理解等技术。智能搜索通过深度学习和自然语言理解,提升搜索结果的相关性和...

    迅龙中文Web搜索引擎(.NET)-开源的搜索引擎程序C#编写

    《迅龙中文Web搜索引擎——基于.NET的开源实现详解》 迅龙中文Web搜索引擎是一款由C#编程语言编写的开源搜索引擎程序,它为开发者提供了一种高效、易用的方式来实现中文网页的索引与检索功能。这款软件的核心在于其...

    走进搜索引擎.pdf

    本书由搜索引擎开发研究领域年轻而有活力的科学家精心编写,作者将自己对搜索引擎的深刻理解和实际应用巧妙地结合,使得从未接触过搜索引擎原理的读者也能够轻松地在搜索引擎的大厦中遨游一番。 编辑推荐编辑 《走进...

    国外搜索引擎大全!!!

    总结来说,了解和掌握不同国家和地区的搜索引擎可以帮助用户在全球范围内获取信息,无论是学术研究还是日常生活,都能从中受益。在使用时,结合特定的搜索技巧,可以进一步提高搜索质量和效率。

    heritrix与Lucene的垂直搜索引擎研究

    对于中文搜索引擎而言,中文分词是必不可少的一个步骤,因为它直接影响到索引的建立和搜索的效果。在垂直搜索引擎中,中文分词的质量决定了搜索结果的相关性和准确性。 ### 5. 垂直搜索引擎关键技术 #### 网页爬虫...

    中文搜索引擎开发利用策略研究

    ### 中文搜索引擎开发利用策略研究 #### 摘要与背景 本文基于当前国内外搜索引擎存在的问题,探讨了中文搜索引擎的开发与利用策略。随着互联网技术的迅速发展,搜索引擎已成为获取网络信息资源的重要工具。然而,...

    搜索引擎源代码中国搜搜索引擎

    综上所述,中国搜搜索引擎的源代码研究涵盖了网络爬虫、信息处理、索引构建、查询处理等多个关键领域,这些技术是所有搜索引擎的核心组成部分。通过深入学习和理解,我们可以更好地构建和优化中文搜索引擎,提升用户...

    垂直搜索引擎的研究与设计

    中文分词对于垂直搜索引擎尤为重要,因为它直接影响到后续的索引构建和检索效果。 ##### 2.3 索引建立 索引是快速检索的基础。垂直搜索引擎通常采用倒排索引技术,它可以高效地处理大量文档。索引建立的过程包括...

    基于Python的校园网搜索引擎研究.pdf

    同时,通过改进Whoosh的中文分词效果和Scrapy爬虫的URL去重功能,探索性地研究了Linux平台下面向校园网的搜索引擎。通过对相关技术的分析和应用,本研究为数字化校园的信息检索提供了一种新的解决方案,具有较高的...

    百度google综合搜索引擎源码

    【标题】:“百度google综合搜索引擎源码”涉及的是搜索引擎技术的整合与开发,...通过对"ika"这个压缩包中的源码进行深入研究,开发者不仅可以了解搜索引擎的内部运作,还能从中获取灵感,改进现有的搜索引擎服务。

    中文垂直搜索引擎技术研究初稿

    【中文垂直搜索引擎技术研究】 中文垂直搜索引擎是一种针对特定领域或主题的专业搜索引擎,旨在提供更为精确、深入的信息检索服务。与通用搜索引擎相比,垂直搜索引擎在实时性、个性化和社会化方面具有优势,尤其...

Global site tag (gtag.js) - Google Analytics