1、搜索引擎:一个网络应用软件系统,能够接受用户通过浏览器提交的关键字,在一个可接受的时间内返回一个和该用户查询匹配的网页信息列表,每个列表的每一条目至少包含三个元素,标题、网址链接、摘要。主要分为三个功能模块或者是三个子系统: 网页搜索、预处理和查询服务
2、搜集:网页搜集有两个思路:事先和即时。我们知道在网络比较畅通的情况,从网上下载一篇网页大约需要1秒左右,因此在用户查询时即时从网上抓来海量网页进行分析处理,不可能满足搜索引擎的即时响应的要求,系统整体效益也比较低。因此我们可以猜想到,大规模搜索引擎服务的基础应该是一批预先搜集好的网页。而这又会产生一个问题,预搜索的网页如何保持其时新性。对于这一批预先搜集好的网页同样也是需要进行维护更新的。主要有两种方式来进行维护
1)定期搜集:每次全量搜集,替换上一次的搜索。由于每次都重新进行搜索,开销比较大,对于大规模
引擎来说,每次搜集的时间通常都会花几周。如Google在一段时间曾是每隔28天一次。这种方式的优点
是简单,缺点是"时新性"不高,还有重复搜集所带来的额外带宽的消耗。
2)增量搜集:在原有的搜集结果上只搜集新出现的网页,修改过的网页,并将已经不存在的网页从库中
删除,事实上,很多网页的内容基本上都不变化。采用这种方式,在一般的网络条件下,半天也就搜集完
毕了,时新性也比较高。其缺点是系统实现比较复杂。
3、预处理:搜索引擎数据库中的页面太多,用户输入搜索,实现这么多页面的分析不可能在一两秒内返回
结果。预处理在很多资料被简称为索。可见其作用是用于加快搜索。主要包括
1)关键词提取:从HTML中提取关键词,并去掉召“的”,“呀”等没有内容意义的词,称为“停用词”
2)消除重复或转载的网页:对于相同内容的网页只保留一个
3)链接分析:顺着链接不断深入检索,在爬行页面的同时一并抓取内容
4)网页重要程序的计算:对搜索结果排名,返回用户比较满意的搜索内容,作为最终结果排序的部分
参数
4、服务查询:包括查询方式和匹配、结果排序、文档摘要
相关推荐
本文旨在介绍搜索引擎的基本概念,深入探讨其工作原理及类型,并分析当前搜索引擎的发展现状与未来趋势。此外,还将简要介绍主流的中文搜索引擎网站。 #### 搜索引擎的基本概念 搜索引擎是一种网络应用程序,它...
搜索引擎,它们通过自动爬取互联网上的网页,对网页内容进行分析和索引,然后当用户输入关键词时,根据索引中的信息返回最相关的搜索结果。这类搜索引擎的核心在于它们的索引技术和查询处理算法。 1. **索引技术**...
**搜索引擎技术介绍** 搜索引擎是互联网信息检索的核心工具,它的技术基于历史悠久的全文检索技术。搜索引擎这一术语可拆解为“搜”、“索”、“引擎”三个概念。“搜”指的是从互联网上抓取海量信息,包括网页内容...
搜索引擎是互联网上获取信息的关键工具,其基本工作原理主要包括三个主要步骤:抓取网页、处理网页和提供检索服务。搜索引擎的爬虫程序(Spider)通过网络中的超链接不断抓取网页,形成网页快照。抓取过程中,搜索...
#### 一、搜索引擎基本原理 1. **网页搜集过程**:搜索引擎首先需要通过爬虫程序自动抓取互联网上的网页内容。这些爬虫会从一个初始的URL列表开始,按照网页中的链接不断扩展抓取范围。此过程中涉及到的关键技术...
搜索引擎基本工作原理 搜索引擎基本工作原理是我们日常搜索应用和网站提交推广的关键所在。了解搜索引擎的工作原理可以帮助我们更好地理解搜索引擎的运作机制,从而提高我们的搜索应用和网站推广效果。 搜索引擎的...
**LUCENE搜索引擎基本工作原理** Lucene是一个开源的全文搜索引擎库,被广泛应用于构建复杂的搜索引擎系统。它的设计目标是高效、灵活且可扩展。理解Lucene的工作原理有助于开发人员更好地利用这一强大的工具。 **...
目录 前言第一章 引论 上篇 WEB搜索引擎基本原理和技术第二章 WEB搜索引擎工作原理和体系结构第三章 WEB信息的搜集第四章 对搜集信息的预处理第五章 信息查询服务 中篇 对质量和性能的追求第六章 可扩展搜集子系统...
#### 一、搜索引擎的基本概念 搜索引擎是互联网上提供自动搜索服务的一种工具,它能够帮助用户快速找到所需的信息资源。在实际应用中,搜索引擎的工作流程主要包括网页抓取(爬虫)、索引建立以及查询处理三个核心...
#### 一、搜索引擎基本原理 1. **工作流程:** - **网页搜集**:搜索引擎通过爬虫程序自动抓取互联网上的网页信息。 - **信息提取与组织**:对抓取的网页进行解析,提取文本内容和其他重要信息,并构建索引。 - ...
而“周恒_搜索引擎原理.ppt”可能涵盖了搜索引擎的基本概念、工作原理,以及谷歌搜索引擎的特点和技术细节。周恒教授是中国搜索引擎领域的重要研究者,他的讲解可能会从理论与实践两个层面深入剖析搜索引擎的工作...
一、搜索引擎的基本原理 搜索引擎的核心任务是抓取、索引和排名网页。首先,搜索引擎会通过网络爬虫程序(如Google的Googlebot)自动遍历互联网上的网页,这个过程称为网页抓取。然后,将抓取的网页内容进行预处理,...