`
HWL_SZ
  • 浏览: 53693 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

搜索引擎基本原理

 
阅读更多

1、搜索引擎:一个网络应用软件系统,能够接受用户通过浏览器提交的关键字,在一个可接受的时间内返回一个和该用户查询匹配的网页信息列表,每个列表的每一条目至少包含三个元素,标题、网址链接、摘要。主要分为三个功能模块或者是三个子系统: 网页搜索、预处理和查询服务

 

2、搜集:网页搜集有两个思路:事先和即时。我们知道在网络比较畅通的情况,从网上下载一篇网页大约需要1秒左右,因此在用户查询时即时从网上抓来海量网页进行分析处理,不可能满足搜索引擎的即时响应的要求,系统整体效益也比较低。因此我们可以猜想到,大规模搜索引擎服务的基础应该是一批预先搜集好的网页。而这又会产生一个问题,预搜索的网页如何保持其时新性。对于这一批预先搜集好的网页同样也是需要进行维护更新的。主要有两种方式来进行维护

 

    1)定期搜集:每次全量搜集,替换上一次的搜索。由于每次都重新进行搜索,开销比较大,对于大规模

     引擎来说,每次搜集的时间通常都会花几周。如Google在一段时间曾是每隔28天一次。这种方式的优点

     是简单,缺点是"时新性"不高,还有重复搜集所带来的额外带宽的消耗。

 

    2)增量搜集:在原有的搜集结果上只搜集新出现的网页,修改过的网页,并将已经不存在的网页从库中

     删除,事实上,很多网页的内容基本上都不变化。采用这种方式,在一般的网络条件下,半天也就搜集完

     毕了,时新性也比较高。其缺点是系统实现比较复杂。

 

3、预处理:搜索引擎数据库中的页面太多,用户输入搜索,实现这么多页面的分析不可能在一两秒内返回

     结果。预处理在很多资料被简称为索。可见其作用是用于加快搜索。主要包括

 

    1)关键词提取:从HTML中提取关键词,并去掉召“的”,“呀”等没有内容意义的词,称为“停用词”

   

    2)消除重复或转载的网页:对于相同内容的网页只保留一个

  

    3)链接分析:顺着链接不断深入检索,在爬行页面的同时一并抓取内容

 

    4)网页重要程序的计算:对搜索结果排名,返回用户比较满意的搜索内容,作为最终结果排序的部分

       参数

 

4、服务查询:包括查询方式和匹配、结果排序、文档摘要

0
2
分享到:
评论

相关推荐

    搜索引擎 工作原理

    本文旨在介绍搜索引擎的基本概念,深入探讨其工作原理及类型,并分析当前搜索引擎的发展现状与未来趋势。此外,还将简要介绍主流的中文搜索引擎网站。 #### 搜索引擎的基本概念 搜索引擎是一种网络应用程序,它...

    搜索引擎基本原理和算法介绍

    搜索引擎,它们通过自动爬取互联网上的网页,对网页内容进行分析和索引,然后当用户输入关键词时,根据索引中的信息返回最相关的搜索结果。这类搜索引擎的核心在于它们的索引技术和查询处理算法。 1. **索引技术**...

    搜索引擎技术介绍 介绍搜索引擎各方面技术的基本原理

    **搜索引擎技术介绍** 搜索引擎是互联网信息检索的核心工具,它的技术基于历史悠久的全文检索技术。搜索引擎这一术语可拆解为“搜”、“索”、“引擎”三个概念。“搜”指的是从互联网上抓取海量信息,包括网页内容...

    搜索引擎基本工作原理.pdf

    搜索引擎是互联网上获取信息的关键工具,其基本工作原理主要包括三个主要步骤:抓取网页、处理网页和提供检索服务。搜索引擎的爬虫程序(Spider)通过网络中的超链接不断抓取网页,形成网页快照。抓取过程中,搜索...

    搜索引擎——原理、技术与系统

    #### 一、搜索引擎基本原理 1. **网页搜集过程**:搜索引擎首先需要通过爬虫程序自动抓取互联网上的网页内容。这些爬虫会从一个初始的URL列表开始,按照网页中的链接不断扩展抓取范围。此过程中涉及到的关键技术...

    搜索引擎基本工作原理

    搜索引擎基本工作原理 搜索引擎基本工作原理是我们日常搜索应用和网站提交推广的关键所在。了解搜索引擎的工作原理可以帮助我们更好地理解搜索引擎的运作机制,从而提高我们的搜索应用和网站推广效果。 搜索引擎的...

    搜索引擎——原理、技术与系统(附作者课堂录音及讲稿)

    目录 前言第一章 引论 上篇 WEB搜索引擎基本原理和技术第二章 WEB搜索引擎工作原理和体系结构第三章 WEB信息的搜集第四章 对搜集信息的预处理第五章 信息查询服务 中篇 对质量和性能的追求第六章 可扩展搜集子系统...

    搜索引擎(原理,技术与系统)

    我们将从基本概念开始,逐步深入到搜索引擎的技术细节中。我们还将讨论搜索引擎的应用和发展趋势,以便读者能够更好地理解搜索引擎的原理和技术。 搜索引擎的工作原理可以分为三个方面:信息采集、信息索引和信息...

    搜索引擎相关原理资料

    #### 一、搜索引擎基本原理 1. **工作流程:** - **网页搜集**:搜索引擎通过爬虫程序自动抓取互联网上的网页信息。 - **信息提取与组织**:对抓取的网页进行解析,提取文本内容和其他重要信息,并构建索引。 - ...

    Google搜索引擎原理

    《Google搜索引擎原理》这篇文章探讨了Google搜索引擎的设计与实现,它是搜索引擎领域的里程碑之作,特别适合初学者了解搜索引擎的基本概念和技术挑战。Google搜索引擎在处理超文本信息方面表现出色,其索引的网页...

    搜索引擎基本工作原理.docx

    搜索引擎基本工作原理.docx搜索引擎基本工作原理.docx搜索引擎基本工作原理.docx搜索引擎基本工作原理.docx搜索引擎基本工作原理.docx搜索引擎基本工作原理.docx搜索引擎基本工作原理.docx搜索引擎基本工作原理.docx

    搜索引擎原理.rar

    而“周恒_搜索引擎原理.ppt”可能涵盖了搜索引擎的基本概念、工作原理,以及谷歌搜索引擎的特点和技术细节。周恒教授是中国搜索引擎领域的重要研究者,他的讲解可能会从理论与实践两个层面深入剖析搜索引擎的工作...

    搜索引擎 搜索引擎原理

    ### 搜索引擎原理详解 #### 一、搜索引擎概述 搜索引擎是一种在网络上快速检索信息的重要工具,其核心在于如何高效地从海量网页中筛选出与用户需求相匹配的结果。本书《搜索引擎:原理、技术与系统》全面介绍了...

    搜索引擎原理、实践与应用

    一、搜索引擎的基本原理 搜索引擎的核心任务是抓取、索引和排名网页。首先,搜索引擎会通过网络爬虫程序(如Google的Googlebot)自动遍历互联网上的网页,这个过程称为网页抓取。然后,将抓取的网页内容进行预处理,...

    搜索引擎-原理、技术与系统.pdf

    ##### 上篇:搜索引擎基本工作原理 - **网页的搜集过程**:介绍了搜索引擎如何在网络上爬取网页,并将其存储在数据库中。 - **网页信息的提取与组织**:探讨了如何从网页中提取有用的信息,并对其进行有效的组织,...

    搜索引擎-原理、技术与系统

    本书分为三个部分,从基本的工作原理入手,逐步深入到具体的实现细节,并探讨了大规模分布式搜索引擎系统的构建。 #### 二、搜索引擎的基本工作原理 搜索引擎的核心任务是收集互联网上的信息,并将这些信息进行...

    搜索引擎:原理、技术与系统.rar

    首先,搜索引擎的基本工作流程可以概括为"爬取-索引-排序"三个阶段。在爬取阶段,搜索引擎通过网络爬虫程序自动遍历互联网上的网页,发现新的和更新的内容。这些爬虫遵循网站的链接结构,从已知页面出发,不断发现新...

    一本讲搜索引擎原理的书

    通过学习本书,读者不仅可以掌握搜索引擎的基本原理和技术,还能了解到其实现过程中的难点和解决方案,为后续的实际应用打下坚实的基础。 综上所述,《搜索引擎:原理、技术与系统》是一本全面介绍搜索引擎相关知识...

    基于Ruby+Java搜索引擎原理与实现

    《基于Ruby+Java搜索引擎原理与实现》是一部深入探讨搜索引擎技术的书籍,虽然只涵盖了前三个章节,但已足以让我们对搜索引擎的基本运作有初步的理解。在本文中,我们将围绕Ruby和Java这两种编程语言如何应用于搜索...

Global site tag (gtag.js) - Google Analytics