`
xtugtf
  • 浏览: 26134 次
  • 性别: Icon_minigender_1
  • 来自: 武汉
社区版块
存档分类
最新评论

搜索引擎—原理、技术与系统

阅读更多

     前天学了一下lucene,感觉自己这方面的理论知识太欠缺了,所以又去下载了《搜索引擎—原理、技术与系统》这本电子看一下,补补相关原理性的东西,以便日后用lucene不至于那么迷惑。

  把今天的看的点知识,挑重要的记下来。

  1)搜索引擎是什么?

  “搜索引擎”,说到底是一个计算机应用软件系统,或者说是一个网络应用软件系统。

  网络搜索引擎:它根据用户提交的类自然语言查询词或者短语,返回一系列很可能与该查询相关的网页信息,供用户进一步判断和选取。(全引自《搜索引擎—原理、技术与系统》,呵呵,没有进行任何提炼)。

 

  2)网络搜索引擎的主要组成

  主要分为三个子系统:网页搜集,预处理和查询服务。

 

  3)网络搜索返回的主要结果

   最终提供给用户的是:三个元素(标题<title></title>,网址链接URL,摘要)结果集列表。

      “在一个可以接受的时间内返回一个和该用户查询匹配的网页信息列表”,强调:可以接受的时间匹配列表(需要rank).

 

    4)三个子系统的基本策略

  (1)网页搜集:提前抓取(crawl)-策略:定期搜集或增量搜集或折中。

   具体搜集:主动链接深度递归遍历求异收集或链接的宽度求异收集或折中。

  

  (2)预处理:关键词的提取,重复或转载网页的消除,链接分析,网页重要程度的计算。

  

  (3)查询服务:查询方式和匹配,结果排序,文档摘要。

     已得到了网页索引数据库:原始网页文档,URL和标题,编号,所含的重要关键词的集合(以及它们在文档中出现的位置信息),其他一些指标(例如重要程度,分类代码等)-倒排文件结构的索引数据库。

 

 

 

分享到:
评论

相关推荐

    搜索引擎原理技术与系统

    ### 搜索引擎原理技术与系统 #### 一、搜索引擎基础知识 **搜索引擎**是一种网络应用程序,其主要功能是在互联网上搜集信息,并将这些信息进行索引和排序,以便于用户能够快速找到所需的内容。《搜索引擎原理技术...

    搜索引擎 原理 技术与系统

    搜索引擎是互联网信息获取的核心工具,其原理、技术和系统构建是计算机科学中的重要研究领域。本文将深入探讨搜索引擎的几个关键方面:信息检索理论、爬虫技术、索引构建、查询处理与排序、以及用户交互体验。 一、...

    搜索引擎:原理、技术与系统.rar

    本篇文章将深入探讨搜索引擎的原理、技术和系统,帮助你理解这些大型信息检索系统的运作机制。 首先,搜索引擎的基本工作流程可以概括为"爬取-索引-排序"三个阶段。在爬取阶段,搜索引擎通过网络爬虫程序自动遍历...

    搜索引擎--原理、技术与系统

    《搜索引擎--原理、技术与系统》是一份深入探讨搜索引擎核心概念、技术和系统的资源。这份50.5MB的压缩包包含了一份PDF文档,为读者揭示了互联网信息检索的关键环节。 搜索引擎是互联网上不可或缺的信息获取工具,...

    搜索引擎—_原理、技术与系统 包括tse源代码

    搜索引擎是互联网信息检索的核心工具,其工作原理、技术与系统构建是计算机科学中的重要领域。本文将深入探讨搜索引擎的基本概念,关键技术和系统架构,并结合"TSE"搜索引擎的源代码进行解析,以帮助读者理解实际的...

    SEO搜索引擎原理技术与系统以及搜索引擎优化基础

    本书比较系统地介绍了互联网搜索引擎的工作原理、实现技术及其系统构建方案。全书分三篇共13章内容,从基本工作原理概述开始,到一个小型简单搜索引擎实现的具体细节,进而详细讨论了大规模分布式搜索引擎系统的设计...

    搜索引擎-原理、技术与系统(附课堂录音及讲稿).part1

    搜索引擎-原理、技术与系统,还包括一个课堂录音及讲稿,第一部分

    搜索引擎-原理技术与系统PDF

    《搜索引擎:原理、技术与系统》是一本深入探讨搜索引擎核心概念、技术和实现的权威书籍。这本书涵盖了搜索引擎的各个方面,从基础理论到实际操作,旨在帮助读者理解并掌握搜索引擎的工作原理和构建方法。以下是对该...

Global site tag (gtag.js) - Google Analytics