`

搜索引擎 数据结构

阅读更多
搜索引擎的存储结构

四种基本存储方法:
一: 顺序存储方法
     很高的扫描速度,但随机存取速度低.

二:链接存储
     提高存储空间利用率,扫描效率好低.

三:索引存储
    索引表由若干索引项组成.索引项的一般形式是关键字,地址.
    此方法是搜索引擎最常用的方法.

    keyA | 地址   ------------->数据


四:散列存储
    根据节点的关键字直接计算出该节点的存储地址.
  

-----------------------------------------------------------------
索引: 在文件本身(称作数据区)之外建立起来的能够指示逻辑记录和物理记录之间一一对应关系的表称为索引表.

倒序索引:(搜索引擎的核心) 建立倒排索引就如同写一本书的目录一样.

   1.普通文件的形式形式1)
     DOC --> 关键字1 , 关键字2 , ...
     这个表示一个文档DOC由许多的关键字组成.
   2.倒排索引就是将此过程翻转过来(形式2)
      关键字1 ,关键字2 ... -->DOC

   搜索引擎就是将形式1变成形式2 ,并且对关键字及DOC进行归并.


搜索引擎会索引上亿篇文档,如此之多的文档会包含非常多的关键词.所以往往倒排序索引比较大,还需要一种特殊的分开存储的结构!  
分享到:
评论

相关推荐

    微型搜索引擎 数据结构练习

    微型搜索引擎的实现是一个复杂而有趣的过程,涉及到多种关键的数据结构和算法。在这个数据结构练习中,我们将重点关注B树、堆栈、字符串等基础概念,并利用它们构建一个基础的搜索引擎。 首先,我们要理解**B树(B-...

    搜索引擎技术之数据结构

    ### 搜索引擎技术之数据结构 #### 一、引言 搜索引擎作为互联网时代的重要组成部分,其背后的算法和技术一直是计算机科学领域的研究热点。本文将重点探讨搜索引擎中的数据结构及其原理,通过对核心概念的理解,...

    搜索引擎技术教程 搜索引擎技术分享 搜索引擎技术之数据结构 共21页.pdf

    搜索引擎技术教程 搜索引擎技术分享 搜索引擎技术之数据结构 共21页.pdf

    电子商务搜索引擎体系结构

    电子商务搜索引擎的体系结构设计涉及到多个层面,包括数据采集、索引构建、查询处理、结果排序以及用户体验优化等。 1. **数据采集**:这是搜索引擎工作的第一步,涉及从各种电子商务网站抓取产品信息、用户评论、...

    天网搜索引擎的数据结构

    文章详细讲述了北京大学天网搜索引擎的数据结构

    搜索引擎-传统搜索引擎与智能搜索引擎比较研究.pdf

    本研究通过比较传统搜索引擎和智能搜索引擎的结构、原理和关键技术,旨在探讨这两种搜索引擎之间的差异和联系,并对搜索引擎的发展作出预测。通过对比分析,我们可以更好地理解搜索引擎的发展过程,并为搜索引擎的...

    C++搜索引擎Clucene源码

    Clucene的设计目标是提供快速、可扩展的文本检索功能,它采用了倒排索引(Inverted Index)这一经典的搜索引擎数据结构,使得搜索操作可以高效地在大量文本数据中进行。 首先,我们来看看倒排索引。倒排索引是一种...

    『搜索引擎』索引数据结构和算法.pdf

    搜索引擎索引数据结构和算法 搜索引擎索引数据结构和算法是搜索引擎的核心组件,其主要作用是快速高效地检索和匹配用户查询请求与文档集合之间的相关关系。为了实现这个目标,搜索引擎需要设计和实现一个高效的索引...

    走进搜索引擎.pdf

    梁斌毕业于南京大学,获得软件工程硕士学位,曾经发表过多篇论文,获得1项国家专利,作者主要的兴趣方向包括数据挖掘、Wed挖掘、搜索引擎和软件工程等,目前在清华大学信息科学与技术国家实验室从事搜索引擎相关研究...

    《集体智慧编程》第四章 搜索引擎数据集

    《集体智慧编程》一书第四章探讨的主题是搜索引擎数据集,这一章主要涵盖了搜索引擎背后的基础原理、数据结构以及处理大规模信息的关键技术。在互联网时代,搜索引擎已成为获取信息的重要工具,而构建一个高效的搜索...

    搜索引擎的结构

    预处理后的信息会被构建到索引库中,索引库是一个高效的数据结构,用于存储和检索网页。索引包括了词汇表和指向网页的指针,这样当用户输入查询时,搜索引擎能迅速找到包含这些词汇的网页。 五、查询处理(Query ...

    53丨算法实战(二):剖析搜索引擎背后的经典数据结构和算法1

    在构建搜索引擎的过程中,数据结构和算法起着至关重要的作用。搜索引擎可以被分为四个主要部分:搜集、分析、索引和查询。以下是对这些步骤的详细解释以及涉及的关键数据结构和算法: 1. **搜集**: - **广度优先...

    数据结构的pdf课件

    5. **高级数据结构**:如堆、哈希表、Trie树、B树和B+树等,这些数据结构在数据库、搜索引擎等领域有着广泛应用。课件会解释它们的设计原理和优化策略。 6. **算法设计和分析**:除了具体的数据结构,课件还会教授...

    搜索引擎源代码中国搜搜索引擎

    搜索引擎是互联网上用于查找信息的核心技术,其核心在于通过复杂的算法和数据处理,为用户提供最相关、最准确的搜索结果。"中国搜搜索引擎"是针对中文用户设计的一种搜索引擎,旨在提供高效、精准的中文搜索服务。在...

    一个文本搜索引擎的实现

    在这个项目中,我们关注的是一个用C++语言实现的文本搜索引擎,这可能是针对南大数据结构课程的期末大作业。 一、文本搜索引擎的基础原理 1. 文本预处理:在建立搜索引擎之前,首先需要对文本进行预处理,包括分词...

    搜猫搜索引擎源码|仿百度搜索引擎源码

    此外,倒排索引是一种常用的数据结构,便于快速查询关键词。 4. **自然语言处理**:搜索引擎需要理解用户输入的查询,进行分词、消除停用词、词性还原等预处理。这涉及jieba分词库、NLTK或Stanford NLP等工具。 5....

    自己手动写搜索引擎

    1. **大数据处理**:随着互联网的膨胀,搜索引擎需要处理的数据量巨大,如何快速高效地处理和索引海量信息是一项挑战。 2. **语义搜索**:理解用户的真正意图,提供更加精准的搜索结果,需要自然语言处理和机器学习...

Global site tag (gtag.js) - Google Analytics