`
gaowenming
  • 浏览: 168736 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

全文检索的基本过程

阅读更多

我们生活中的数据总体分为两种:结构化数据和非结构化数据。
• 结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等。
• 非结构化数据:指不定长或无固定格式的数据,如邮件,word文档等。
当然有的地方还会提到第三种,半结构化数据,如XML,HTML等,当根据需要可按结构化数据来处理,也可
抽取出纯文本按非结构化数据来处理。
非结构化数据又一种叫法叫全文数据。
按照数据的分类,搜索也分为两种:
对结构化数据的搜索 :如对数据库的搜索,用SQL语句。再如对元数据的搜索,如利用windows搜索对
文件名,类型,修改时间进行搜索等。
对非结构化数据的搜索 :如利用windows的搜索也可以搜索文件内容,Linux下的grep命令,再如用
Google和百度可以搜索大量内容数据

全文检索大体分两个过程,索引创建(Indexing)和搜索索引(Search)
• 索引创建:将现实世界中所有的结构化和非结构化数据提取信息,创建索引的过程。
• 搜索索引:就是得到用户的查询请求,搜索创建的索引,然后返回结果的过程。

全文检索的索引创建过程一般有以下几步:

1:准备待索引的原文档(Document)


2:将原文档传给分次组件(Tokenizer)。
分词组件(Tokenizer)会做以下几件事情(此过程称为Tokenize):
1. 将文档分成一个一个单独的单词。
2. 去除标点符号。
3. 去除停词(Stop word)。

经过分词(Tokenizer)后得到的结果称为词元(Token)。


3:将得到的词元(Token)传给语言处理组件(Linguistic Processor)。

对于英语,语言处理组件(Linguistic Processor)一般做以下几点:
1. 变为小写(Lowercase)。
2. 将单词缩减为词根形式,如“cars”到“car”等。这种操作称为:stemming。
3. 将单词转变为词根形式,如“drove”到“drive”等。这种操作称为:lemmatization。

语言处理组件(linguistic processor)的结果称为词(Term)。


4:将得到的词(Term)传给索引组件(Indexer)。

索引组件(Indexer)主要做以下几件事情:
1. 利用得到的词(Term)创建一个字典。
2、对字典按字母顺序进行排序。

3. 合并相同的词(Term)成为文档倒排(Posting List)链表。

下面是lucene的原理过程

1. 索引过程:
1) 有一系列被索引文件
2) 被索引文件经过语法分析和语言处理形成一系列词(Term)。
3) 经过索引创建形成词典和反向索引表。
4) 通过索引存储将索引写入硬盘。
2. 搜索过程:
a) 用户输入查询语句。
b) 对查询语句经过语法分析和语言分析得到一系列词(Term)。
c) 通过语法分析得到一个查询树。
d) 通过索引存储将索引读入到内存。
e) 利用查询树搜索索引,从而得到每个词(Term)的文档链表,对文档链表进行交,差,并得到结果文档。
f) 将搜索到的结果文档对查询的相关性进行排序。
g) 返回查询结果给用户。

分享到:
评论

相关推荐

    信息检索基本原理与数据库全文检索技术

    本主题主要探讨了信息检索的基本原理和技术,以及数据库全文检索的实现方法。 信息检索模型是实现信息检索的核心,包括布尔模型、向量模型、概率模型等。布尔模型基于逻辑运算符(如AND, OR, NOT)来组合查询,判断...

    Lucene.Net 实现全文检索

    首先,我们需要理解全文检索的基本概念。全文检索是指在文档集合中,根据用户输入的查询词,查找包含这些词的文档。与传统的关键词搜索不同,全文检索不仅考虑单个词汇,还考虑词汇的相关性和上下文,提供更精确的...

    Lucene全文检索引擎

    **Lucene全文检索引擎** Lucene是Apache软件基金会的一个开源项目,它是一个高性能、全文本搜索引擎库,可以被集成到各种应用中实现全文检索功能。Lucene提供了完整的搜索功能实现,包括索引创建、文档存储、查询...

    office文件全文检索

    首先,我们需要了解全文检索的基本原理。全文检索通常包括索引构建、查询处理和结果展示三个阶段。索引构建是将文档内容转换为可搜索的索引结构,如倒排索引;查询处理是根据用户输入的关键字,在索引中寻找匹配的...

    手把手教你SQLserver2008全文检索使用方法

    ### 手把手教你SQL Server 2008全文检索使用方法 ...以上步骤和示例详细介绍了如何在SQL Server 2008中启用和使用全文检索功能。通过这些步骤,你可以有效地管理和搜索包含大量文本信息的数据库。

    C# Winfrom 模拟字符串全文检索

    首先,我们需要理解全文检索的基本原理。全文检索是指在文本数据中查找包含特定词汇或短语的所有位置。它通常通过建立索引来提高搜索效率,索引包含了文档中所有词汇的位置信息。在C#中,我们可以使用各种数据结构,...

    简单实用的全文检索模块

    首先,让我们了解全文检索的基本原理。全文检索系统通常包括以下几个关键部分:索引构建、查询解析、排名以及结果展示。索引构建是将原始文档转化为高效检索的数据结构,如倒排索引;查询解析则是将用户输入的查询...

    lucene全文检索简单索引和搜索实例

    《Lucene全文检索:简单...通过理解其基本概念和操作流程,开发者可以灵活地构建符合需求的全文检索系统。在实际应用中,我们还需要关注性能优化、查询复杂性和用户体验等方面,以实现更高效、准确和友好的搜索功能。

    SQL_Server_2005全文检索技术

    SQL Server 2005全文检索技术的实施步骤包括创建全文目录、建立全文索引、配置和优化全文搜索,以及维护和更新索引以保持与数据库数据的一致性。在实际应用中,还需要结合T-SQL的全文搜索语法,如`CONTAINS`和`...

    使用lucene全文检索数据库

    **使用Lucene全文检索数据库** Lucene是一个高性能、全文本搜索库,由Apache软件基金会开发。它是Java编写的,能够帮助开发者在各种应用程序中实现强大的全文检索功能。在这个项目中,我们将探讨如何利用Lucene ...

    全文检索系统(Lucene)

    **全文检索系统与Lucene** 全文检索系统是一种用于在大量文本数据中快速查找相关信息的工具。它通过索引文本中的关键词来实现高效的搜索性能,使得用户可以输入任意词汇或短语,系统能在短时间内返回最相关的文档。...

    Lucene4 全文检索

    **Lucene4 全文检索详解** Lucene4 是 Apache 软件基金会的一个开源全文检索库,它为开发者提供了强大的文本搜索功能。作为一个高级的搜索引擎工具包,Lucene4 提供了完整的索引和搜索机制,使得在文件和数据库中...

    lucene全文检索全面教程

    文档是信息的基本单元,字段是文档的组成部分,索引是预处理后的数据结构,用于快速查找匹配的文档,查询是用户输入的搜索条件,而搜索则是根据查询返回相关文档的过程。 2. **架构**:Lucene包含三个主要组件:...

    基于Lucene的全文检索引擎研究与应用.pdf

    本文将基于一篇关于“基于Lucene的全文检索引擎研究与应用”的论文,深入探讨全文检索的基本原理、Lucene系统的结构特点以及其实现的应用案例。 #### 全文检索概述 全文检索是一种信息检索方式,它能够根据文档中...

Global site tag (gtag.js) - Google Analytics