Lucene学习总结之二：Lucene的总体架构 - 赵伊凡's Blog已搬家 http://irfen.me - ITeye博客

`

irfen

浏览: 204582 次
性别:
来自: 北京

最近访客更多访客>>

xietian_88888

dongguangming88

jibaojie

liduke1020

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

chenxliang： 10月26、27日，上海浦东，Postgres中国用户大会20 ...
postgres psql命令手册
13511079747： daniaowansui 写道为什么这么多人都踩？应该是写的太 ...
Java泛型的实现原理
Doublecqw：作者的这种写法.我也想到过.不过效率太低.你们可以测下.
Spring 注入静态变量解决方案（之我见）
daniaowansui：为什么这么多人都踩？
Java泛型的实现原理
huangyufa123： firefly.li 写道不用这么麻烦，注入静态变量时，set ...
Spring 注入静态变量解决方案（之我见）

Lucene学习总结之二：Lucene的总体架构

博客分类：

全文检索

java Lucene 全文检索

阅读更多

Lucene总的来说是：

一个高效的，可扩展的，全文检索库。
全部用Java实现，无须配置。
仅支持纯文本文件的索引(Indexing)和搜索(Search)。
不负责由其他格式的文件抽取纯文本文件，或从网络中抓取文件的过程。

在Lucene in action中，Lucene 的构架和过程如下图，

说明Lucene是有索引和搜索的两个过程，包含索引创建，索引，搜索三个要点。

让我们更细一些看Lucene的各组件：

被索引的文档用Document对象表示。
IndexWriter通过函数addDocument将文档添加到索引中，实现创建索引的过程。
Lucene的索引是应用反向索引。
当用户有请求时，Query代表用户的查询语句。
IndexSearcher通过函数search搜索Lucene Index。
IndexSearcher计算term weight和score并且将结果返回给用户。
返回给用户的文档集合用TopDocsCollector表示。

那么如何应用这些组件呢？

让我们再详细到对Lucene API 的调用实现索引和搜索过程。

索引过程如下：
- 创建一个IndexWriter用来写索引文件，它有几个参数，INDEX_DIR就是索引文件所存放的位置，Analyzer便是用来对文档进行词法分析和语言处理的。
- 创建一个Document代表我们要索引的文档。
- 将不同的Field加入到文档中。我们知道，一篇文档有多种信息，如题目，作者，修改时间，内容等。不同类型的信息用不同的Field来表示，在本例子中，一共有两类信息进行了索引，一个是文件路径，一个是文件内容。其中FileReader的SRC_FILE就表示要索引的源文件。
- IndexWriter调用函数addDocument将索引写到索引文件夹中。
搜索过程如下：
- IndexReader将磁盘上的索引信息读入到内存，INDEX_DIR就是索引文件存放的位置。
- 创建IndexSearcher准备进行搜索。
- 创建Analyer用来对查询语句进行词法分析和语言处理。
- 创建QueryParser用来对查询语句进行语法分析。
- QueryParser调用parser进行语法分析，形成查询语法树，放到Query中。
- IndexSearcher调用search对查询语法树Query进行搜索，得到结果TopScoreDocCollector。

以上便是Lucene API函数的简单调用。

然而当进入Lucene的源代码后，发现Lucene有很多包，关系错综复杂。

然而通过下图，我们不难发现，Lucene的各源码模块，都是对普通索引和搜索过程的一种实现。

此图是上一节介绍的全文检索的流程对应的Lucene实现的包结构。(参照http://www.lucene.com.cn/about.htm中文章《开放源代码的全文检索引擎Lucene》)

Lucene的analysis模块主要负责词法分析及语言处理而形成Term。
Lucene的index模块主要负责索引的创建，里面有IndexWriter。
Lucene的store模块主要负责索引的读写。
Lucene的QueryParser主要负责语法分析。
Lucene的search模块主要负责对索引的搜索。
Lucene的similarity模块主要负责对相关性打分的实现。

了解了Lucene的整个结构，我们便可以开始Lucene的源码之旅了。

本文转载自http://www.cnblogs.com/forfuture1978/archive/2009/12/14/1623596.html

仅为自己学习所用。

查看图片附件

分享到：

Lucene学习总结之三：Lucene的索引文件格式 ... | Lucene学习总结之一：全文检索的基本原理

2011-08-13 12:15
浏览 715
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Lucene 3.0 原理与代码分析PDF: Lucene学习总结之二：Lucene的总体架构 Lucene学习总结之三：Lucene的索引文件格式(1) Lucene学习总结之三：Lucene的索引文件格式(2) Lucene学习总结之三：Lucene的索引文件格式(3) Lucene学习总结之四：...

lucene3源码分析: #### 二、Lucene的总体架构 Lucene的设计遵循模块化原则，其架构可以分为几个关键部分： - **存储层**：负责管理和维护索引文件。 - **索引层**：实现索引的创建、更新和优化等功能。 - **搜索层**：支持高效的...

Lucene3.0原理与代码分析完整版.docx: 在Lucene学习总结之二中，我们看到，Lucene的核心组件包括Analyzer（分析器）、Document（文档对象）、Field（字段）、IndexWriter（索引写入器）和Searcher（搜索器），它们协同工作以实现高效的信息检索。...

Lucene3总体图_建索引_查询_数据库索引: ### Lucene3总体架构与操作流程 #### 一、Lucene3概述 Lucene是一款高性能、全功能的文本搜索引擎库，被广泛应用于多种场景下的文本检索。Lucene3相较于之前的版本，主要增加了对国际化的支持，引入了`message`包...

lucene学习: 本篇文章将根据提供的博客资源，深入浅出地探讨Lucene的核心知识点，包括全文检索的基本原理、Lucene的总体架构、索引过程、搜索过程、索引文件格式以及打分公式等。首先，我们从基础出发，了解《全文检索的基本...

lucene原理与代码分析完整版: #### 二、Lucene总体架构 Lucene的总体架构可以分为三个主要部分：索引创建(Indexing)、索引存储(Storage)和搜索(Searching)。 1. **索引创建**：将文档转换为索引的过程。这包括文档预处理（如分词）、倒排索引的...

Lucene in Action 2nd_Edition.doc: - **总体架构**：本章节详细介绍了典型搜索应用程序的整体架构，并探讨了Lucene如何在此类架构中发挥作用。 - **组成部分**：强调Lucene仅是一个搜索库，用户还需要处理搜索应用的其他组件（如爬虫、文档过滤、运行...

基于Lucene的桌面搜索软件: 2. **设计阶段**：包括总体架构设计、模块划分、数据库设计等内容，形成详细的设计文档。 3. **编码实现**：根据设计文档完成代码编写工作，同时注重代码质量和可维护性。 4. **测试调试**：进行全面的功能测试、...

lucene 原理与代码分析: ### Lucene的总体架构 Lucene采用模块化设计，核心组件包括： - 分词器（Analyzer）：用于文本的分词和规范化。 - 索引器（Indexer）：负责创建和维护索引。 - 搜索器（Searcher）：执行查询并返回结果。 ### ...

开放源代码的全文检索引擎Lucene终稿.pdf: 总体而言，这份文档详尽地介绍了Lucene的工作原理、系统架构和源码实现，为开发者提供了深入了解和使用Lucene的宝贵资料。对于希望构建自定义搜索引擎或优化现有搜索功能的开发者来说，理解并掌握Lucene的这些核心...

Lucene 原理与代码分析完整版.pdf: ### Lucene的总体架构 Lucene的架构设计围绕着高效索引和快速检索。其主要组件包括： - **IndexWriter**：负责创建和更新索引，处理文档的添加和删除操作。 - **IndexReader**：用于读取索引，支持文档的检索和...

Lucene_原理与代码分析完整版: #### 二、Lucene的总体架构 Lucene采用了模块化的设计思想，主要由以下几个层次组成： 1. **基础层** - 提供基础的数据结构和算法实现。 2. **索引层** - 负责索引的创建和管理。 3. **搜索层** - 实现搜索和排序...

lucene学习资料: #### 二、Lucene的总体架构 Lucene采用模块化设计，主要包括以下几个核心模块： 1. **索引模块**（Index）：负责索引的创建和维护。 2. **搜索模块**（Search）：提供搜索功能。 3. **查询解析器**（Query Parser...

c# Lucene.net 原理代码分析加强版: 《C# Lucene.net原理与代码分析加强版》是一份深度解析Lucene.net搜索引擎库的文档，涵盖了全文检索的基本原理、Lucene的总体架构、索引文件格式以及索引过程和段合并等核心主题，旨在为开发人员提供深入理解Lucene...

Global site tag (gtag.js) - Google Analytics