Lucene的总体架构 - - ITeye博客

`

wang_heaven

浏览: 30625 次
性别:
来自: 深圳

最近访客更多访客>>

a0984

嗜血狂魔

kingkwj

zqx123100

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

xiaoyu1985ban：建议博主试一下“SQL Develop”。这个是Oracle官 ...
SqlServer到Oracle数据库转换手记

Lucene的总体架构

阅读更多

Lucene总的来说是：

一个高效的，可扩展的，全文检索库。
全部用Java实现，无须配置。
仅支持纯文本文件的索引(Indexing)和搜索(Search)。
不负责由其他格式的文件抽取纯文本文件，或从网络中抓取文件的过程。

在Lucene in action中，Lucene 的构架和过程如下图，

说明Lucene是有索引和搜索的两个过程，包含索引创建，索引，搜索三个要点。

让我们更细一些看Lucene的各组件：

被索引的文档用Document对象表示。
IndexWriter通过函数addDocument将文档添加到索引中，实现创建索引的过程。
Lucene的索引是应用反向索引。
当用户有请求时，Query代表用户的查询语句。
IndexSearcher通过函数search搜索Lucene Index。
IndexSearcher计算term weight和score并且将结果返回给用户。
返回给用户的文档集合用TopDocsCollector表示。

那么如何应用这些组件呢？

让我们再详细到对Lucene API 的调用实现索引和搜索过程。

索引过程如下：
- 创建一个IndexWriter用来写索引文件，它有几个参数，INDEX_DIR就是索引文件所存放的位置，Analyzer便是用来对文档进行词法分析和语言处理的。
- 创建一个Document代表我们要索引的文档。
- 将不同的Field加入到文档中。我们知道，一篇文档有多种信息，如题目，作者，修改时间，内容等。不同类型的信息用不同的Field来表示，在本例子中，一共有两类信息进行了索引，一个是文件路径，一个是文件内容。其中FileReader的SRC_FILE就表示要索引的源文件。
- IndexWriter调用函数addDocument将索引写到索引文件夹中。
搜索过程如下：
- IndexReader将磁盘上的索引信息读入到内存，INDEX_DIR就是索引文件存放的位置。
- 创建IndexSearcher准备进行搜索。
- 创建Analyer用来对查询语句进行词法分析和语言处理。
- 创建QueryParser用来对查询语句进行语法分析。
- QueryParser调用parser进行语法分析，形成查询语法树，放到Query中。
- IndexSearcher调用search对查询语法树Query进行搜索，得到结果TopScoreDocCollector。

以上便是Lucene API函数的简单调用。

然而当进入Lucene的源代码后，发现Lucene有很多包，关系错综复杂。

然而通过下图，我们不难发现，Lucene的各源码模块，都是对普通索引和搜索过程的一种实现。

此图是上一节介绍的全文检索的流程对应的Lucene实现的包结构。(参照http://www.lucene.com.cn/about.htm中文章《开放源代码的全文检索引擎Lucene》)

Lucene的analysis模块主要负责词法分析及语言处理而形成Term。
Lucene的index模块主要负责索引的创建，里面有IndexWriter。
Lucene的store模块主要负责索引的读写。
Lucene的QueryParser主要负责语法分析。
Lucene的search模块主要负责对索引的搜索。
Lucene的similarity模块主要负责对相关性打分的实现。

了解了Lucene的整个结构，我们便可以开始Lucene的源码之旅了。

另：

CSDN此文章链接为：http://blog.csdn.net/forfuture1978/archive/2009/10/30/4745802.aspx

Javaeye此文章链接为：http://forfuture1978.javaeye.com/blog/546808

分享到：

Lucene的索引文件格式(3) | 全文检索的基本原理

2012-02-17 11:20
浏览 687
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

lucene原理与代码分析完整版: #### 二、Lucene总体架构 Lucene的总体架构可以分为三个主要部分：索引创建(Indexing)、索引存储(Storage)和搜索(Searching)。 1. **索引创建**：将文档转换为索引的过程。这包括文档预处理（如分词）、倒排索引的...

Mastering Elasticsearch(中文版).pdf: - **Lucene总体架构**：Lucene的总体架构主要包括文档（Document）、字段（Field）、存储（Storage）和索引（Index）。文档是由一个或多个字段组成的集合，每个字段包含了特定的信息，比如标题、作者等。索引是对...

Lucene 3.0 原理与代码分析PDF: Lucene学习总结之二：Lucene的总体架构 Lucene学习总结之三：Lucene的索引文件格式(1) Lucene学习总结之三：Lucene的索引文件格式(2) Lucene学习总结之三：Lucene的索引文件格式(3) Lucene学习总结之四：...

Lucene3总体图_建索引_查询_数据库索引: ### Lucene3总体架构与操作流程 #### 一、Lucene3概述 Lucene是一款高性能、全功能的文本搜索引擎库，被广泛应用于多种场景下的文本检索。Lucene3相较于之前的版本，主要增加了对国际化的支持，引入了`message`包...

lucene3源码分析: #### 二、Lucene的总体架构 Lucene的设计遵循模块化原则，其架构可以分为几个关键部分： - **存储层**：负责管理和维护索引文件。 - **索引层**：实现索引的创建、更新和优化等功能。 - **搜索层**：支持高效的...

Lucene 3.0 原理与代码分析: 2. **Lucene的总体架构** Lucene的架构主要包括以下几个部分： - **Analyzer**：负责文本的预处理，包括分词、去除停用词等。 - **Document**：表示要索引的单个数据源，可以包含多个字段。 - **Field**：文档中...

Lucene 原理与代码分析完整版.pdf: ### Lucene的总体架构 Lucene的架构设计围绕着高效索引和快速检索。其主要组件包括： - **IndexWriter**：负责创建和更新索引，处理文档的添加和删除操作。 - **IndexReader**：用于读取索引，支持文档的检索和...

Lucene+3.0+原理与代码分析完整版: 综上所述，**Lucene 3.0 原理与代码分析**覆盖了全文检索的基础理论、Lucene 的总体架构、索引文件格式、索引过程、段合并过程、打分公式、搜索过程、查询语法、查询对象、分词器等多个方面，为开发者提供了深入理解...

c# Lucene.net 原理代码分析加强版: 《C# Lucene.net原理与代码分析加强版》是一份深度解析Lucene.net搜索引擎库的文档，涵盖了全文检索的基本原理、Lucene的总体架构、索引文件格式以及索引过程和段合并等核心主题，旨在为开发人员提供深入理解Lucene...

基于Lucene的桌面搜索软件: 2. **设计阶段**：包括总体架构设计、模块划分、数据库设计等内容，形成详细的设计文档。 3. **编码实现**：根据设计文档完成代码编写工作，同时注重代码质量和可维护性。 4. **测试调试**：进行全面的功能测试、...

lucene 原理与代码分析: ### Lucene的总体架构 Lucene采用模块化设计，核心组件包括： - 分词器（Analyzer）：用于文本的分词和规范化。 - 索引器（Indexer）：负责创建和维护索引。 - 搜索器（Searcher）：执行查询并返回结果。 ### ...

开放源代码的全文检索引擎Lucene终稿.pdf: 总体而言，这份文档详尽地介绍了Lucene的工作原理、系统架构和源码实现，为开发者提供了深入了解和使用Lucene的宝贵资料。对于希望构建自定义搜索引擎或优化现有搜索功能的开发者来说，理解并掌握Lucene的这些核心...

Lucene 原理与代码分析.pdf: 接着，文档中对Lucene的总体架构进行了介绍。Lucene被设计为一个可以动态添加、删除索引文件的系统，它允许快速更新索引，适用于需要实时索引的应用场景。代码分析篇深入到Lucene的内部实现，分析了索引文件格式、...

lucene学习: 本篇文章将根据提供的博客资源，深入浅出地探讨Lucene的核心知识点，包括全文检索的基本原理、Lucene的总体架构、索引过程、搜索过程、索引文件格式以及打分公式等。首先，我们从基础出发，了解《全文检索的基本...

Lucene_3.0_原理与代码分析: #### 二、Lucene 的总体架构 Lucene 提供了一个灵活且可扩展的架构，使得开发者可以根据具体的应用场景定制搜索引擎。其核心组件包括： 1. **Indexer（索引器）**：负责读取原始文档并创建索引。这个过程中，索引...

Lucene_原理与代码分析完整版: #### 二、Lucene的总体架构 Lucene采用了模块化的设计思想，主要由以下几个层次组成： 1. **基础层** - 提供基础的数据结构和算法实现。 2. **索引层** - 负责索引的创建和管理。 3. **搜索层** - 实现搜索和排序...

Elasticsearch 架构图: ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索...

Lucene3.0原理与代码分析完整版.docx: 本文将从Lucene的基本原理、总体架构、索引文件格式、索引过程、段合并以及搜索过程等多个方面进行详尽的阐述。全文检索的基本原理是Lucene的基础。它涉及到如何对文本进行分词、建立倒排索引，以及如何通过这些索...

Global site tag (gtag.js) - Google Analytics