Lucene学习二：Lucene总体框架 - 浮夸 - ITeye博客

`

zenoh

浏览: 146345 次
性别:
来自: 上海

最近访客更多访客>>

qijojo

罗伯特X

瞬间永远

Absoler

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

Seven7+：这个例子的源代码能否发一下啊
Flex的Tree开发——与Java后台交互，实现增删改查

Lucene学习二：Lucene总体框架

博客分类：

全文检索

阅读更多

Lucene总的来说是：

一个高效的，可扩展的，全文检索库。
全部用Java实现，无须配置。
仅支持纯文本文件的索引(Indexing)和搜索(Search)。
不负责由其他格式的文件抽取纯文本文件，或从网络中抓取文件的过程。

在Lucene in action中，Lucene 的构架和过程如下图，

说明Lucene是有索引和搜索的两个过程，包含索引创建，索引，搜索三个要点。

让我们更细一些看Lucene的各组件：

被索引的文档用Document对象表示。
IndexWriter通过函数addDocument将文档添加到索引中，实现创建索引的过程。
Lucene的索引是应用反向索引。
当用户有请求时，Query代表用户的查询语句。
IndexSearcher通过函数search搜索Lucene Index。
IndexSearcher计算term weight和score并且将结果返回给用户。
返回给用户的文档集合用TopDocsCollector表示。

那么如何应用这些组件呢？

让我们再详细到对Lucene API 的调用实现索引和搜索过程。

索引过程如下：
- 创建一个IndexWriter用来写索引文件，它有几个参数，INDEX_DIR就是索引文件所存放的位置，Analyzer便是用来对文档进行词法分析和语言处理的。
- 创建一个Document代表我们要索引的文档。
- 将不同的Field加入到文档中。我们知道，一篇文档有多种信息，如题目，作者，修改时间，内容等。不同类型的信息用不同的Field来表示，在本例子中，一共有两类信息进行了索引，一个是文件路径，一个是文件内容。其中FileReader的SRC_FILE就表示要索引的源文件。
- IndexWriter调用函数addDocument将索引写到索引文件夹中。
搜索过程如下：
- IndexReader将磁盘上的索引信息读入到内存，INDEX_DIR就是索引文件存放的位置。
- 创建IndexSearcher准备进行搜索。
- 创建Analyer用来对查询语句进行词法分析和语言处理。
- 创建QueryParser用来对查询语句进行语法分析。
- QueryParser调用parser进行语法分析，形成查询语法树，放到Query中。
- IndexSearcher调用search对查询语法树Query进行搜索，得到结果TopScoreDocCollector。

以上便是Lucene API函数的简单调用。

然而当进入Lucene的源代码后，发现Lucene有很多包，关系错综复杂。

然而通过下图，我们不难发现，Lucene的各源码模块，都是对普通索引和搜索过程的一种实现。

此图是上一节介绍的全文检索的流程对应的Lucene实现的包结构。(参照http://www.lucene.com.cn/about.htm中文章《开放源代码的全文检索引擎Lucene》)

Lucene的analysis模块主要负责词法分析及语言处理而形成Term。
Lucene的index模块主要负责索引的创建，里面有IndexWriter。
Lucene的store模块主要负责索引的读写。
Lucene的QueryParser主要负责语法分析。
Lucene的search模块主要负责对索引的搜索。
Lucene的similarity模块主要负责对相关性打分的实现。

了解了Lucene的整个结构，我们便可以开始Lucene的源码之旅了。

转自：http://forfuture1978.iteye.com/blog/546808

分享到：

Lucene学习三：Lucene索引文件格式（1） | Lucene学习一：全文检索基本原理

2011-12-07 22:31
浏览 781
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

lucene3源码分析: #### 二、Lucene的总体架构 Lucene的设计遵循模块化原则，其架构可以分为几个关键部分： - **存储层**：负责管理和维护索引文件。 - **索引层**：实现索引的创建、更新和优化等功能。 - **搜索层**：支持高效的...

Lucene in Action 2nd_Edition.doc: - **基准测试框架**：介绍了如何使用Lucene提供的基准测试框架来评估性能表现。综上所述，《Lucene in Action》第二版不仅是一本全面介绍Lucene基础知识和技术细节的书籍，还包含了大量实用的案例研究和实践经验...

基于Lucene的桌面搜索软件: 3. **用户界面**：考虑到易用性和美观性，采用Swing或JavaFX框架来构建图形用户界面，实现与用户的交互。 4. **数据存储**：为了提高索引的读写性能，采用本地文件系统作为索引数据的存储介质，并利用Lucene的优化...

Lucene_原理与代码分析完整版: #### 二、Lucene的总体架构 Lucene采用了模块化的设计思想，主要由以下几个层次组成： 1. **基础层** - 提供基础的数据结构和算法实现。 2. **索引层** - 负责索引的创建和管理。 3. **搜索层** - 实现搜索和排序...

lucene3.6源码: Lucene 3.6.1是其历史版本之一，虽然现在有更新的版本，但3.6.1版本因其稳定性及对基础原理的清晰展现，仍然是学习Lucene内部机制的良好起点。 1. **索引过程** Lucene的索引过程主要包括文档分析、词项创建、倒排...

Lucene+原理与代码: **Lucene**是Java编写的全文检索框架，它提供了一整套实现全文检索的工具。Lucene的核心模块包括： - **分析器 (Analyzer)**: 负责将文档分解为词项，并执行语言处理任务。 - **索引器 (Indexer)**: 创建和更新索引...

基于Lucene的新闻搜索系统的设计与实现: 2. **Heritrix**：Heritrix 是一个高度可配置的开源网络爬虫框架，它可以模拟浏览器的行为从互联网上抓取数据。通过对Heritrix进行扩展和优化，可以高效地从多个新闻源抓取最新的新闻信息。 3. **中文分词**：由于...

ASP.NET 开发基于Ajax+Lucene构建搜索引擎的设计和实现(源代码+论文): 1. 系统架构设计：阐述了如何结合ASP.NET、Ajax和Lucene构建搜索引擎的总体架构，包括前端用户界面、后台服务和数据库的交互方式。 2. 数据处理：详细描述了数据预处理的过程，如文本标准化、分词策略以及如何构建和...

Lucene 原理与代码分析完整版.pdf: #### 二、Lucene的总体架构 Lucene的总体架构主要包括以下几个层次： - **索引层**：负责文档的索引建立和管理。 - **搜索层**：实现查询的解析和执行。 - **存储层**：处理文档的存储和读取。 - **应用层**：提供...

Lucene 原理与代码分析完整版: 通过以上详细介绍，我们可以看出Lucene不仅仅是一个简单的全文检索库，而是一个高度优化且功能强大的搜索引擎框架。通过对Lucene原理与代码的深入分析，开发者可以更好地理解和应用Lucene的强大功能，以满足各种复杂...

面向Web电子产品信息分布式检索系统的设计与实现.pdf: Hadoop是一个开源的分布式存储和计算框架，由Apache基金会维护。它主要由Hadoop分布式文件系统（HDFS）和MapReduce编程模型两个核心组件构成。HDFS可以存储大量数据，而MapReduce则能够处理大量数据。Hadoop在处理...

搜索引擎核心技术与实现: 通过上述内容，本书系统地呈现了搜索引擎从数据抓取到信息提取、再到文本处理和中文分词的核心技术和实现过程，为读者构建了一个完整的学习路径，旨在培养具备搜索引擎开发实战能力的专业人才。

中级java.docx: 在本项目中，MVC 设计模式用于项目的总体架构设计，提高项目的可维护性和可扩展性。 5. Java 项目开发中 BS 技术的应用： BS 技术是 Java 项目开发中常用的技术，用于将业务逻辑与表示层分离，提高项目的可维护性和...

javajava概要设计方案.doc: - **参考书籍**：《lucene in action》用于了解索引和搜索，《Thinking in Java》学习JNI，《Java核心技术第2卷》深入理解JNI和正则表达式。 6. **开发与测试环境** - **开发**：使用JDK、Lucene、JSP、Tomcat和...

jcseg：Jcseg是用Java开发的轻量级NLP框架。提供基于MMSEG算法的CJK和英语细分，并基于TEXTRANK算法实现关键词提取，关键句提取，摘要提取。 Jcseg具有内置的http服务器和用于最新lucene，solr，elasticsearch的搜索模块: 自动词性标注：基于词库+（统计歧义去除计划），总体效果不是很理想，对词性标注结果要求更高的应用不建议使用。命名实体标注：基于词库+（统计歧义去除计划），电子邮件，网址，大陆手机号码，地名，人名，货币，...

Global site tag (gtag.js) - Google Analytics