1. 文档(Document)和域(Field)
Document是Lucene索引和搜索的最小单元。然而实际上它只是一个或多个Field的容器,Field中保存着真正的内容。
Field由三部分组成:名称(作为域的唯一标识); 值(文本或二进制值); 选项(针对该域的一些细节描述)
2. Field的高级设置
1) 值可以被索引或不索引。被索引的域才能被搜索到。只有文本域才能被索引,二进制值域只能被存储(store)
2) 被索引的域可以增加检索词向量(term vectors)
3) 值可以被存储
3. Lucene与数据库的区别
1) 灵活的模式(schema)
Lucene并不像数据库一样,拥有固定的全局模式。新加入的document和已有的document完全不同,它们可以拥有全新的域。
2) 非规范化(Denormalization)
Lucene需要对索引内容进行非规范化操作。
一些开源框架如Hibernate Search, Compass, LuSQL, DBSight,Browse Engine 及 Oracle/Lucene integration能够完成此任务。
分享到:
相关推荐
在**第1章**“搜索引擎总体结构”中,作者从搜索引擎的基本模块出发,如网络爬虫、全文索引结构与Lucene实现、搜索用户界面、计算框架、文本挖掘等方面进行阐述。 - **1.1 搜索引擎基本模块**:这部分简明扼要地...
- **文档模型**:介绍Lucene中文档的表示形式及其组成部分。 - **字段类型**:区分不同类型的字段(如文本字段和数值字段),并了解其对搜索的影响。 - **分析器**:学习如何使用不同的分析器对文本进行处理,...
第二章深入到Lucene的内部工作机制,讲解了信息检索的基本原理,如倒排索引的概念,以及如何使用Lucene创建和管理这些索引。此外,本章还会介绍文本预处理的重要性,如分词、停用词处理、词干化等,这些都是构建有效...
第二章通常深入到Lucene的索引过程,详细讲解如何添加、删除和更新文档。还会讨论倒排索引的概念,这是Lucene实现快速搜索的关键。此外,可能会涉及如何优化索引性能,如使用多线程索引和内存缓冲等技巧。 第三章则...
《ASP.NET办公自动化实例导航》第二章主要探讨的是如何构建一个企业文档管理系统,该系统是基于ASP.NET技术实现的,旨在提升企业的文档管理和协作效率。在这个章节中,开发者将学习到如何利用ASP.NET的核心功能来...
#### 第二章:查询DSL进阶 - **Lucene评分过程**:解释文档如何根据相关性进行评分。这涉及到TF-IDF(Term Frequency-Inverse Document Frequency)算法以及其他评分机制。 - **查询改写**:介绍为何需要对原始查询...
- **高效索引机制**:通过高效的索引机制,Lucene能够快速地对大量文档进行索引和检索。 - **多语言支持**:支持多种语言,便于在全球范围内应用。 - **社区支持**:作为Apache基金会的一个项目,Lucene拥有强大的...
本文档主要介绍基于CCR模型的用户投诉智能识别系统,旨在解决中国移动公司在投诉分析方面存在的问题,例如热点捕捉难、内容分析难、工作发力难等问题。该系统可以对用户投诉内容进行智能识别,发现用户不满原因,以...
- **去掉第二个opencms**: 继续修改配置,使URL更简洁。 - **集成意义**: 通过Apache与Tomcat的集成,提高网站性能和稳定性。 ##### 2.4 OpenCMS启动指导 - **启动步骤**: - 确保所有依赖软件都已正确安装。 - ...