引用Lucene In Action第二版2.4节内容:
域索引选项:
The options for indexing (Field.Index.* ) control how the text in the field will be
made searchable via the inverted index. Here are the choices:
- Index.ANALYZED—Use the analyzer to break the field’s value into a stream of separate tokens and make each token searchable. This option is useful for normal text fields (body, title, abstract, etc.).
- Index.NOT_ANALYZED —Do index the field, but don’t analyze the String value. Instead, treat the Field ’s entire value as a single token and make that token searchable. This option is useful for fiel ds that you’d like to search on but that shouldn’t be broken up, such as URLs, file system paths, dates, personal names, Social Security numbers, and telephone nu mbers. This option is especially useful for enabling “exact match精确匹配” searching. We indexed the id field in listings 2.1 and 2.3 using this option.
- Index.ANALYZED_NO_NORMS —A variant of Index.ANALYZED that doesn’t store norms information in the index. Norms record index-time boost information in the index but can be memory consuming when you’re searching. Section 2.5.3 describes norms in detail.
- Index.NOT_ANALYZED_NO_NORMS—Just like Index.NOT_ANALYZED , but also doesn’t store norms. This option is frequently used to save index space and memory usage during searching, because single-token fields don’t need the norms information un less they’re boosted.
- Index.NO —Don’t make this field’s value available for searching.
域存储选项:
The options for stored fields ( Field.Store.* ) determine whether the field’s exact
value should be stored away so that you can later retrieve it during searching:
-
Store.YES—Stores the value. When the value is stored, the original String in its entirety is recorded in the index and may be retrieved by an IndexReader. This option is useful for fields that you’d like to use when displaying the search results (such as a URL, title, or database primary key). Try not to store very large fields, if index size is a concern, as stored fields consume space in the index.
-
Store.NO —Doesn’t store the value. This option is often used along with Index.ANALYZED to index a large text field that doesn’t need to be retrieved in its original form, such as bodies of web pages, or any other type of text document.
分享到:
相关推荐
- 需要创建一个`IndexWriter`对象,指定索引存储的位置及索引的配置选项。 - 对于每个XML文档中的元素,可以创建一个`Document`对象,并将其添加到`IndexWriter`中。 3. **索引文档元素** - 在SAX处理器中,对于...
API包括了索引创建、查询解析、结果排序等一系列功能,提供了诸如Document、Field、Analyzer、IndexWriter、IndexReader等关键类,帮助开发者将文本数据转换为可搜索的索引。 地理信息系统(GIS)与Lucene的结合是...
了解了这些基本组件后,开发者可以通过阅读中文帮助文档来深入理解它们的用法、配置选项以及如何根据需求定制自己的搜索解决方案。同时,文档中可能还包含了示例代码和最佳实践,帮助开发者快速上手。 总的来说,...
- **IndexReader**和**IndexWriter**的优化选项,如合并策略和段合并大小控制。 7. **分布式搜索**: - **Solr**:基于Lucene的开源搜索服务器,支持分布式搜索和处理大量数据。 8. **扩展性和定制性**: - **...
此外,还需要了解`Document`对象和`Field`对象,它们分别表示单个文档及其字段。 - **基本搜索API**:为了执行搜索操作,开发者主要使用`IndexSearcher`类,该类提供了查询接口。`Query`接口定义了查询的基本结构,...
3. **文档对象**(Document):在Lucene中,每个文档是一个逻辑单元,包含多个字段(Field),如标题、正文等。每个字段都有相应的权重,影响搜索结果的排序。 4. **段**(Segment):为了提高性能,Lucene将大索引...
3. **字段(Field)**: 字段是文档的组成部分,每个字段有特定的名称和值,可以设置不同的索引和存储选项。 4. **术语(Term)**: 术语是索引的基本单位,通常是一个单词或短语。在索引过程中,Lucene 会将文档内容...
7. **字段(Field)**:文档由多个字段组成,每个字段可能有不同的分析策略和索引选项,如全文索引、关键词索引或不索引。 8. **位图(Bitset)**:对于布尔查询,Lucene使用位图来快速过滤匹配的文档。位图中的每...
10. **性能调优**:Lucene提供了多种配置选项和策略,如批量添加文档、使用 compound 文件、设置缓存大小等,开发者可以根据具体应用场景进行调优。 以上是对Apache Lucene 4.10.3版本的一些核心知识点的介绍。这个...
"SearchTest.suo"是Visual Studio的用户选项文件,保存了用户设置和调试信息;"SearchTest"可能是项目主程序或测试类的代码文件,具体功能可能包含了上述的索引创建、查询执行等关键步骤。 通过以上步骤,开发者...
- **字段(Field):** 表示文档中的单一属性,如标题、正文等。 - **文档(Document):** 包含一组字段,构成一个完整的索引项。 3. **安装配置:** - 下载并安装Lucene。 - 配置索引路径和搜索参数。 - ...
- **Lucene扩展**:如Elasticsearch、Solr等基于Lucene的框架,提供更高级的功能和服务,如集群管理、REST API和更多配置选项。 通过对“Lucene学习-02”的深入学习,你可以掌握这些关键点,并能够应用到实际项目中...
- **数据模型**:Lucene使用类似于数据库表的数据模型,即文档(Document)由多个字段(Field)组成。文档是索引的基本单位。 - **索引过程**:Lucene通过索引器(Indexer)将文档转换为索引文件。索引文件包含了文档的...
1. **文档(Document)**:在Lucene中,每个文档都是一组字段(Field)的集合,用于表示待搜索的信息。例如,一篇文章可以被看作一个文档,包含标题、内容、作者等字段。 2. **字段(Field)**:文档中的每一个属性...
1. 压缩索引:使用Lucene的压缩选项,可以减少索引占用的磁盘空间。 2. 分片与分布式搜索:在大型系统中,通过分片技术将索引分散到多台机器上,提升搜索性能。 3. 缓存优化:合理利用查询结果缓存和字段数据缓存...
### Lucene初级教程知识点 ...通过以上介绍,我们可以了解到Lucene作为一款强大的全文检索引擎,提供了丰富的API和灵活的配置选项,使得开发者能够轻松地根据自己的需求构建高效、准确的搜索功能。
`Document` 是 Lucene 中表示单个文档的对象,由一个或多个 `Field` 对象组成。 **1.1.6 Field** `Field` 表示文档中的一个字段,每个字段都可以指定存储方式和是否进行索引。 --- ##### 1.2 Lucene 查询相关类 ...