1. 2.0以前的版本
- Keyword: Field的值将被保存到索引文件,为Field的值建立索引,建立索引时不需要分词。
- UnIndexed: Field的值将被保存到索引文件,不为Field的值建立索引,因此不能通过该Field搜索文档。
- UnStored: Field的值不被保存到索引文件,将Field的值分词后建立索引
- Text: Field的值分词后建立索引。如果参数为String值将被保存,为Reader值不被保存
2. 2.0版本
用几个内部类的组合来区分Field的具体类型。
COMPRESS:压缩保存。用于长文本或二进制数据
YES:保存
NO:不保存
NO:不建索引
TOKENIZED:分词,建索引
UN_TOKENIZED:不分词,建索引
NO_NORMS:不分词,建索引。但是Field的值不像通常那样被保存,而是只取一个byte,这样节约存储空间
NO:不保存term vectors
YES:保存term vectors。
WITH_POSITIONS:保存term vectors。(保存值和token位置信息)
WITH_OFFSETS:保存term vectors。(保存值和Token的offset)WITH_POSITIONS_OFFSETS:保存term vectors。(保存值和token位置信息和Token的offset)
分享到:
相关推荐
1. **Field类型**:Lucene中的Field有多种类型,如TextField、StringField、NumericField等。TextField适合全文检索,StringField则用于存储不可变的非全文数据,NumericField用于存储数值型数据,便于比较和排序。 ...
了解这些文件格式后,我们还要知道Lucene索引中使用的基本数据类型,如Byte、UInt32、UInt64和VInt。VInt是一种变长整数类型,它根据数值大小动态占用字节,有效地节省了存储空间。 总的来说,Lucene的索引文件格式...
Document由多个Field组成,每个Field包含不同类型的数据,如标题、正文等。 3. **Field**: Document中的一个属性,具有特定的名称和值,如“title”字段用于存储文档标题,“content”字段用于存储正文。 4. **...
在4.7.2版本中,Lucene引入了通用对象搜索,这意味着你可以根据自定义的对象类型进行搜索,这极大地扩展了Lucene的应用场景。 范围搜索是Lucene的另一个亮点,允许用户按数值或日期范围进行过滤。例如,你可以搜索...
首先,Lucene的核心概念包括文档(Document)、字段(Field)、索引(Index)和查询(Query)。文档是信息的基本单位,可以包含多个字段,每个字段都有特定的类型,如文本、日期或数字。索引过程将文档中的文本转换...
9. **文档处理**:`Document`类和`Field`类是处理文档数据的基本单元,源码中可以看到它们如何封装和存储信息。 10. **性能调优**:通过分析源码,开发者可以了解到如何调整各种参数,如缓存大小、合并策略等,来...
- Token:term在文档中的具体出现实例,包含词语、位置信息和类型。 4. 优化策略 - 选择合适的Analyzer:针对不同的语言和应用场景,选择合适的分词规则可以显著提升搜索效果。 - 索引优化:合理设置Field的存储...
4. **文档(Document)**: 在 Lucene 中,文档是由字段(Field)组成的,每个字段有其特定的含义和搜索属性。例如,`title` 和 `content` 字段。 5. **倒排索引(Inverted Index)**: 这是 Lucene 最重要的数据结构...
- **基本类型**:定义了索引文件中使用的数据类型。 - **基本规则**:阐述了文件格式设计的基本原则。 - **具体格式**: - **正向信息**:包括段元数据、字段元数据和字段数据等信息。 - **反向信息**:涉及词典、...
一个文档可以包含多个字段(Field),每个字段都有特定的类型,如文本、数字或日期。 2. 字段(Field):文档中的信息单元,如文章的标题、内容、作者等。字段具有可搜索、可存储和可索引等特性,这些特性可以在...
首先,Lucene的核心概念包括文档(Document)、字段(Field)、索引(Index)和搜索(Search)。文档是信息的基本单位,可以包含多个字段,如标题、内容、作者等。每个字段可以设置不同的分析器来处理不同类型的文本...
首先,我们需要了解Lucene的核心概念,如文档(Document)、字段(Field)、术语(Term)和倒排索引(Inverted Index)。每个文档是由多个字段组成的,字段可以设置不同的属性,如是否存储、是否可搜索等。术语是...
- **字段(Field)**:字段是文档的组成部分,每个字段都有特定的类型(如文本、日期等),并可以被索引或存储。 - **索引(Index)**:索引是Lucene处理数据的核心,它将文本数据转换为可供快速搜索的结构。 - **...
2. **文档表示**:在Lucene中,每个文档都是由一系列字段(Field)组成,每个字段有自己的类型(如文本、数值或日期),并可以设置是否可被搜索或存储。 3. **查询解析**:用户输入的查询字符串会被转换成Lucene...
Document对象代表一个文档,由多个具有不同特性的Field组成,每个Field可以存储不同类型的数据,如文本、数字或日期。Field可以被设置为可索引、可存储或两者皆可,以便在搜索和检索过程中使用。 语言分析在Lucene...
1. **Lucene基本概念**:Lucene的核心概念包括文档(Document)、字段(Field)、索引(Index)和查询(Query)。文档是由一系列字段组成的,每个字段有特定的类型(如文本、数字等)。索引是Lucene对这些文档进行...
`Document`类代表一个待索引的文档,包含多个`Field`,每个Field都有类型,如TextField用于全文搜索,而StringField则不进行分词。 搜索方面,`IndexSearcher`类是执行查询的主要接口,它可以执行各种类型的查询,...
2. **文档(Document)**:文档是Lucene中的基本单位,可以代表任何类型的数据源,如网页、电子邮件、PDF等。一个文档由多个字段(Field)组成,每个字段都有自己的名称和内容。 3. **字段(Field)**:字段是文档...