Field.Store.COMPRESS:压缩保存,用于长文本或二进制数据
Field.Store.YES:保存
Field.Store.NO:不保存
Field.Index.NO:不建立索引
Field.Index.TOKENIZED:分词,建索引
Field.Index.UN_TOKENIZED:不分词,建索引
Field.Index.NO_NORMS:不分词,建索引.但是Field的值不像通常那样被保存,而是只取一个byte,这样节约存储空间
Field.TermVector.NO:不保存term vectors
Field.TermVector.YES:保存term vectors
Field.TermVector.WITH_POSITIONS:保存term vectors.(保存值和token位置信息)
Field.TermVector.WITH_OFFSETS:保存term vectors.(保存值和Token的offset)
Field.TermVector.WITH_POSITIONS_OFFSETS:保存term vectors.(保存值和token位置信息和Token的offset)
分享到:
相关推荐
- **Document**:Document是存储信息的基本单元,可以包含多个Field,每个Field都有其特定的属性,如是否可搜索、是否可存储等。 - **IndexWriter**:用于创建和更新索引,它管理索引的生命周期,包括添加、删除和...
《Apache Lucene 3.5.0:全文检索与索引核心技术详解》 Apache Lucene 是一个开源的全文检索库,被广泛应用于构建高效的搜索引擎和信息检索系统。在这个3.5.0版本中,Lucene 提供了一系列强大的功能,包括文本分析...
在文档中,你可以找到关于Lucene核心组件的详细信息,如Analyzer(分析器)用于文本预处理,Tokenizer(分词器)进行词汇分割,Filter(过滤器)进行额外的文本处理,以及Document(文档)、Field(字段)和...
《深入解析Lucene 3.5.0:核心与智能中文版》 Lucene是一个开源全文检索库,由Apache软件基金会开发,它提供了强大的文本分析和检索功能,被广泛应用于各种信息检索系统。这里我们主要关注的是Lucene 3.5.0版本,...
本压缩包包含的是Lucene 3.5.0版本的全部源码,对于想要深入理解Lucene工作原理、进行二次开发或者进行搜索引擎相关研究的开发者来说,是一份非常宝贵的学习资源。 Lucene 3.5.0是Lucene的一个重要版本,它在3.x...
《Lucene 3.5.0核心库:深入解析jar包》 Apache Lucene 是一个高性能、全文本搜索引擎库,广泛应用于各种软件项目中,提供强大的文本搜索功能。"lucenelucene-core-3.5.0_jar"是Lucene的一个版本,即3.5.0的核心...
`lucene-3.5.0-src.tgz` 包含了 Lucene 3.5.0 版本的源代码,可以进行以下研究: 1. **分析索引流程**:查看 `org.apache.lucene.index.IndexWriter` 类,了解如何创建和更新索引,以及如何控制分词和存储策略。 2...
1. 初始化环境:首先,我们需要导入Lucene的相关库,包括核心库(lucene-core-3.5.0.jar)、分析库(lucene-analyzers-3.5.0.jar)等,并设置好工作目录。 2. 创建Analyzer:Lucene使用Analyzer来处理文本,将文本分词...
这里提供的源码是Lucene的3.5.0版本,较早但经典。随着时间的发展,Lucene已经经历了多个版本的迭代,增加了许多新特性和性能改进。例如,更高级的查询语法、更强大的分析器支持、以及对内存管理和多线程优化等。...
- Lucene 3.5.0 - Solr 3.5.0 - mmseg4j 分词库(用于中文分词) 环境目录结构建议如下: - `E:\Solr\home` - Solr 安装目录 - `E:\Solr\server\solr` - Solr web应用目录 ##### 步骤2:复制Solr示例目录至Tomcat...
- `dicPath`属性用于指定词典文件的位置,确保路径正确无误。 - 上述三种分词模式(`complex`, `max-word`, `simple`)可以根据实际需求选择使用。 通过以上步骤,我们已经完成了在Tomcat环境下搭建Solr 3.5及MMSEG...
在 Solr 中,数据以 Document 对象的形式存储,每个 Document 包含多个 Field,每个 Field 表示文档的一个特定属性。Document 的唯一标识通常是 `id` 字段,这是通过 Schema 配置文件中的 `<uniqueKey>id...
每个文档由多个“字段”(Field)组成,每个字段代表资源的一个特定属性。为了确保数据的唯一性,通常会为每个文档设置一个唯一的标识符,例如默认情况下使用`id`字段作为唯一键,在Schema配置文件中通过`...