看看lucene各个文件和作用:
fnm文件图
fdt fsv文件图
tvx tvd tvf文件图
注意:.tvx,.tvd,.tvf这三个文件不是必须的,
当新建立的文档有Field.TermVector.WITH_POSITIONS_OFFSETS这个的时候才会创建。.tvx,.tvd,.tvf这些文件提供的是term在filed中的位置和频率信息。这个是正向的,就是知道一个文档包含哪些哪些term,以及这些term的频率和位置信息。 和tis,tii是相反的。tis是根据一个term,知道这个term在哪个文档。
包含正向信息的文件有:
segments_N 保存了此索引包含多少个段,每个段包含多少篇文档。
XXX.fnm 保存了此段包含了多少个域,每个域的名称及索引方式。
XXX.fdx,XXX.fdt 保存了此段包含的所有文档,每篇文档包含了多少域,每个域保
存了那些信息。
XXX.tvx,XXX.tvd,XXX.tvf 保存了此段包含多少文档,每篇文档包含了多少域,每
个域包含了多少词,每个词的字符串,位置等信息。
包含反向信息的文件有:
XXX.tis,XXX.tii 保存了词典(Term Dictionary),也即此段包含的所有的词按字典顺序
的排序。
XXX.frq 保存了倒排表,也即包含每个词的文档ID 列表。
XXX.prx 保存了倒排表中每个词在包含此词的文档中的位置。
- 大小: 72.5 KB
- 大小: 233 KB
- 大小: 220.3 KB
- 大小: 290.1 KB
分享到:
相关推荐
通过对Paoding Lucene的源码学习,开发者可以了解到如何在Lucene的基础上定制适合中文环境的搜索引擎,理解其内部的分词策略、索引构建过程以及查询优化技术。这对于从事Java搜索引擎开发或者希望提升中文搜索质量的...
《Lucene 2.4与Nutch学习笔记:在多文本文档中搜索关键词》 Lucene是一个高性能、全文本搜索引擎库,它为开发者提供了在Java应用程序中实现全文搜索功能的基本工具。Nutch则是一个开源的网络爬虫项目,用于抓取...
三、深入学习Lucene 2.4.1 在Lucene 2.4.1中,你可以通过分析源代码来更深入地理解其工作原理。例如,查看`Analyzer`的实现,了解如何自定义分词规则;研究`IndexWriter`的源码,掌握索引构建和更新的过程;或者分析...
这个教程将深入探讨Lucene的基本概念、核心组件以及如何在实际项目中使用。 ## 1. Lucene基础 Lucene的主要工作流程包括索引和搜索两个阶段。首先,通过读取数据源(如文件、数据库等)并分析文本内容,创建索引。...
3.1 源码结构:Lucene的源代码组织清晰,包括索引模块、查询模块、分析模块等多个子模块,便于理解和学习。 3.2 索引过程:通过`IndexWriter`进行索引创建和更新,涉及`Term`, `TermInfo`, `TermEnum`等类,理解...
2. **Nutch v2.4 特性**: - **分布式爬虫**:Nutch 2.4 使用 Hadoop 进行分布式处理,能够处理大量网页并行抓取。 - **可扩展性**:设计为模块化,允许开发者根据需求添加或修改特定组件。 - **链接分析**:...
标签“源码”表明内容可能涉及到Lucene 3.0的源代码分析,这对于开发者来说是深入理解其工作原理和定制功能的关键。而“工具”可能意味着博主分享了一些辅助开发的工具或技巧,例如使用IDE插件来更好地集成和调试...
IDEA工程可以直接运行和调试Lucene的源码,这对于学习其内部工作机制和解决实际问题非常有帮助。通过设置断点,观察类的实例化过程,跟踪方法调用,可以深入了解Lucene的实现细节。 总结,Lucene 7.4.0作为一款强大...
### Hadoop入门学习文档知识点梳理 #### 一、大数据概论 ##### 1.1 大数据概念 - **定义**:大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。 - **特点**: - **Volume(大量)...
源码转换成 Eclipse 工程后,开发者可以直接在 IDE 中浏览和调试代码,便于理解和学习 Elasticsearch 的工作原理。`Gradle` 的构建工具通过配置文件 (`build.gradle`) 管理依赖和构建过程,使得开发更加便捷。 ### ...
### ElasticSearch中文学习教程知识点梳理 #### 一、总述 **1.1. 简介** ElasticSearch是一款基于Lucene构建的开源、分布式、RESTful搜索引擎。它专为云计算环境设计,具备实时搜索能力,且稳定、可靠、快速、...