`

lucene2.4源码学习2 lucene的基本文件学习

 
阅读更多
看看lucene各个文件和作用:








fnm文件图


fdt fsv文件图


tvx tvd tvf文件图



注意:.tvx,.tvd,.tvf这三个文件不是必须的,
当新建立的文档有Field.TermVector.WITH_POSITIONS_OFFSETS这个的时候才会创建。.tvx,.tvd,.tvf这些文件提供的是term在filed中的位置和频率信息。这个是正向的,就是知道一个文档包含哪些哪些term,以及这些term的频率和位置信息。  和tis,tii是相反的。tis是根据一个term,知道这个term在哪个文档。


包含正向信息的文件有:
 segments_N 保存了此索引包含多少个段,每个段包含多少篇文档。
 XXX.fnm 保存了此段包含了多少个域,每个域的名称及索引方式。
 XXX.fdx,XXX.fdt 保存了此段包含的所有文档,每篇文档包含了多少域,每个域保
存了那些信息。
 XXX.tvx,XXX.tvd,XXX.tvf 保存了此段包含多少文档,每篇文档包含了多少域,每
个域包含了多少词,每个词的字符串,位置等信息。

包含反向信息的文件有:
 XXX.tis,XXX.tii 保存了词典(Term Dictionary),也即此段包含的所有的词按字典顺序
的排序。
 XXX.frq 保存了倒排表,也即包含每个词的文档ID 列表。
 XXX.prx 保存了倒排表中每个词在包含此词的文档中的位置。

  • 大小: 72.5 KB
  • 大小: 233 KB
  • 大小: 220.3 KB
  • 大小: 290.1 KB
0
1
分享到:
评论

相关推荐

    庖丁解牛 源码 for Lucene 2.4

    通过对Paoding Lucene的源码学习,开发者可以了解到如何在Lucene的基础上定制适合中文环境的搜索引擎,理解其内部的分词策略、索引构建过程以及查询优化技术。这对于从事Java搜索引擎开发或者希望提升中文搜索质量的...

    lucene2.4+nutch学习笔记三:lucene 在多个文本文档里找出包含一些关键字的文档

    《Lucene 2.4与Nutch学习笔记:在多文本文档中搜索关键词》 Lucene是一个高性能、全文本搜索引擎库,它为开发者提供了在Java应用程序中实现全文搜索功能的基本工具。Nutch则是一个开源的网络爬虫项目,用于抓取...

    Lucene2.4.1

    三、深入学习Lucene 2.4.1 在Lucene 2.4.1中,你可以通过分析源代码来更深入地理解其工作原理。例如,查看`Analyzer`的实现,了解如何自定义分词规则;研究`IndexWriter`的源码,掌握索引构建和更新的过程;或者分析...

    Lucene教程

    这个教程将深入探讨Lucene的基本概念、核心组件以及如何在实际项目中使用。 ## 1. Lucene基础 Lucene的主要工作流程包括索引和搜索两个阶段。首先,通过读取数据源(如文件、数据库等)并分析文本内容,创建索引。...

    lucene-5.4.0

    3.1 源码结构:Lucene的源代码组织清晰,包括索引模块、查询模块、分析模块等多个子模块,便于理解和学习。 3.2 索引过程:通过`IndexWriter`进行索引创建和更新,涉及`Term`, `TermInfo`, `TermEnum`等类,理解...

    Apache Nutch v2.4.zip

    2. **Nutch v2.4 特性**: - **分布式爬虫**:Nutch 2.4 使用 Hadoop 进行分布式处理,能够处理大量网页并行抓取。 - **可扩展性**:设计为模块化,允许开发者根据需求添加或修改特定组件。 - **链接分析**:...

    lucune3.0 及高亮显示 所需的包及代码

    标签“源码”表明内容可能涉及到Lucene 3.0的源代码分析,这对于开发者来说是深入理解其工作原理和定制功能的关键。而“工具”可能意味着博主分享了一些辅助开发的工具或技巧,例如使用IDE插件来更好地集成和调试...

    lucene_7_4_0

    IDEA工程可以直接运行和调试Lucene的源码,这对于学习其内部工作机制和解决实际问题非常有帮助。通过设置断点,观察类的实例化过程,跟踪方法调用,可以深入了解Lucene的实现细节。 总结,Lucene 7.4.0作为一款强大...

    Hadoop入门学习文档

    ### Hadoop入门学习文档知识点梳理 #### 一、大数据概论 ##### 1.1 大数据概念 - **定义**:大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。 - **特点**: - **Volume(大量)...

    elasticsearch-5.0.1-core-main源码(eclipse工程的)

    源码转换成 Eclipse 工程后,开发者可以直接在 IDE 中浏览和调试代码,便于理解和学习 Elasticsearch 的工作原理。`Gradle` 的构建工具通过配置文件 (`build.gradle`) 管理依赖和构建过程,使得开发更加便捷。 ### ...

    ElasticSearch中文学习教程

    ### ElasticSearch中文学习教程知识点梳理 #### 一、总述 **1.1. 简介** ElasticSearch是一款基于Lucene构建的开源、分布式、RESTful搜索引擎。它专为云计算环境设计,具备实时搜索能力,且稳定、可靠、快速、...

Global site tag (gtag.js) - Google Analytics