lucene2.4源码学习2 lucene的基本文件学习 - 黄云斌的博客 - ITeye博客

`

huangyunbin

浏览: 2630186 次
性别:
来自: 广州

最近访客更多访客>>

cht的大摩托

xiaoxiaoHer

zzqfsy

为了ta

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

hsluoyz： PyCasbin是一个用Python语言打造的轻量级开源访问控 ...
权限管理的一个简单后台
liuyachao111：谢谢问题解决了
对实体 "characterEncoding" 的引用必须以 ';' 分隔符结尾
jnjeC：多谢博主分享,在配置文件里的&也要改成&amp ...
对实体 "characterEncoding" 的引用必须以 ';' 分隔符结尾
大维啊：同志，你这不行啊！
java 的 AccessController.doPrivileged使用
lisha2009：解决了我的问题，多谢博主分享！
对实体 "characterEncoding" 的引用必须以 ';' 分隔符结尾

lucene2.4源码学习2 lucene的基本文件学习

博客分类：

lucene 2.4源码学习

阅读更多

看看lucene各个文件和作用：

fnm文件图

fdt fsv文件图

tvx tvd tvf文件图

注意：.tvx,.tvd,.tvf这三个文件不是必须的，
当新建立的文档有Field.TermVector.WITH_POSITIONS_OFFSETS这个的时候才会创建。.tvx,.tvd,.tvf这些文件提供的是term在filed中的位置和频率信息。这个是正向的，就是知道一个文档包含哪些哪些term，以及这些term的频率和位置信息。和tis，tii是相反的。tis是根据一个term，知道这个term在哪个文档。

包含正向信息的文件有：
segments_N 保存了此索引包含多少个段，每个段包含多少篇文档。
XXX.fnm 保存了此段包含了多少个域，每个域的名称及索引方式。
XXX.fdx，XXX.fdt 保存了此段包含的所有文档，每篇文档包含了多少域，每个域保
存了那些信息。
XXX.tvx，XXX.tvd，XXX.tvf 保存了此段包含多少文档，每篇文档包含了多少域，每
个域包含了多少词，每个词的字符串，位置等信息。

包含反向信息的文件有：
XXX.tis，XXX.tii 保存了词典(Term Dictionary)，也即此段包含的所有的词按字典顺序
的排序。
XXX.frq 保存了倒排表，也即包含每个词的文档ID 列表。
XXX.prx 保存了倒排表中每个词在包含此词的文档中的位置。

查看图片附件

0
顶

1
踩

分享到：

lucene2.4源码学习3 写文件的装饰者 + ... | lucene2.4源码学习1

2013-03-16 11:03
浏览 1329
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

庖丁解牛源码 for Lucene 2.4: 通过对Paoding Lucene的源码学习，开发者可以了解到如何在Lucene的基础上定制适合中文环境的搜索引擎，理解其内部的分词策略、索引构建过程以及查询优化技术。这对于从事Java搜索引擎开发或者希望提升中文搜索质量的...

lucene2.4+nutch学习笔记三：lucene　在多个文本文档里找出包含一些关键字的文档: 《Lucene 2.4与Nutch学习笔记：在多文本文档中搜索关键词》 Lucene是一个高性能、全文本搜索引擎库，它为开发者提供了在Java应用程序中实现全文搜索功能的基本工具。Nutch则是一个开源的网络爬虫项目，用于抓取...

Lucene2.4.1: 三、深入学习Lucene 2.4.1 在Lucene 2.4.1中，你可以通过分析源代码来更深入地理解其工作原理。例如，查看`Analyzer`的实现，了解如何自定义分词规则；研究`IndexWriter`的源码，掌握索引构建和更新的过程；或者分析...

Lucene教程: 这个教程将深入探讨Lucene的基本概念、核心组件以及如何在实际项目中使用。 ## 1. Lucene基础 Lucene的主要工作流程包括索引和搜索两个阶段。首先，通过读取数据源（如文件、数据库等）并分析文本内容，创建索引。...

lucene-5.4.0: 3.1 源码结构：Lucene的源代码组织清晰，包括索引模块、查询模块、分析模块等多个子模块，便于理解和学习。 3.2 索引过程：通过`IndexWriter`进行索引创建和更新，涉及`Term`, `TermInfo`, `TermEnum`等类，理解...

Apache Nutch v2.4.zip: 2. **Nutch v2.4 特性**： - **分布式爬虫**：Nutch 2.4 使用 Hadoop 进行分布式处理，能够处理大量网页并行抓取。 - **可扩展性**：设计为模块化，允许开发者根据需求添加或修改特定组件。 - **链接分析**：...

lucune3.0 及高亮显示所需的包及代码: 标签“源码”表明内容可能涉及到Lucene 3.0的源代码分析，这对于开发者来说是深入理解其工作原理和定制功能的关键。而“工具”可能意味着博主分享了一些辅助开发的工具或技巧，例如使用IDE插件来更好地集成和调试...

lucene_7_4_0: IDEA工程可以直接运行和调试Lucene的源码，这对于学习其内部工作机制和解决实际问题非常有帮助。通过设置断点，观察类的实例化过程，跟踪方法调用，可以深入了解Lucene的实现细节。总结，Lucene 7.4.0作为一款强大...

Hadoop入门学习文档: ### Hadoop入门学习文档知识点梳理 #### 一、大数据概论 ##### 1.1 大数据概念 - **定义**：大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。 - **特点**： - **Volume（大量）...

elasticsearch-5.0.1-core-main源码（eclipse工程的）: 源码转换成 Eclipse 工程后，开发者可以直接在 IDE 中浏览和调试代码，便于理解和学习 Elasticsearch 的工作原理。`Gradle` 的构建工具通过配置文件 (`build.gradle`) 管理依赖和构建过程，使得开发更加便捷。 ### ...

ElasticSearch中文学习教程: ### ElasticSearch中文学习教程知识点梳理 #### 一、总述 **1.1. 简介** ElasticSearch是一款基于Lucene构建的开源、分布式、RESTful搜索引擎。它专为云计算环境设计，具备实时搜索能力，且稳定、可靠、快速、...

Global site tag (gtag.js) - Google Analytics