`
baobeituping
  • 浏览: 1068690 次
  • 性别: Icon_minigender_1
  • 来自: 长沙
社区版块
存档分类
最新评论

Lucene 索引文件格式详解

阅读更多
1.索引的SEGMENT
  每个SEGMENT代表LUCENE的一个完成的索引段,通常,在一个索引中,会包含多个SEGMENT,每个SEGMENT都有统一的前缀,这个前缀是根据当前索引的DOCUMENT的数量而确立的。前缀名是DOCUMENT转成36进制后在前面加“_"组成。
  通常在以个完成的索引中,只有一个SEGMENT文件。这个文件没有后缀,他记录了当前索引中所有的SEGMENT信息。
2.fnm格式
  改格式文件包含了DOCUMENT中所有的FIELD的名称
3..fdx与.fdt格式文件
   .fdt类型文件用于存储具有Store.YES属性的Field的数据。而.fdx类型文件则是一个索引用于存储Document在.fdt中的位置。
4..tii格式和.tis格式
  .tis文件用于存储分词后的词条,而.tii就是他的索引文件,他标明了每个.tis文件中的词条的位置
5.deletable格式
  在LUCENE的索引中,所有的文档被删除后并不是立刻从索引中去除,而是留待下一次合并索引货是对索引进行优化时候才真正删除,有点类似回收站的功能。这种功能就是通过deletable文件实现。所有文件被删除后,会首先在deletable文件中留下一笔记录,要真正删除时候才将索引除去。
6.复合索引格式.cfs
  在indexwriter中有个属性useCompoundFile他的默认值是TRUE,这个属性含义,是否使用复合索引格式来保存索引。索引的内容可能非常的大,文件数量也可能非常的多,使用复合索引来存储DOCUMEN,只需要初始化完一个INDEXWRITER对象后,使用该方法就可以了。
使用该方法就是将除了6以外的文件类似打包一样集合起来。

分享到:
评论

相关推荐

    Lucene索引文件格式

    《Lucene索引文件格式详解》 Lucene,作为一款强大的全文搜索引擎库,其索引文件格式是实现高效搜索的关键。本文将深入解析Lucene 1.3版本的索引文件结构,帮助读者理解其内部运作机制。 首先,我们要理解Lucene...

    Lucene读取索引文件

    阅读和解析Lucene索引文件通常需要借助于Lucene提供的API。首先,通过`Directory`接口打开索引目录,如`FSDirectory.open()`方法,指定索引文件所在的路径。然后,创建`IndexReader`实例,它提供了访问索引文档的...

    luke源码--查看lucene索引文件

    源码目录(src)是Luke的核心部分,包含了所有Java源代码,这些代码负责解析、显示和解释Lucene索引。通过阅读和研究源码,我们可以了解到Luke如何读取索引段、字段和文档,以及如何展示这些信息。例如,Luke提供了...

    lucene索引查看工具及源码

    在使用 Lucene 进行信息检索时,有时我们需要对建立的索引进行查看、调试或分析,这时就需要借助 Lucene 的索引查看工具。 Luke 是一个非常实用的 Lucene 索引浏览器,全称为 Lucidworks Luke。它允许用户以图形化...

    Lucene索引器实例

    **Lucene索引器实例详解** Lucene是一个高性能、全文本搜索库,由Apache软件基金会开发,被广泛应用于各种搜索引擎的构建。它提供了一个高级的、灵活的、可扩展的接口,使得开发者能够轻松地在应用程序中实现全文...

    Lucene 索引的简单使用

    以上就是关于“Lucene索引的简单使用”的详细介绍,包括其核心概念、创建和查询索引的步骤以及一些高级特性。希望对你理解和应用Lucene有所帮助。在实际开发中,可以根据需求选择合适的Analyzer,优化索引策略,以...

    Lucene索引和查询

    **Lucene索引和查询** Lucene是Apache软件基金会的开放源码全文搜索引擎库,它提供了文本检索的核心工具,使得开发者能够快速构建自己的搜索应用。本项目中的代码旨在展示如何利用Lucene对多个文件夹下的数据进行...

    深入 Lucene 索引机制

    以下是对Lucene索引机制的详细解析: 一、Lucene的索引过程 1. 文档分析:当向Lucene添加文档时,首先会经过一个分词器(Tokenizer),将文本拆分成一系列的词项(Token)。接着,这些词项会被过滤(Filter)和...

    毕设 Lucene解析索引PDF文档的内容

    iTextPDFExtractor.java ------ ...--PDFBox创建PDF文件的Lucene索引 PDFBoxPathIndex.java ------- --PDFBox创建指定目录PDF文档索引 POIOfficeExtractor.java ----- -- POI处理Excel和Word文档代码

    lucene索引结构原理

    **Lucene索引结构原理** Lucene是Apache软件基金会的开放源代码全文搜索引擎库,它为Java开发人员提供了强大的文本搜索功能。理解Lucene的索引结构原理对于优化搜索性能和设计高效的搜索应用至关重要。 首先,我们...

    lucene 索引小示例

    《Lucene索引小示例解析》 Lucene是一个高性能、全文检索库,它由Apache软件基金会开发并维护。在Java编程环境中,Lucene被广泛应用于构建搜索功能,特别是对于大量文本数据的高效检索。本篇文章将通过一个简单的小...

    Lucene对本地文件多目录创建索引

    - `lukeall-0.8.1.jar`:Luke是一个用于查看和分析Lucene索引的工具,可以帮助开发者调试和理解索引结构。 - `log4j-1.2.12.jar`:日志框架,用于记录程序运行时的信息。 - `commons-httpclient-3.1.jar`:可能是...

    lucene 对 xml建立索引

    - 在建立索引之前,需要先将XML文档转换为Lucene能够理解的数据格式。 - 本例中采用SAX解析器来进行XML文档的解析,通过重写SAX处理器类的方法(如`startDocument()`、`endDocument()`、`startElement()`等)来...

    lucene索引优化多线程多目录创建索引

    4. **并行索引**:每个线程独立地读取分配的子目录中的文件,使用Analyzer处理文本,然后添加到相应的IndexWriter中。 5. **合并索引**:所有线程完成索引后,使用IndexWriter的`addIndexes()`方法将所有子索引合并...

    Lucene索引分析工具

    **Lucene索引分析工具详解** Lucene是一个高性能、全文本搜索库,它为开发者提供了在应用程序中实现全文检索功能的基础。在这个场景中,我们关注的是一个专门针对Lucene.net的索引分析工具,该工具被称为"Lucene...

    luke-7.1.0 lucene索引查看工具

    **luke-7.1.0:Lucene索引查看工具详解** Luke是Apache Lucene项目的一个重要辅助工具,主要用于查看、分析和测试Lucene创建的索引。这个7.1.0版本提供了对Lucene索引的强大洞察力,帮助开发者、搜索引擎优化者以及...

    Lucene5写的全文搜索的demo,包括创建索引和搜索

    为了运行 Lucene 示例,首先需要在 Eclipse 中导入这些设置,创建一个 Java 项目,并将 Lucene 相关库(如 `libs` 目录中的 jar 文件)添加到项目的类路径中。 2. **创建索引** - 在 Lucene 中,创建索引是搜索的...

    luke--- lucene索引数据查看器

    2. **打开索引**:选择要查看的Lucene索引目录,Luke会自动加载并解析索引结构。 3. **浏览索引**:在界面左侧选择要查看的字段,右侧则会显示字段的详细信息。 4. **搜索测试**:在搜索框输入查询,点击“Execute...

Global site tag (gtag.js) - Google Analytics