lucene以.gen ，.si为后缀名的文件。 -

weitao1026

浏览: 1064776 次
性别:
来自: 上海

最近访客更多访客>>

vicento4

723499280

liuzidong

s1986q

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

lucene以.gen ，.si为后缀名的文件。

博客分类：

lucene/solr/nuth/elasticsearch/MG4J

lucene java

介绍了Lucene里面所有的文件格式以及的作用，那么接下来的一系列文章里，将逐个细说，今天我们先来看下lucene索引文件格式里面的老大段文件，以.gen ，.si为后缀名的文件。

.si是记录段文件的元数据的信息，主要有如下的几个属性

数据类型描述
Header 记录一个头部编码，包含一个字符串去校验文件和版本号，它可以被解析和验证通过一个特定的方法，CodecHeader --> Magic,CodecName,Version Magic ->Uint32(32位无符号整数写成四个字节,高位字节),标识开始的头部CodecName->String 通过这个字符串校验文件Version ->Uint32(32位无符号整数写成四个字节,高位字节),记录文件的版本号
SegSize Int32
SegVersion String
Diagnostics, Attributes Map<String,String>
Files Set<String>
IsCompoundFile Int8

1，SegVersion段的版本号，是段文件创建时的编码版本。
2，SegSize是指包含在这个段文件里文档数（Document）的总数
3，IsCompoundFile记录着这个段在写入时，是否被作为一个复合索引文件，
如果是-1的话，则为正常的段索引文件，为1的话就是复合索引文件
4，Checksum，检验和，包含所有段文件中的所有字节的CRC32 checksum，
通常用于验证索引文件的完整性。
5，Diagnostics，诊断映射，它会私下被IndexWriter写入记录，作为一个Debug时的一个辅助工具，每个段文件都有一个对应的诊断映射，它包含一些元数据，包括一些lucene当前的版本号，操作系统，Java版本，以及它是怎么被创建的，是合并（merge），还是被刷新（flush），还是被多个索引合并（addindex）
6，Attributes，codec-private属性的键-值映射。
7，对于这个段来说，它被组成由多个文件

SegmentInfos这个类，几乎涵盖了段文件里所有的详细信息，提供了大量的方法用于在文件系统上操作段文件，segments_N往往是最活跃的文件，因为最新的段文件，常常面临着频繁的添加操作，这个文件包含了每个段的名字和细节编解码器和一些删除的元数据信息。

另外一个文件segments.gen，这个文件包含了以_N开头的在当前的段文件的记录，
这个文件仅仅作为一个备份，以防Directy不能准确的定位所写入的当前段文件是那一些以_N开头的，通常仅包含一个int32位的header信息。

文件:
segments.gen: GenHeader, Generation, Generation
segments_N: Header, Version, NameCounter, SegCount, <SegName, SegCodec, DelGen, DeletionCount, FieldInfosGen, UpdatesFiles>SegCount, CommitUserData, Checksum

数据类型：

Header---->CodecHeader
GenHeader, NameCounter, SegCount, DeletionCount --> Int32
Generation, Version, DelGen, Checksum, FieldInfosGen --> Int64
SegName, SegCodec --> String
CommitUserData --> Map<String,String>
UpdatesFiles --> Set<String>

介绍：
Version数量，记录着这个索引所有被添加或删除文档的个数。
NameCounter ，通常用于生成新的段文件名称
SegName ,段名称，通常被用于所有组成段文件的前缀名称
DelGen ，记录着所有段删除文件的数量，如果这个数是-1，则意味
着没有删除任何记录，除此之外，任何一个大于0的数字，则意味着
索引已经通过LiveDocsFormat进行了删除存储
DeletionCount，记录某一个段删除文档的数量
Checksum，校验和，上文有描述
SegCodec，是段文件的编码和解码后的名称
CommitUserData，用来提交一个用户提供不透明的Map结构的数据
FieldInfosGen ，域信息文件，记录段更新的次数，-1无更新，大于0的数字
则代表这更新的次数。
UpdatesFiles，存储在段过被更新过的文件。

分享到：

段文件格式的组成以及结构 | IndexWriterConfig这个配置管理类

2016-12-24 20:19
浏览 665
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

lucene以.gen ，.si为后缀名的文件。

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

lucene以.gen ，.si为后缀名的文件。

评论

发表评论

相关推荐

elasticsearch异常信息汇总

Elasticsearch的架构

怎么在Ubuntu上打开端口

Elasticsearch工作原理

Elasticsearch的路由（Routing）特性

Elasticsearch中的segment理解

Elasticsearch的路由（Routing）特性

Elasticsearch 的 Shard 和 Segment

开源大数据查询分析引擎现状

大数据处理方面的 7 个开源搜索引擎

开源大数据查询分析引擎现状

elasticsearch 把很多类型都放在一个索引下面 会不会导致查询慢

腾讯大数据Hermes爱马仕的系统

配置高性能Elasticsearch集群的9个小贴士

Elasticsearch与Solr

大数据杂谈微课堂|Elasticsearch 5.0新版本的特性与改进

ElasticSearch性能优化策略

ES索引优化

分词与索引的关系

Elasticsearch中的segment理解

最近访客更多访客>>

elasticsearch 把很多类型都放在一个索引下面会不会导致查询慢