Lucene4.3进阶开发之李代桃僵( 八)

全部 Linux 数据库敏捷编程数据结构软件测试项目管理 Oracle 编程综合互联网 Erlang MySQL

浏览 1731 次

锁定老帖子主题：Lucene4.3进阶开发之李代桃僵( 八) 精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者	正文
qindongliang1922 等级: 性别: 文章: 170 积分: 840 来自: 北京	发表时间：2014-01-15 相关推荐: lucene4.3源码 Lucene4.X实战类baidu搜索的大型文档海量搜索系统-17.Lucene高级进阶3 共4页.pptx Lucene4.X实战类baidu搜索的大型文档海量搜索系统-16.Lucene高级进阶2 共4页.pptx Lucene4.X实战类baidu搜索的大型文档海量搜索系统-15.Lucene高级进阶1 共23页.pptx lucene 4.3所用到的包更多相关推荐 Lucene lucene的.fnm文件上篇文章，散仙介绍了段文件格式的组成以及结构，那么本篇呢，我们来分析下.fnm这个文件这个文件存储的主要是域（Fileds）字段名，在索引文件中的后缀名为.fnm。下面先来看下.fnm的数据类型。 Header--> CodecHeader FieldsCount-->VInt FieldName-->String FieldBits, DocValuesBits-->Byte FieldNumber-->VInt Attributes-->Map<String,String> DocValuesGen-->Int64 详细描述如下： FieldsCount：记录的是域名在当前文件的数量 FieldName:域名在文件中保存为UTF-8字符串 FieldNumber：字段的编号， FieldBits：一个字节包含字段的选项信息（1）低阶位是1代表是索引字段，bit为0代表非索引(Indexs)字段（2）第二个低阶位是1代表有向量存储，bit为0代表无向量(term vectors)存储（3）第三个低阶位被设置成(0x4)，offsets(偏移量)将会被存储在倒排链表里，除了位置信息（4）第四个bit位从未被使用过（5）第五个bit位被设置成(0x10)，norm（加权基准）将会被忽略在索引字段里（6）第六个bit位被设置成(0x20)，payload（载荷）将会被被存储在索引字段里（7）第七个bit位被设置成(0x40)，term frequencies（词频） and positions（位置）将会在索引字段里被忽略（8）第八个bit位被设置成(0x80)，positions（位置）信息，将不会被忽略在索引字段里 DocValuesBits：一个字节包含每个文档的值类型，这个被记录用2个4位字节的int类型，高阶位代表（norms）加权基准的选项，低阶位代表DocValues的选项，每个4位字节的整数可以被解码： 0：代表这个字段没有存储DocVlues 1：数字类型的NumericDocValues 2：二进制类型的BinaryDocValues 3：排序类型的SortedDocValues DocValuesGen是字段的DocValues里面的数量，如果这个值为1，代表着没有DocValues更新该字段，其他任何大于0的数字代表其被更新存储通过DocValuesFormat. Attributes：一个K-V映射的编码的属性存储。 DocValuesFormat：作用是为每个文档进行编码以及解码的工作，如果有自己定义的格式需要加入或扩展可以继承改类，为了能够使段文件读取，必须需要定义格式名，这个方法使用的是JAVA的SPI进行定义的，在扩展的类里面必须有一个无参的构造函数以确保SPI可以解析。声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

论坛首页 → 综合技术版

跳转论坛: