lucene索引的建立相关笔记 -

hanshuai1232000

浏览: 93921 次
性别:
来自: 广州

最近访客更多访客>>

bp_qd

donenei

dearbayd

小高你好

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

lucene索引的建立相关笔记

博客分类：

lucene

lucene

在document内部，field是保存在一个Vector类型的对象数组中的。它的主要作用是用来维护它内部的field信息，包括对field的删除，增加，查找等操作
Segment其实是一个逻辑的概念，在一个索引中，可能有多个segment，lucene对索引管理的最大单位就是segment，。。

二，索引文件格式
1，segment
每一个segment代表lucene的一个完整索引段，每一个segment都有统一的前缀，这个前缀是根据当前索引的document的数量转成36进制，再前面再加一个下划线而成的
2，.fnm格式
该文件中包含了Document中的所有field名称
3，.fdx和.fdt格式
前者是一个索引，用于存储document在后者中的位置，后者是用于存储具有store.YES属性的Field的数据
4，.tii和.tis格式
.tis文件用于存储分词后的词条（term），而.tii就是它的索引文件，它标明了每个.tis文件中的词条的位置
5，deletable格式
所有文档被删除时并不是立刻从索引中去除，而是等待下一次合并索引或是对索引进行优化时才真正删除
6，复合索引格式.cfs,

三，索引的合并与索引优化
Directory类型本身是一个抽象类型，它有两个子类，分别为RAMDirectory和FSDirectory，第一个与内存相关，当lucene向其中写入索引时，则是在内存中的一个区域,优点是索引的速度很快，但却无法持久保存。第二个与文件系统的目录有关，当lucene向其中写入索引时，会直接将索引写到磁盘中。
它们初始化过程：
RAMDirectory ramDir = new RAMDirectory();
FSDirectory fsDir = FSDirectory.getDirectory(INDEX_STORE_PATH,true);
IndexWriter fsWriter = new IndexWriter(fsDir,new StandardAnalyzer(),true);
IndexWriter ramWriter = new IndexWriter(ramDir,new StandardAnalyzer(),true);

1，合并索引：fsWriter.addIndexes(new Directory[]{ramWriter });
在合并内存中的索引时，一定要注意将其相应的IndexWriter关闭，以保证滞留在缓存中的文档被“刷”到RAMDirectory中去，这点与使用FSDirectory时一样，否则索引文件并未真正写入目录中去
2，索引优化：IndexWriter的optimize（）

四，从索引中删除文档
4.1索引的读取工具IndexReader
IndexReader reader = IndexReader.open(索引路径);
IndexReader.numDocs（）----查看当前索引内总共有多少个Document；
Document(int i)拿到对应的document
一般删除有两种方式，1，通过id，但对于开发者来说，很难获得某个文档在索引内的id值，一般不多用。2，按Field信息来删除，：Term term = new Term(“bookname”,”女”);deleteDocuments(term);

分享到：

Heritrix简单又全面的入门 | lucene的各种query的笔记

2010-01-17 23:51
浏览 1129
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

lucene索引的建立相关笔记

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

lucene索引的建立相关笔记

评论

发表评论

相关推荐

lucene的各种query的笔记

自学lucene的一些整理

lucene布尔查询子句关系

Exception in thread "main" java.lang.NoClassDefFoundError:

最近访客更多访客>>