Lucene之索引建立

okwangxing

浏览: 29272 次
性别:
来自: 杭州

最近访客更多访客>>

miao600

眉眼间的绝美

hexiaojiao

h_h_m2632

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

搜索

lucene Hibernate Office 搜索引擎数据结构

Lucene可对email,网页,文本资料,doc,pdf之类的文档进行索引建立,在建立索引的时候可为以后的排序做些处理.但运行到分布式的环境中,需要考虑建立索引的性能问题,并发问题,多线程问题,死锁问题,一个Document中包含多个Field.

Index的建立大致步骤:

1.源数据文本化
由于index无固定schema,这样就允许了使用者随时的改变index,可以追加字段,重建Document.索引的建立都是分析源数据,从中提取出文本信息,对文本信息进行分析,并储存为索引.源数据可为html,xml,pdf,ms office 文件.这里需要注意的对其文本信息的提取,例如针对xml/html中的标签的过滤.这里可以用到Tika框架.

2.当源数据文本化后,需要对其做处理—analysis
这就对应到Document中的Fields,可调用IndexWriter的addDocument对其分析的数据添加进入索引.在这其中包含很多可选操作,比如:针对大小写区分的LowerCaseFilter.禁词的StopFilter.由此可以,自己可以建立自己的过滤链.

3.文件的存储
分析好的索引需要存储磁盘,而lucene存储的结构是倒排索引(inverted indexed).有利于节省磁盘空间和关键词快速查找.当前主流的搜索引擎皆是利用的倒排索引.

例如:
Xxx – abcd cde x
索引本身告诉外界,xxx我已经在abcd cde x这个句子里面了.

每个数据都有自己的格式,lucene也不例外,针对索引的存储有自己的格式.
每个索引(index)包含一个或者多个块segment,每个块是一个独立的索引.块的创建是在索引的添加,删除的时候,而在搜索的时候会分开访问块,再最终合并到一起.

块文件命名更是 segments_<N>,Lucene第一次打开的就是这些文件,再会打开被块文件引用到的文件.N值会随着索引的改变次数而增加的.格式为整型数.

addDocument(Document)//利用默认的分析器,与创建IndexWriter的分析器相同.
addDocument(Document,Anayzer)

添加索引
a.new Document
b.new Field->添加内容
c.document.add(field);
d.indexWriter.add(document);

Document doc = new Document();
doc.add(new Field("id", ids[i]/*array*/, Field.Store.YES,
Field.Index.NOT_ANALYZED));
doc.add(new Field("city", text[i] /*array*/, Field.Store.YES,
					Field.Index.ANALYZED));
writer.addDocument(doc);

删除索引
在删除或者添加比较多的时候,会影响到索引的吞吐量,推荐做逼批处理的添加或者删除,来获得更好的性能.在这里的删除是"软删除",可调用expungeDeletes来删除磁盘上的所以已标识删除的数据.
a.Term/Query
b.indexWriter.deleteDocument(??)

deleteDocuments(Term)// deletes all documents containing the provided term.
deleteDocuments(Term[])// deletes all documents containing any of the terms in the provided array.
deleteDocuments(Query)// deletes all documents matching the provided query.
deleteDocuments(Query[])// deletes all documents matching any of the queries in the provided.

@Test
public void testDelete() throws Exception{
	IndexWriter iw = new IndexWriter(directory,new WhitespaceAnalyzer(),IndexWriter.MaxFieldLength.UNLIMITED);
	Term term = new Term("id", "1");
	iw.deleteDocuments(term);
	iw.optimize();
	assertEquals(iw.numDocs(), 1);
	iw.close();
}

通过各Term删除单个document.
IndexWriter,IndexReader中的maxDoc()与numDocs()
maxDoc()返回下一个可取得文档的内部编号.
numDocs()返回未被删除的document数目.

更新索引

updateDocument(Term, Document)// first deletes all documents containing the provided term and then adds the new document using the writer’s default analyzer.
updateDocument(Term, Document, Analyzer)// does the same, but uses the provided analyzer instead of the writer’s default analyzer.

@Test
public void testUpdate() throws Exception {
	IndexWriter iw = new IndexWriter(directory, new WhitespaceAnalyzer(),IndexWriter.MaxFieldLength.UNLIMITED);
	Term term = new Term("id", "1");
	Document doc = new Document();
	doc.add(new Field("id", "3", Field.Store.YES,
					Field.Index.NOT_ANALYZED));
	iw.updateDocument(term, doc);
	iw.optimize();
	assertEquals(iw.maxDoc(),2);
	iw.close();
}

从以上程序中可看出Field是个极其重要的类.在这里定义了几个枚举类型

Index,Store,TermVector

Index:

Index.ANALYZED 
Index.NOT_ANALYZED 
Index.ANALYZED_NO_NORMS
Index.NOT_ANALYZED_NO_NORMS
Index.NO

查询会用到Field,会关系到Field的存储类型
Store

Store.YES //保存,可以被IndexReader说读取.
Store.NO  //不保存.

介于Store与 Index之间的参数,用来提供向量机制的模糊查询
TermVector

TermVector.YES //保存term vectors
TermVector.WITH_POSITIONS //保存term vectors(保存值和token位置信息)
TermVector.WITH_OFFSETS //保存term vectors (保存值和token offset信息)
TermVector.WITH_POSITIONS_OFFSETS //保存term vectors (保存值和token位置信息,token offset信息)
TermVector.NO //不保存term vectors