lucene的创建索引 -

zm2011

浏览: 39536 次

最近访客更多访客>>

yyyxiaojun

snower1995

gaoyifeng1987

godtiger

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

lucene的创建索引

博客分类：

lucene

lucene 索引

本人用的是lucene3.4，由于刚接触lucene不就，如果有不正当的地方请大家指出。

要想对数据进行检索，首先对数据进行索引，这样当搜索时才能够根据索引找到信息。

Directory directory = FSDirectory.open(new File("d:\\lucene"));
			//IndexWriter indexWriter = new IndexWriter(directory, new IndexWriterConfig(Version.LUCENE_34, new StandardAnalyzer(Version.LUCENE_34, stopWords)));
			IndexWriterConfig config = new IndexWriterConfig(Version.LUCENE_34, new StandardAnalyzer(Version.LUCENE_34));
			//最大缓存文档数,控制写入一个新的segment前内存中保存的document的数目
			config.setMaxBufferedDocs(100);
			//控制一个segment中可以保存的最大document数目，值较大有利于追加索引的速度，默认Integer.MAX_VALUE，无需修改。
			config.setMaxBufferedDocs(Integer.MAX_VALUE);
			IndexWriter indexWriter = new IndexWriter(directory, config);
			
			
			Document doc = new Document();
			
			//设置Field的name是为了搜索时更精确，比如只想在title中搜索。
			Field idField = new Field("id", blog.getId() + "", Field.Store.YES, Field.Index.NO);
			Field titleField = new Field("title", blog.getTitle(), Field.Store.YES, Field.Index.ANALYZED);
			Field contentField = new Field("content", blog.getContent(), Field.Store.NO, Field.Index.ANALYZED);
			Field dateField = new Field("date", blog.getDate(), Field.Store.YES, Field.Index.NO);
			
			doc.add(titleField);
			doc.add(contentField);
			doc.add(idField);
			doc.add(dateField);
			//将document加入到indexwriter中以便写入索引文件
			indexWriter.addDocument(doc);
			//对所有的segment做优化，使所有的segments合并为一个。
			indexWriter.optimize();
			indexWriter.close();

第一行是在本地磁盘创建一个索引文件所在的位置。FSDirectory是指在硬盘创建索引。
document代表一条记录，比如数据库中的一条记录。一条记录经过索引之后，就是以一个document的形式存储在索引文件中。
Field代表一个信息域，一个document可以包含多个信息域。Field有两个属性可选：存储和索引。Field.Store.NO ：不保存到索引中，Field.Store.YES ：保存到索引中。Field.Index.ANALYZED ：分词，建立索引
这样一条记录索引就创建好了

以下是创建索引的一些API：

IndexWriter:用于创建和维持一个索引。
其构造函数中的参数”create”用于决定是否创建一个新的索引或者打开一个已经存在的索引。注意：即使有人正在访问一个索引你也可以通过设置create=true来打开一个索引。但先前的访问者只能访问你打开索引这个时间点以前的索引，而不恩那个访问最新的，除非他们再次打开。也有无create参数的构造方法，在这样的构造方法中会判断所设置的路径索引是否已经存在，如果存在则打开，如果不存在则创建。
使用addDocument方法增加document或调用deleteDocuments（Term）/deleteDocuments（Query）删除document，也可以调用updateDocument更新一个document，这个方法是把相应的document删除然后在增加指定的document。当执行完添加、删除或更新操作后应该调用close方法。
以上的方法引起的改变是缓存在内存中的并定期冲刷到目录里（Directory）。当上一次冲刷后所增加的document或所删除的document（setMaxBufferDeleteTerms(int)）达到了所设置的缓存则一次新的冲刷被触发。对于添加来说，一次冲刷通过添加document的数量被处罚，或者通过设置RAM使用量（setRAMBufferSizeMB(double)）被触发。默认的RAM使用量是16MB，应该设置RAM高点以提高检索速度。注意：冲刷仅仅是把IndexWriter内部的状态传到索引中，但是这些改变对IndexReader是不可见的，除非调用了commit（）或close（）。也就是说如果添加了一个document但是没有执行close方法，那么通过IndexReader检索时不能检索出刚添加的这个document。当一个或多个segment段合并时，一次冲刷也会被触发，但是是在后台线程执行，以免和addDocument冲突。
如果一次添加的document不多，又希望索引有更高的性能，可以在调用close方法前进行完全优化（optimize）或局部优化optimize(int)。
正在打开着的Indexwriter对索引目录创建了一个锁定文件。那么如果在同一个索引目录打开另一个IndexWriter会抛出LockObtionFailedException。同样的异常也会抛出，如果IndexReader试图在一个已经使用的索引目录中删除document。
IndexWriter是线程安全的，意味着你可以多个线程同时调用自己的方法。

IndexWriterConfig：存储IndexWriter的配置，应该实例化这个类然后传到IndexWriter内。如果需要事后设置属性可以调用IndexWriter.getConfig();所有设置属性的方法都会返回一个IndexWriterConfig对象，所以可以通过设置链进行多个属性的设置。例如conf.setter1().setter2();

Directory：是一个文件列表，当文件被创建的时候会被写入到此目录。

Document是索引或检索的单元。一个Document是一个fields集合。每个field有一个名字和一个文本值。一个field可以通过一个document存储，这时，field通过检索hits中的document返回，这样每个document包含只属于自己的一个或多个field。

Field：是document的一部分，包括一个name和一个值。值可以是自由文本、字符串、或Reader

分享到：

转义符回车和换行的不同

2011-12-08 16:15
浏览 1681
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

lucene的创建索引

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

lucene的创建索引

评论

发表评论

相关推荐

lucene不同版本对jdk版本要求

Hibernate search的@ContainedIn和@IndexedEmbedded

lucene索引的更新和删除

Lucene的检索

最近访客更多访客>>