apache lucene 结构和主要的类

yidianfengfan

浏览: 125487 次
性别:
来自: 北京

最近访客更多访客>>

fengzhifu

xx5333

15606915740

u010214413

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

java

Apache 数据结构 lucene 多线程

Apache lucene提供的功能大体可以看作是给一些资料建成索引，再根据搜索词搜索出资料中一些内容。当中的类主要分为建索引和搜索两种。

一、建索引
建索引的过程为：输入一串源字符串，经过Analyzer分词处理，生成Document，其中各Field要索引的索引，要存储的存储，最终通过IndexWriter写入内存或磁盘。

写入相关：同

1. IndexWriter 主要是写索引，
2. Directory类分为FSDirectory和RAMDirectory。
3. Document 一个文档，是多个字段的集合，可以看作是数据库的一条记录，组合成Segment, document先在内存中保存一定的条数，到了加入到Segment，多个Segment有个MaxMerge, 到达这个数时合并成新的一个. Segment中Document有最多条数，一般是Integer.MAX_VALUE
4. Field 具体字段， Store， Index[NO_NORMS, NO, UN_TOKENIZED, TOKENIZED]，可能设置权值，以便搜索时排在前面。
5. Analyzer分析器，含Filter， Tokoner，主要的功能是按一定的规则进行分词、去除StopWord使输入串成一个个单词组

二、搜索索引
搜索的过程是：输入搜索词，通过Analyzer处理，再通过Parser组合成基本TermQuery搜索项。最终通过IndexSearch的search(query)，搜索出Document集合。

搜索相关的：

1. IndexSearcher 以只读的方式找开索引来搜索，（新的内容可以通过reopen）
indexSearcher.search(query, filter, sort)
2. Term:搜索的基本单元，一般与TermQuery相关， Term[key, content]
3. Query: TermQuery, BooleanQuery, PhraseQuery, PrefixQuery, PhrasePrefixQuery,
RangeQuery, FilterQuery, WildcardQuery
4. Filter 要查询时做预处理，并不是对结果集进行过滤。资源消耗比较大的
5. Sort 排序，对结果进行排序
5. Hits， hits.doc(i)

IndexReader
索引更新采用先根据IndexReader.deleteDocuments删除，然后再用IndexWriter.addDocument增加.

三、注意点：

1. 对于大数据量的建索引，可以分多线程，先RAMDirectory再到FSDirectory
2. 选择合适的分词器，对于索引时间和索引大小都有很大的影响
3. 对于搜索我们可以缓存一些结果或者是Query，以便不搜索索引或解析特别是于RangeQuery解析，对整个索引记录标记是特别耗时的。
4. 索引写的时候可以同时索引（写时在文件目录生成一个锁文件），写完索引搜索不出来新加入的问题的，要Indexsearch.reopen
5. 搜索时多个条件时一般都是BooleanQuery来组合TermQuery

查看图片附件

分享到：

svn常用命令与分支操作 | java内存结构与模型

2010-11-08 00:37
浏览 1565
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

apache lucene 结构和主要的类

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

apache lucene 结构和主要的类

评论

发表评论

相关推荐

dbcp配置选项

【转】git基本命令与使用流程

registered the JBDC driver [com.mysql.jdbc.Driver] but failed to unregister

svn常用命令与分支操作

java内存结构与模型

java异常处理

java client调用BlazeDS服务

json lib处理json与java之间转换

apache mina ERROR DEAD LOCK: IoFuture.await()

spring事务管理UnexpectedRollbackException

java中国际化Locale, ResourceBundle

static泛型方法

最近访客更多访客>>