summerbell

浏览: 816698 次
性别:
来自: 武汉

最近访客更多访客>>

wangweihuamy

icnd

wyhappiness

玫瑰步道

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Lucene搜索方法总结

博客分类：

Lucene&切分词

lucene MySQL 全文检索 Hadoop 多线程

Lucene搜索方法总结

更多lucene信息欢迎查看http://summerbell.iteye.com/category/91859

1.多字段搜索

使用 multifieldqueryparser 可以指定多个搜索字段。

query query = multifieldqueryparser.parse(”name*”, new string[] { fieldname, fieldvalue }, analyzer);

indexreader reader = indexreader.open(directory);

indexsearcher searcher = new indexsearcher(reader);

hits hits = searcher.search(query);

2.多条件搜索

除了使用 queryparser.parse 分解复杂的搜索语法外，还可以通过组合多个 query 来达到目的。

query query1 = new termquery(new term(fieldvalue, “name1′)); // 词语搜索

query query2 = new wildcardquery(new term(fieldname, “name*”)); // 通配符

//query query3 = new prefixquery(new term(fieldname, “name1′)); // 字段搜索 field:keyword，自动在结尾添加 *

//query query4 = new rangequery(new term(fieldnumber, numbertools.longtostring(11l)), new term(fieldnumber, numbertools.longtostring(13l)), true); // 范围搜索

//query query5 = new filteredquery(query, filter); // 带过滤条件的搜索

booleanquery query = new booleanquery();

query.add(query1, booleanclause.occur.must);

query.add(query2, booleanclause.occur.must);

indexsearcher searcher = new indexsearcher(reader);

hits hits = searcher.search(query);

3.过滤

使用 filter 对搜索结果进行过滤，可以获得更小范围内更精确的结果。

举个例子，我们搜索上架时间在 2005-10-1 到 2005-10-30 之间的商品。

对于日期时间，我们需要转换一下才能添加到索引库，同时还必须是索引字段。 // index

document.add(fielddate, datefield.datetostring(date), field.store.yes, field.index.un_tokenized);

//…

// search

filter filter = new datefilter(fielddate, datetime.parse(”2005-10-1′), datetime.parse(”2005-10-30′));

hits hits = searcher.search(query, filter);

除了日期时间，还可以使用整数。比如搜索价格在 100 ~ 200 之间的商品。

lucene.net numbertools 对于数字进行了补位处理，如果需要使用浮点数可以自己参考源码进行。 // index

document.add(new field(fieldnumber, numbertools.longtostring((long)price), field.store.yes, field.index.un_tokenized));

//…

// search

filter filter = new rangefilter(fieldnumber, numbertools.longtostring(100l), numbertools.longtostring(200l), true, true);

hits hits = searcher.search(query, filter);

使用 query 作为过滤条件。 queryfilter filter = new queryfilter(queryparser.parse(”name2′, fieldvalue, analyzer));

我们还可以使用 filteredquery 进行多条件过滤。

filter filter = new datefilter(fielddate, datetime.parse(”2005-10-10′), datetime.parse(”2005-10-15′));

filter filter2 = new rangefilter(fieldnumber, numbertools.longtostring(11l), numbertools.longtostring(13l), true, true);

query query = queryparser.parse(”name*”, fieldname, analyzer);

query = new filteredquery(query, filter);

query = new filteredquery(query, filter2);

indexsearcher searcher = new indexsearcher(reader);

hits hits = searcher.search(query);

4.分布搜索

我们可以使用 multireader 或 multisearcher 搜索多个索引库。

multireader reader = new multireader(new indexreader[] { indexreader.open(@”c:\index”), indexreader.open(@”\\server\index”) });

indexsearcher searcher = new indexsearcher(reader);

hits hits = searcher.search(query);

或

indexsearcher searcher1 = new indexsearcher(reader1);

indexsearcher searcher2 = new indexsearcher(reader2);

multisearcher searcher = new multisearcher(new searchable[] { searcher1, searcher2 });

hits hits = searcher.search(query);

还可以使用 parallelmultisearcher 进行多线程并行搜索。

5.显示搜索语法字符串

我们组合了很多种搜索条件，或许想看看与其对等的搜索语法串是什么样的。 booleanquery query = new booleanquery();

query.add(query1, true, false);

query.add(query2, true, false);

//…

console.writeline(”syntax: {0}”, query.tostring());

输出：

syntax: +(name:name* value:name*) +number:[0000000000000000b to 0000000000000000d]

呵呵，就这么简单。

6.如何删除索引

lucene提供了两种从索引中删除document的方法，一种是

void deleteDocument(int docNum)

这种方法是根据document在索引中的编号来删除，每个document加进索引后都会有个唯一编号，所以根据编号删除是一种精确删除，但是这个编号是索引的内部结构，一般我们不会知道某个文件的编号到底是几，所以用处不大。另一种是

void deleteDocuments(Term term)

这种方法实际上是首先根据参数term执行一个搜索操作，然后把搜索到的结果批量删除了。我们可以通过这个方法提供一个严格的查询条件，达到删除指定document的目的。

下面给出一个例子：

Directory dir = FSDirectory.getDirectory(PATH, false);

IndexReader reader = IndexReader.open(dir);

Term term = new Term(field, key);

reader.deleteDocuments(term);

reader.close();

ms还有操作

deleteDocuments(Term);
deleteDocuments(Term[]);
deleteDocuments(Query);
deleteDocuments(Query[]);

7.如何更新索引

注：据多人反应，新版本的lucene以及提供了更新索引的方法。

writer.updateDocument(doc);

————————————————————javaeye分割线——————————————

lucene并没有提供专门的索引更新方法，我们需要先将相应的document删除，然后再将新的document加入索引。例如：

Directory dir = FSDirectory.getDirectory(PATH, false);

IndexReader reader = IndexReader.open(dir);

Term term = new Term(“title”, “lucene introduction”);

reader.deleteDocuments(term);

reader.close();

IndexWriter writer = new IndexWriter(dir, new StandardAnalyzer(), true);

Document doc = new Document();

doc.add(new Field("title", "lucene introduction", Field.Store.YES, Field.Index.TOKENIZED));

doc.add(new Field("content", "lucene is funny", Field.Store.YES, Field.Index.TOKENIZED));

writer.addDocument(doc);

writer.optimize();

writer.close();

8.多样化的搜索

/** *** 一个关键字，对一个字段进行查询 **** */

QueryParser qp = new QueryParser("content",analyzer);

query = qp.parse(keyword);

Hits hits = searcher.search(query);

/** *** 模糊查询 **** */

Term term = new Term("content",keyword);

FuzzyQuery fq = new FuzzyQuery(term);

Hits hits = searcher.search(fq);

/** *** 一个关键字，在两个字段中查询 **** */

* 1.BooleanClause.Occur[]的三种类型： MUST : + and MUST_NOT : - not SHOULD : or

* 2.下面查询的意思是：content中必须包含该关键字，而title有没有都无所谓

* 3.下面的这个查询中，Occur[]的长度必须和Fields[]的长度一致。每个限制条件对应一个字段

BooleanClause.Occur[] flags = new BooleanClause.Occur[]{BooleanClause.Occur.SHOULD,BooleanClause.Occur.MUST};

query=MultiFieldQueryParser.parse(keyword,new String[]{"title","content"},flags,analyzer);

/** *** 两个(多个)关键字对两个(多个)字段进行查询,默认匹配规则 **** */

* 1.关键字的个数必须和字段的个数相等

* 2.由于没有指定匹配规定，默认为"SHOULD" 因此，下面查询的意思是："title"中含有keyword1 或 "content"含有keyword2.

* 在此例中，把keyword1和keyword2相同

query=MultiFieldQueryParser.parse(new String[]{keyword,keyword},new

String[]{"title","content"},analyzer);

/** *** 两个(多个)关键字对两个(多个)字段进行查询,手工指定匹配规则 **** */

* 1.必须关键字的个数 == 字段名的个数 == 匹配规则的个数

* 2.下面查询的意思是："title"必须不含有keyword1,并且"content"中必须含有keyword2

BooleanClause.Occur[] flags = new

BooleanClause.Occur[]{BooleanClause.Occur.MUST_NOT,BooleanClause.Occur.MUST};

query=MultiFieldQueryParser.parse(new String[]{keyword,keyword},new

String[]{"title","content"},flags,analyzer);

/** *** 对日期型字段进行查询 **** */

/** *** 对数字范围进行查询 **** */

* 1.两个条件必须是同一个字段

* 2.前面一个条件必须比后面一个条件小，否则找不到数据

* 3.new RangeQuery中的第三个参数，表示是否包含"=" true: >= 或 <= false: > 或 <

* 4.找出 55>=id>=53 or 60>=id>=57:

Term lowerTerm1 = new Term("id","53");

Term upperTerm1 = new Term("id","55");

RangeQuery rq1 = new RangeQuery(lowerTerm1,upperTerm1,true);

Term lowerTerm2 = new Term("id","57");

Term upperTerm2 = new Term("id","60");

RangeQuery rq2 = new RangeQuery(lowerTerm2,upperTerm2,true);

BooleanQuery bq = new BooleanQuery();

bq.add(rq1,BooleanClause.Occur.SHOULD);

bq.add(rq2,BooleanClause.Occur.SHOULD);

Hits hits = searcher.search(bq);

9.结果排序

排序的关键点有两个：

1:首先你要排序的字段必须是被index的，并且是untokenized的。

如：

doc.add(new Field("click", dv.get("click").toString(), Field.Store.NO, Field.Index.UN_TOKENIZED));

2：在检索时候：

如：

/***** 排序 *****/

* 1.被排序的字段必须被索引过(Indexecd)，在索引时不能用 Field.Index.TOKENIZED

* (用UN_TOKENIZED可以正常实现.用NO时查询正常，但排序不能正常设置升降序)

* 2.SortField类型

* SCORE、DOC、AUTO、STRING、INT、FLOAT、CUSTOM 此类型主要是根据字段的类型选择

* 3.SortField的第三个参数代表是否是降序true:降序 false:升序

Sort sort = new Sort(new SortField[]{new SortField("click", SortField.INT, true)});

Hits hits = searcher.search(querystring,sort);

* 按日期排序

Sort sort = new Sort(new SortField[]{new SortField("createTime", SortField.INT, false)});

/***** 过滤器 ******/

QueryParser qp1 = new QueryParser("content",analyzer);

Query fquery = qp1.parse("我");

BooleanQuery bqf = new BooleanQuery();

bqf.add(fquery,BooleanClause.Occur.SHOULD);

QueryFilter qf = new QueryFilter(bqf);

Hits hits = searcher.search(query);

10.将小索引文件合并到大的索引文件中去(此方法性能不佳)

/** 将小索引文件合并到大的索引文件中去

* @param from 将要合并到to文件的文件

* @param to 将from文件合并到该文件

* @param analyzer

private void mergeIndex(File from,File to,Analyzer analyzer)

{

IndexWriter indexWriter = null;

try{

System.out.println("正在合并索引文件!\t");

indexWriter = new IndexWriter(to,analyzer, false);

indexWriter.setMergeFactor(100000);

indexWriter.setMaxFieldLength(Integer.MAX_VALUE);

indexWriter.setMaxBufferedDocs(Integer.MAX_VALUE);

indexWriter.setMaxMergeDocs(Integer.MAX_VALUE);

FSDirectory[] fs = {FSDirectory.getDirectory(from,false)};

indexWriter.addIndexes(fs);

indexWriter.optimize();

indexWriter.close();

System.out.println("已完成合并!\t");

}

catch(Exception e)

{

Utility.writeLog("合并索引文件出错！mergeIndex()"+e.getMessage(),"");

}

finally

{

try{

if(indexWriter!=null)

indexWriter.close();

}

catch(Exception e ){

}

合并时间是从每天的凌晨3点钟开始,一直到早上9点左右,足足用5个小时才合并完成,其中大索引文件大小为4G,小索引为10MB.

11.问题2：单字共现频率的局部统计的原理

解答：

高频字串统计的理论基础是N - 元模型。

设W1 W2 ...WN 是长度为N 的字串,则字串W 的似然度为
p ( W) = p ( w i | w1 w2 ...w i - 1) (1)
上面公式的意义反映连续个N 字之间的结合程度,如果若干种不同的历史组合W1 W2 ...WN的最后N - 1 个字相同,就把它们都看作一类。在这一假设下,每一个字出现的概率不再与前面的历史有关,只与最近的N - 1 个字相关,字串的先验概率为
p ( W) = p ( w i - ( n - 1) w i - ( n - 2) ...w i - 1) (2)
当p ( W) 超过一定的阈值时,说明这N 个字的结合能力较强,我们就可以认为该字串能被看成一个“词”。

正是根据以上所说原理，预先对待分词文本每个单字进行出现次数统计并记录它们在文中出现的位置（存储方式如附件图例所示），预处理后我们遍历单字频次统计列表出现次数大于2的所有单字在文中出现的位置i，判断位置i+1的单字出现次数是否也大于2，若是则判断位置i+2的单字出现次数是否也大于2，如此类推直至位置i+n+1的单字出现次数小于2，获得候选词组 w(i,i+1...i+n)并放入候选词汇集合，最后对候选词汇集合进行前缀后缀处理获得合适的高频词汇集合result

12.索引合并

writer.addIndexes(indexDirs);

lucene_take_away.rar (5.5 MB)
下载次数: 1570

查看图片附件

分享到：

ieee754的浮点数问题 | Luke简介

2010-01-13 16:07
浏览 6262
评论(24)
论坛回复 / 浏览 (22 / 36705)
分类:编程语言
查看更多

24 楼 summerbell 2010-12-03

lijin2031427 写道

请问 lucene 支持附件内容检索吗，支持的话用哪个方法可以实现？

附件？我只知道将附件视为一个文本来做，同时与正文关联~

23 楼 lijin2031427 2010-12-02

请问 lucene 支持附件内容检索吗，支持的话用哪个方法可以实现？

22 楼 lyj552041 2010-09-02

恩，LZ写不错，系统的总结了。

21 楼 sonyfe25cp 2010-01-20

summerbell 写道

sonyfe25cp 写道

同样不能看lz给的更多内容的链接..
你给的链接是不是你编辑文章时候的那个链接？而不是发布之后的？（猜测...）

lz 能不能讲解下 RemoteSearchable 这个相关使用？
对lz的分布式搜索比较感兴趣~~

谢谢~

链接问题是我自己大意了~已修正。
至于RemoteSearchable，lucene java项目自己是没有提供的。
据说可以采用分布式文件系统，如Hadoop中的HDFS。
另一个很直观的做法就是自己写一个分布式通信系统，轮询多台存放lucene索引的节点，并整合每个节点返回的结果作为最后的搜索结果。

我自己使用的是最偷懒的做法，放弃了lucene java，而转用mysql的全文检索功能。这样每个mysql数据库维护一套索引，用的时候直接查就好，通信系统mysql自带了。我觉得mysql比lucene唯一有缺陷的地方在于mysql没有一个很好的评级公式，来计算文档与查询的相关度。不过我们可以自己实现该评级公式，仿造lucene或者原创一个。效果也挺好的。

主要因为我在实验室里，对性能什么要求不高，少写代码多办事是王道。

细节就比较麻烦了，大概思路是这样，多多交流了。

hdfs曾经考虑过..由于种种原因而搁置.
现在研究lucene自带的各种remoteSearch..
跟lz情况恰好相反...我在实验室做导师的工程项目..要求性能、并发，事就那么多..怎么快怎么来..

多多交流~~

20 楼 summerbell 2010-01-19

sonyfe25cp 写道

19 楼 sonyfe25cp 2010-01-19

18 楼 summerbell 2010-01-18

wpfwupengfeiwpf 写道

楼主,更多内容咋看不了呢,权限不足

这个……好像javaeye规定要登录才可以看……不是我个人设置的……

17 楼 wpfwupengfeiwpf 2010-01-18

楼主,更多内容咋看不了呢,权限不足

16 楼 yak47 2010-01-18

楼主辛苦了。

15 楼 caoyangx 2010-01-18

huangfox 写道

summerbell 写道

Clayz 写道

lucene已经提供了更新索引的方法了.

确实，已经有朋友提到了，我现在加进来。

3.0中的实现机制貌似还是先删再添加~

没错。准确的说3.0的update是
writer.updateDocument(term, doc);
这里的term是删除索引用的，doc是建立新索引用的。有着2个参数自己都能实现update。

14 楼 summerbell 2010-01-15

Clayz 写道

lucene已经提供了更新索引的方法了.

确实，已经有朋友提到了，我现在加进来。

13 楼 summerbell 2010-01-15

ferly_j 写道

writer.updateDocument(doc);
更新索引，也许以前的版本是没有的

多谢，收藏进来。

12 楼 bevis.cn 2010-01-15

lucene就是不同版本之間的api變化太大

11 楼 ncowboy 2010-01-15

偷懒的小鱼写道

楼主能讲讲不同文件格式文档的（比如pdf,xml）解析和建索引吗

PDF，要先转化为TXT才行。你可以看看PDFBOX。

10 楼 ferly_j 2010-01-15

writer.updateDocument(doc);
更新索引，也许以前的版本是没有的

9 楼 fengsky491 2010-01-15

收藏之，学习之

8 楼 Clayz 2010-01-15

lucene已经提供了更新索引的方法了.

7 楼 caoyangx 2010-01-14

总结的不错，愿意分享的人就很高尚。收藏了。

6 楼 summerbell 2010-01-14

whaosoft 写道

呵呵支持lz 顺便问下能写个 compass的搜索方法总结吗?

lz对compass完全陌生，只知道compass也是在lucene基础上提供的全文检索服务。那么其搜索方式大约有一定的共性。

lz的主要研究领域在信息检索上（http://summerbell.iteye.com/category/91863），如果在这方面有问题欢迎交流~

5 楼 summerbell 2010-01-14

偷懒的小鱼写道

楼主给的链接是怎么一回事，只看到：

您没有权限执行这项操作，请检查登录的账号是否正确

楼主能讲讲不同文件格式文档的（比如pdf,xml）解析和建索引吗

至于pdf，xml等的解析和建索引，我先说解析。
常用的文件格式如pdf，doc(x),ppt(x),html,甚至包括Java class，image都可以通过内容抽取的工具Tika来完成。

话说其实一般说的lucene是指lucene java，是Apache Lucene下的一个子项目。其他子项目包括大名鼎鼎的Nutch以及我在这里提到的Tika。

Tika的更多信息和示例代码你可以查看http://summerbell.iteye.com/blog/565922，
我给出了Tika抽取docx，pdf，和html文件的代码和需要的jar包。

另外：
附件的问题我也觉得很诡异。
回头排查一下，似乎传上去以后改变了……

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Lucene搜索方法总结

1.多字段搜索

2.多条件搜索

3.过滤

4.分布搜索

5.显示搜索语法字符串

6.如何删除索引

7.如何更新索引

8.多样化的搜索

9.结果排序

10.将小索引文件合并到大的索引文件中去(此方法性能不佳)

11.问题2：单字共现频率的局部统计的原理

12.索引合并

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Lucene搜索方法总结

1.多字段搜索

2.多条件搜索

3.过滤

4.分布搜索

5.显示搜索语法字符串

6.如何删除索引

7.如何更新索引

8.多样化的搜索

9.结果排序

10.将小索引文件合并到大的索引文件中去(此方法性能不佳)

11.问题2：单字共现频率的局部统计的原理

12.索引合并

评论

发表评论

相关推荐

Stanford Dependence Relations（zz）

发现庖丁分词器的一个小问题

ictclas4j调整

Ictclas的一个bug（转）

Ubuntu下ICTCLAS JNI的使用

OneMain

资料准备

如何对一个Document的不同Filed使用不同的分词器

Luke简介

Apache Lucene Tika 文件内容提取工具

What Is Lucene?

ictclas4j词性表

Lucene Hack之通过缩小搜索结果集来提升性能

Lucene基础排序算法改进

ictclas4j分词模块

关于imdict-chinese-analyzer中文分词模块

最近访客更多访客>>