- 浏览: 942053 次
- 性别:
- 来自: 北京
-
文章分类
- 全部博客 (445)
- 备忘 (0)
- java基础 (28)
- jsp (15)
- css (4)
- javascript (30)
- struts (7)
- servlet (2)
- struts2 (7)
- jdbc (16)
- hibernate (22)
- ibatis (0)
- jpa (1)
- spring (17)
- spring定时任务 (8)
- 整合开发 (12)
- JavaArticle (0)
- php (6)
- velocity (2)
- mysql (19)
- sqlserver (52)
- oracle (23)
- lucene (49)
- ajax (13)
- dwr (5)
- JFreeChart (1)
- service (14)
- tools (18)
- c#基础 (20)
- 程序安全 (0)
- 学习网站 (1)
- 社会需求 (2)
- flash (1)
- 流媒体 (1)
- java_code (1)
- htmlparser (1)
- 速动画教程 (5)
- 设计模式 (1)
- xml操作 (2)
- uml操作 (4)
- 测试 (1)
- linux (8)
- 版本控制 (4)
- 服务器 (12)
- 安全 (6)
- 美工 (2)
最新评论
-
Zhang_amao:
我想问一下, 你用的lucene版本和highligher的版 ...
使用Lucene的Highlighter实现文件摘要的自动提取 -
wangmengfanwangzhi:
博主,你的QQ是什么啊?有关于lucene的问题想要请教啊~~ ...
Lucene下载及测试 -
cutesunshineriver:
讲得很好,理解起来很顺,对个人学习的帮助性很大,谢谢博主。
velocity入门一 -
libin2722:
我这里有一个任务调度,在晚上3点时候会自动将数据库中某表的数据 ...
Lucene-2.2.0 源代码阅读学习(16) -
greatwqs:
java -cp $JVM_ARGS $classpath ...
java的cp命令
于MultiPhraseQuery(多短语查询)。
MultiPhraseQuery可以通过多个短语的拼接来实现复杂查询。
举个例子:现在使用StandardAnalyzer分析器建立索引,索引中是将单个的汉字作为一个一个地词条。使用这个分析器,因为没有像“今天”这样两个汉字组成词条,所以要想单独按照索引中的词条进行检索是不可能查询出任何结果的。
当然,有很多方案可以选择,其中MultiPhraseQuery就能够实现:
它可以指定一个前缀,比如“今”,而后缀是一个Term[]数组,可以是{new Term("年"),new Term("天")},则查询的时候只要含有“今年”和“今天”短语的Document都会查询出来。
而且,也可以指定一个后缀,多个前缀,还可以设定一个slop,指定前缀和后缀之间可以允许有多少个间隔。
下面分别测试一下使用MultiPhraseQuery的效果。
我总结了四种情形:
一个前缀,多个后缀
主函数如下所示:
package org.apache.lucene.shirdrn.main;
import java.io.IOException;
import java.util.Date;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.Term;
import org.apache.lucene.search.Hits;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.MultiPhraseQuery;
import org.apache.lucene.store.LockObtainFailedException;
public class MultiPhraseQuerySearcher {
private String path = "E:\\Lucene\\index";
private MultiPhraseQuery multiPhraseQuery;
public MultiPhraseQuerySearcher(){
multiPhraseQuery =new MultiPhraseQuery();
}
public void createIndex(){ // 建立索引
String indexPath = "E:\\Lucene\\index";
IndexWriter writer;
try {
//writer = new IndexWriter(indexPath,new ThesaurusAnalyzer(),true);
writer = new IndexWriter(indexPath,new StandardAnalyzer(),true);
Field fieldA = new Field("contents","今天是我们地球的生日。",Field.Store.YES,Field.Index.TOKENIZED);
Document docA = new Document();
docA.add(fieldA);
Field fieldB1 = new Field("contents","今晚的辩题很道地:谁知道宇宙空间的奥秘,在我们这些人当中?",Field.Store.YES,Field.Index.TOKENIZED);
Field fieldB2 = new Field("contents","我认为电影《今朝》是一部不错的影片,尤其是在今天,天涯海角到哪里找啊。",Field.Store.YES,Field.Index.TOKENIZED);
Field fieldB3 = new Field("contents","长今到底是啥意思呢?",Field.Store.YES,Field.Index.TOKENIZED);
Document docB = new Document();
docB.add(fieldB1);
docB.add(fieldB2);
docB.add(fieldB3);
Field fieldC1 = new Field("contents","宇宙学家对地球的重要性,今非昔比。",Field.Store.YES,Field.Index.TOKENIZED);
Field fieldC2 = new Field("contents","衣带渐宽终不悔,为伊消得人憔悴。",Field.Store.YES,Field.Index.TOKENIZED);
Document docC = new Document();
docC.add(fieldC1);
writer.addDocument(docA);
writer.addDocument(docB);
writer.addDocument(docC);
writer.close();
} catch (CorruptIndexException e) {
e.printStackTrace();
} catch (LockObtainFailedException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
}
public void useMultiPrefixExample(){ // 含有多个前缀的情形
Term termA = new Term("contents","道");
Term termB = new Term("contents","对");
multiPhraseQuery.add(new Term[]{termA,termB});
Term termC = new Term("contents","地");
multiPhraseQuery.add(termC);
}
public void useMultiSuffixExample(){ // 含有多个后缀的情形
Term termA = new Term("contents","今");
multiPhraseQuery.add(termA);
Term termB = new Term("contents","天");
Term termC = new Term("contents","晚");
Term termD = new Term("contents","非");
multiPhraseQuery.add(new Term[]{termB,termC,termD});
}
public void useMultiPrefixAndMultiSuffixExample(){ // 含有多个前缀、多个后缀的情形
Term termA = new Term("contents","生");
Term termB = new Term("contents","今");
multiPhraseQuery.add(new Term[]{termA,termB});
Term termC = new Term("contents","非");
Term termD = new Term("contents","日");
Term termE = new Term("contents","朝");
multiPhraseQuery.add(new Term[]{termC,termD,termE});
}
public void useSetSlopExample(){ // 设定slop的情形
Term termA = new Term("contents","我");
multiPhraseQuery.add(termA);
Term termB = new Term("contents","影");
Term termC = new Term("contents","球");
multiPhraseQuery.add(new Term[]{termB,termC});
multiPhraseQuery.setSlop(5);
}
public static void main(String[] args) {
MultiPhraseQuerySearcher mpqs = new MultiPhraseQuerySearcher();
mpqs.createIndex();
mpqs.useMultiSuffixExample(); // 调用含有多个后缀的实现
try {
Date startTime = new Date();
IndexSearcher searcher = new IndexSearcher(mpqs.path);
Hits hits = searcher.search(mpqs.multiPhraseQuery);
System.out.println("********************************************************************");
for(int i=0;i<hits.length();i++){
System.out.println("Document的内部编号为 : "+hits.id(i));
System.out.println("Document内容为 : "+hits.doc(i));
System.out.println("Document的得分为 : "+hits.score(i));
}
System.out.println("********************************************************************");
System.out.println("共检索出符合条件的Document "+hits.length()+" 个。");
Date finishTime = new Date();
long timeOfSearch = finishTime.getTime() - startTime.getTime();
System.out.println("本次搜索所用的时间为 "+timeOfSearch+" ms");
} catch (CorruptIndexException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
}
}
检索的结果如下所示:
********************************************************************
Document的内部编号为 : 0
Document内容为 : Document<stored/uncompressed,indexed,tokenized<contents:今天是我们地球的生日。>>
Document的得分为 : 1.0
Document的内部编号为 : 2
Document内容为 : Document<stored/uncompressed,indexed,tokenized<contents:宇宙学家对地球的重要性,今非昔比。>>
Document的得分为 : 0.79999995
Document的内部编号为 : 1
Document内容为 : Document<stored/uncompressed,indexed,tokenized<contents:今晚的辩题很道地:谁知道宇宙空间的奥秘,在我们这些人当中?> stored/uncompressed,indexed,tokenized<contents:我认为电影《今朝》是一部不错的影片,尤其是在今天,天涯海角到哪里找啊。> stored/uncompressed,indexed,tokenized<contents:长今到底是啥意思呢?>>
Document的得分为 : 0.5656854
********************************************************************
共检索出符合条件的Document 3 个。
本次搜索所用的时间为 141 ms
由上面的:
public void useMultiSuffixExample(){ // 含有多个后缀的情形
Term termA = new Term("contents","今");
multiPhraseQuery.add(termA);
Term termB = new Term("contents","天");
Term termC = new Term("contents","晚");
Term termD = new Term("contents","非");
multiPhraseQuery.add(new Term[]{termB,termC,termD});
}
可知,检索的是以“今”为唯一的前缀,后缀可以是“天”、“晚”、“非”,由检索结果可以看出:还有“今天”、“今晚”、“今非”的都被检索出来了。
多个前缀,一个后缀
调用useMultiPrefixExample()方法测试。
public void MultiPrefixExample(){
Term termA = new Term("contents","道");
Term termB = new Term("contents","对");
multiPhraseQuery.add(new Term[]{termA,termB});
Term termC = new Term("contents","地");
multiPhraseQuery.add(termC);
}
修改主函数中mpqs.useMultiSuffixExample();为mpqs.useMultiPrefixExample();,测试结果如下所示:
********************************************************************
Document的内部编号为 : 2
Document内容为 : Document<stored/uncompressed,indexed,tokenized<contents:宇宙学家对地球的重要性,今非昔比。>>
Document的得分为 : 0.88081205
Document的内部编号为 : 1
Document内容为 : Document<stored/uncompressed,indexed,tokenized<contents:今晚的辩题很道地:谁知道宇宙空间的奥秘,在我们这些人当中?> stored/uncompressed,indexed,tokenized<contents:我认为电影《今朝》是一部不错的影片,尤其是在今天,天涯海角到哪里找啊。> stored/uncompressed,indexed,tokenized<contents:长今到底是啥意思呢?>>
Document的得分为 : 0.44040602
********************************************************************
共检索出符合条件的Document 2 个。
本次搜索所用的时间为 94 ms
我们测试的目的是检索出含有“道地”和“对地”的Document,检索结果和我们的预期想法是一致的。
多个前缀,多个后缀
其实就是对前缀Term[]数组与后缀Term[]数组进行匹配,即:对前缀Term[]数组中的每个Term都与后缀Term[]数组中每个Term进行组合匹配,进行查询。
public void useMultiPrefixAndMultiSuffixExample(){
Term termA = new Term("contents","生");
Term termB = new Term("contents","今");
multiPhraseQuery.add(new Term[]{termA,termB});
Term termC = new Term("contents","非");
Term termD = new Term("contents","日");
Term termE = new Term("contents","朝");
multiPhraseQuery.add(new Term[]{termC,termD,termE});
}
这里,一种有6种组合:“生非”、“生日”、“生朝”、“今非”、“今日”、“今朝”。从索引文件中进行匹配,如果含有上面某个组合的短语,就为实际检索的结果。
修改主函数中mpqs.useMultiSuffixExample();为mpqs.useMultiPrefixAndMultiSuffixExample();,测试结果如下所示:
********************************************************************
Document的内部编号为 : 0
Document内容为 : Document<stored/uncompressed,indexed,tokenized<contents:今天是我们地球的生日。>>
Document的得分为 : 1.0
Document的内部编号为 : 2
Document内容为 : Document<stored/uncompressed,indexed,tokenized<contents:宇宙学家对地球的重要性,今非昔比。>>
Document的得分为 : 0.8
Document的内部编号为 : 1
Document内容为 : Document<stored/uncompressed,indexed,tokenized<contents:今晚的辩题很道地:谁知道宇宙空间的奥秘,在我们这些人当中?> stored/uncompressed,indexed,tokenized<contents:我认为电影《今朝》是一部不错的影片,尤其是在今天,天涯海角到哪里找啊。> stored/uncompressed,indexed,tokenized<contents:长今到底是啥意思呢?>>
Document的得分为 : 0.4
********************************************************************
共检索出符合条件的Document 3 个。
本次搜索所用的时间为 110 ms
设定slop间隔范围
默认的slop值为0,即表示多个词条直接连接构成短语进行检索。
设定slop后,只要间隔小于等于(<=)slop值都呗认为是满足条件的检索。
调用下面的方法:
public void useSetSlopExample(){
Term termA = new Term("contents","我");
multiPhraseQuery.add(termA);
Term termB = new Term("contents","影");
Term termC = new Term("contents","球");
multiPhraseQuery.add(new Term[]{termB,termC});
multiPhraseQuery.setSlop(5);
}
也就是,满足下面组合的都为检索结果:
我球、我■球、我■■球、我■■■球、我■■■■球、我■■■■■球
我影、我■影、我■■影、我■■■影、我■■■■影、我■■■■■影
其中,一个“■”表示与检索无关的一个词条,即间隔。
进行测试,结果如下所示:
********************************************************************
Document的内部编号为 : 0
Document内容为 : Document<stored/uncompressed,indexed,tokenized<contents:今天是我们地球的生日。>>
Document的得分为 : 0.6144207
Document的内部编号为 : 1
Document内容为 : Document<stored/uncompressed,indexed,tokenized<contents:今晚的辩题很道地:谁知道宇宙空间的奥秘,在我们这些人当中?> stored/uncompressed,indexed,tokenized<contents:我认为电影《今朝》是一部不错的影片,尤其是在今天,天涯海角到哪里找啊。> stored/uncompressed,indexed,tokenized<contents:长今到底是啥意思呢?>>
Document的得分为 : 0.21284157
********************************************************************
共检索出符合条件的Document 2 个。
本次搜索所用的时间为 109 ms
总结
从上面的几种情况可以看出MultiPhraseQuery的用法很灵活,而且很方便,要根据具体是应用进行选择。
发表评论
-
创建索引的时候出现的错误
2010-01-04 10:13 1753<OFMsg>251658517"1&q ... -
SQLServer2005获取大数据集时内存不足的解决办法
2009-02-12 10:59 2048今天在修改search的建立索引的程序的时候,发现了这个错误 ... -
使用Lucene的Highlighter实现文件摘要的自动提取
2009-02-06 16:52 6698使用Lucene自带的Highlighter就可以实现对原始文 ... -
Lucene倒排索引原理
2009-02-06 16:08 1180Lucene是一个高性能的java全文检索工具包,它使用的是倒 ... -
Lucene 2.2.0发布自带的HTMLParser的使用
2009-02-06 16:00 2588Lucene 2.2.0发行包中自带 ... -
Lucene关键字高亮显示
2009-02-06 15:53 2417在Lucene的org.apache.lucene.s ... -
Lucene-2.2.0 源代码阅读学习(42)
2009-02-06 15:46 1360关于Hits类。这个Hits类 ... -
Lucene-2.2.0 源代码阅读学习(41)
2009-02-06 15:40 1132当执行Hits htis = search(query);这一 ... -
Lucene-2.2.0 源代码阅读学习(40)
2009-02-06 15:34 1218关于Lucene检索结果的排序问题。 已经知道,Lucene的 ... -
Lucene-2.2.0 源代码阅读学习(39)
2009-02-06 15:31 1144关于Lucene得分的计算。 在IndexSearcher类中 ... -
Lucene-2.2.0 源代码阅读学习(38)
2009-02-06 15:13 1153关于QueryParser。 QueryParser是用来解析 ... -
Lucene-2.2.0 源代码阅读学习(37)
2009-02-06 15:06 1091关于MultiTermQuery查询。 这里研究继承自Mult ... -
Lucene-2.2.0 源代码阅读学习(36)
2009-02-06 15:05 1046关于MultiTermQuery查询。 这里研究FuzzyQu ... -
Lucene-2.2.0 源代码阅读学习(34)
2009-02-06 15:02 999关于PhraseQuery。 PhraseQuery查询是将多 ... -
Lucene-2.2.0 源代码阅读学习(33)
2009-02-06 15:01 1025关于范围查询RangeQuery。 ... -
Lucene-2.2.0 源代码阅读学习(32)
2009-02-06 15:00 921关于SpanQuery(跨度搜索),它是Query的子类,但是 ... -
Lucene-2.2.0 源代码阅读学习(31)
2009-02-06 14:58 973关于前缀查询PrefixQuery(前缀查询)。 准备工作就是 ... -
Lucene-2.2.0 源代码阅读学习(30)
2009-02-06 14:57 783关于Query的学习。 主要使用TermQuery和Boole ... -
Lucene-2.2.0 源代码阅读学习(29)
2009-02-06 14:54 1190关于IndexSearcher检索器。 ... -
Lucene-2.2.0 源代码阅读学习(28)
2009-02-06 14:48 1314关于检索的核心IndexSearcher类。 IndexSea ...
相关推荐
内容概要:本文主要探讨了SNS单模无芯光纤的仿真分析及其在通信和传感领域的应用潜力。首先介绍了模间干涉仿真的重要性,利用Rsoft beamprop模块模拟不同模式光在光纤中的传播情况,进而分析光纤的传输性能和模式特性。接着讨论了光纤传输特性的仿真,包括损耗、色散和模式耦合等参数的评估。随后,文章分析了光纤的结构特性,如折射率分布、包层和纤芯直径对性能的影响,并探讨了镀膜技术对光纤性能的提升作用。最后,进行了变形仿真分析,研究外部因素导致的光纤变形对其性能的影响。通过这些分析,为优化光纤设计提供了理论依据。 适合人群:从事光纤通信、光学工程及相关领域的研究人员和技术人员。 使用场景及目标:适用于需要深入了解SNS单模无芯光纤特性和优化设计的研究项目,旨在提高光纤性能并拓展其应用场景。 其他说明:本文不仅提供了详细的仿真方法和技术细节,还对未来的发展方向进行了展望,强调了SNS单模无芯光纤在未来通信和传感领域的重要地位。
发那科USM通讯程序socket-set
嵌入式八股文面试题库资料知识宝典-WIFI.zip
源码与image
内容概要:本文详细探讨了物流行业中路径规划与车辆路径优化(VRP)的问题,特别是针对冷链物流、带时间窗的车辆路径优化(VRPTW)、考虑充电桩的车辆路径优化(EVRP)以及多配送中心情况下的路径优化。文中不仅介绍了遗传算法、蚁群算法、粒子群算法等多种优化算法的理论背景,还提供了完整的MATLAB代码及注释,帮助读者理解这些算法的具体实现。此外,文章还讨论了如何通过MATLAB处理大量数据和复杂计算,以得出最优的路径方案。 适合人群:从事物流行业的研究人员和技术人员,尤其是对路径优化感兴趣的开发者和工程师。 使用场景及目标:适用于需要优化车辆路径的企业和个人,旨在提高配送效率、降低成本、确保按时交付货物。通过学习本文提供的算法和代码,读者可以在实际工作中应用这些优化方法,提升物流系统的性能。 其他说明:为了更好地理解和应用这些算法,建议读者参考相关文献和教程进行深入学习。同时,实际应用中还需根据具体情况进行参数调整和优化。
嵌入式八股文面试题库资料知识宝典-C and C++ normal interview_8.doc.zip
内容概要:本文介绍了基于灰狼优化算法(GWO)的城市路径规划优化问题(TSP),并通过Matlab实现了该算法。文章详细解释了GWO算法的工作原理,包括寻找猎物、围捕猎物和攻击猎物三个阶段,并提供了具体的代码示例。通过不断迭代优化路径,最终得到最优的城市路径规划方案。与传统TSP求解方法相比,GWO算法具有更好的全局搜索能力和较快的收敛速度,适用于复杂的城市环境。尽管如此,算法在面对大量城市节点时仍面临运算时间和参数设置的挑战。 适合人群:对路径规划、优化算法感兴趣的科研人员、学生以及从事交通规划的专业人士。 使用场景及目标:①研究和开发高效的路径规划算法;②优化城市交通系统,提升出行效率;③探索人工智能在交通领域的应用。 其他说明:文中提到的代码可以作为学习和研究的基础,但实际应用中需要根据具体情况调整算法参数和优化策略。
嵌入式八股文面试题库资料知识宝典-Intel3.zip
嵌入式八股文面试题库资料知识宝典-2019京东C++.zip
嵌入式八股文面试题库资料知识宝典-北京光桥科技有限公司面试题.zip
内容概要:本文详细探讨了十字形声子晶体的能带结构和传输特性。首先介绍了声子晶体作为新型周期性结构在物理学和工程学中的重要地位,特别是十字形声子晶体的独特结构特点。接着从散射体的形状、大小、排列周期等方面分析了其对能带结构的影响,并通过理论计算和仿真获得了能带图。随后讨论了十字形声子晶体的传输特性,即它对声波的调控能力,包括传播速度、模式和能量分布的变化。最后通过大量实验和仿真验证了理论分析的正确性,并得出结论指出散射体的材料、形状和排列方式对其性能有重大影响。 适合人群:从事物理学、材料科学、声学等相关领域的研究人员和技术人员。 使用场景及目标:适用于希望深入了解声子晶体尤其是十字形声子晶体能带与传输特性的科研工作者,旨在为相关领域的创新和发展提供理论支持和技术指导。 其他说明:文中还对未来的研究方向进行了展望,强调了声子晶体在未来多个领域的潜在应用价值。
嵌入式系统开发_USB主机控制器_Arduino兼容开源硬件_基于Mega32U4和MAX3421E芯片的USB设备扩展开发板_支持多种USB外设接入与控制的通用型嵌入式开发平台_
e2b8a-main.zip
少儿编程scratch项目源代码文件案例素材-火柴人跑酷(2).zip
内容概要:本文详细介绍了HarmonyOS分布式远程启动子系统,该系统作为HarmonyOS的重要组成部分,旨在打破设备间的界限,实现跨设备无缝启动、智能设备选择和数据同步与连续性等功能。通过分布式软总线和分布式数据管理技术,它能够快速、稳定地实现设备间的通信和数据同步,为用户提供便捷的操作体验。文章还探讨了该系统在智能家居、智能办公和教育等领域的应用场景,展示了其在提升效率和用户体验方面的巨大潜力。最后,文章展望了该系统的未来发展,强调其在技术优化和应用场景拓展上的无限可能性。 适合人群:对HarmonyOS及其分布式技术感兴趣的用户、开发者和行业从业者。 使用场景及目标:①理解HarmonyOS分布式远程启动子系统的工作原理和技术细节;②探索该系统在智能家居、智能办公和教育等领域的具体应用场景;③了解该系统为开发者提供的开发优势和实践要点。 其他说明:本文不仅介绍了HarmonyOS分布式远程启动子系统的核心技术和应用场景,还展望了其未来的发展方向。通过阅读本文,用户可以全面了解该系统如何通过技术创新提升设备间的协同能力和用户体验,为智能生活带来新的变革。
嵌入式八股文面试题库资料知识宝典-C and C++ normal interview_1.zip
少儿编程scratch项目源代码文件案例素材-激光反弹.zip
内容概要:本文详细介绍了COMSOL相控阵检测技术在有机玻璃斜楔上放置16阵元进行工件内部缺陷检测的方法。首先阐述了相控阵检测技术的基本原理,特别是通过控制各阵元的激发时间和相位来实现声波的聚焦和扫描。接着,重点解析了横孔缺陷的反射接收波,解释了波的折射现象及其背后的物理原因。最后,通过实例展示了COMSOL模拟声波传播过程的成功应用,验证了该技术的有效性和准确性。 适合人群:从事固体力学、无损检测领域的研究人员和技术人员,尤其是对相控阵检测技术和COMSOL仿真感兴趣的读者。 使用场景及目标:适用于需要精确检测工件内部缺陷的研究和工业应用场景,旨在提高检测精度和效率,确保产品质量和安全。 其他说明:文中提到的声速匹配现象有助于理解波在不同介质间的传播特性,这对优化检测参数设置有重要意义。
少儿编程scratch项目源代码文件案例素材-极速奔跑者.zip
嵌入式八股文面试题库资料知识宝典-微软_interview.zip