0 0

lucene组合词的检索20

比如我一句话分词后有3个词 A1,B1,C1。Ai,Bi,Ci(i>=2)分别是A1,B1,C1的同义词,(比如A1有同义词A2,B1有同义词B2和B3,C1有同义词 C2 C3)。要想检索到包含Ai,Bi,Ci的记录,但不能同时包含2个或2个以上Ai(或Bi或Ci),而且Ai,Bi,Ci不一定要都要出现,但出现越多得分要越高。比如含有( A1,B2,C1 )的得分比(A1,B1),(B2,C1)的高,而(A1,B1),(B2,C1)又比只包含A1的得分要高。


我之前想把每一种组合构建一个query,如(Query[] query = new Query[n];
query[0] =parser.Parse("A1 B1 C1");
query[1]=parser.Parse("A1 B1 C2");
.....
query[n-1] = parser.Parse("A2 B3 C3");

再用MultiPhraseQuery.MergeBooleanQueries(queries)

有没有高手知道怎么做
2011年4月13日 20:48
目前还没有答案

相关推荐

    基于lucene的全文检索系统

    多个Term组合成Posting, Posting List存储了所有文档中该词出现的位置信息。 **查询优化** 为了提高查询效率,Lucene使用了倒排索引。在倒排索引中,每个词对应一个文档集合,这样可以快速找到包含特定词的所有...

    Lucene实现全文检索

    首先,索引是Lucene实现快速检索的基础,类似于图书的目录,通过构建索引,Lucene可以迅速定位到包含特定查询词的文档。其次,文档是Lucene处理的基本单位,可以视为一个包含多个字段的数据结构,每个字段可以有不同...

    Lucene基于java的全文检索案例

    3. **查询(Query)**: Lucene 支持各种查询语法,包括简单关键字查询、布尔组合查询、短语查询、范围查询等。用户可以构建复杂的查询表达式来精确匹配需求。 4. **搜索(Searching)**: 搜索引擎接收查询后,通过...

    lucene全文检索需要jar包

    这些Jar包组合在一起,构成了一个基本的Lucene全文检索环境。在3.6.1版本中,Lucene已经相当成熟,可以满足大部分应用场景。然而,随着技术的发展,Lucene后续的版本也进行了很多优化和新特性的添加,例如支持更丰富...

    Lucene 全文检索

    **Lucene 全文检索** Lucene 是一个高性能、全文本搜索库,由 Apache 软件基金会开发,被广泛应用于各种搜索引擎的构建。它提供了一个简单但功能强大的 API,可以方便地集成到 Java 应用程序中,实现对文本数据的...

    支持lucene的词典机械中文分词

    本文将深入探讨一种基于Lucene的词典机械中文分词方法,该方法采用了反向机械分词算法,尤其关注对数字、英文以及中英文数字混合词的特殊处理,旨在提高分词速度和准确性。 首先,反向机械分词算法是一种常用的中文...

    lucene全文检索组件

    1. **搜索**: 支持多种查询类型,包括单个词、短语、布尔组合查询、前缀查询、通配符查询等。 2. **高亮显示**: Lucene 可以对搜索结果进行高亮处理,突出显示匹配的关键词。 3. **排序**: 结果可以基于相关性或...

    lucene 全文检索系统 java源码 (信息检索技术)

    **Lucene 全文检索系统:Java 源码与信息检索技术详解** Lucene 是一个高度可定制的全文检索库,由 Apache 软件基金会维护,它为开发人员提供了一个强大的工具来构建搜索功能。这个压缩包包含了 Lucene 的 Java ...

    lucene全文检索引擎资料包(有项目)

    资料包中的"lucene全文检索引擎"可能包含示例代码、教程或者实际的项目案例,这可以帮助你理解如何在实际应用中使用Lucene。你可以通过这些资源学习: - 如何创建和管理索引。 - 如何编写查询解析器和定制查询行为...

    基于Lucene的检索会议期刊代码JSP展示

    **基于Lucene的检索会议期刊代码JSP展示** 在信息技术领域,搜索引擎的构建是一项关键任务,而Apache Lucene是Java平台上的一个高性能、全文本搜索库。本项目着重讲解如何利用Lucene 5.5版本来实现会议期刊的检索...

    lucene检索文件

    在描述中提到的"lucene全文检索文件"指的是利用Lucene进行文档检索的能力,涵盖了多种文件格式,如TXT、DOC、XLS、PPT和PDF,这表明Lucene不仅限于纯文本,还能处理包含富文本和二进制数据的文档。 1. **Lucene核心...

    lucene 检索

    Lucene 支持多种查询类型,如 TermQuery(单个词查询)、BooleanQuery(布尔组合查询)、PhraseQuery(短语查询)等。同时,它还使用 TF-IDF(词频-逆文档频率)等算法计算文档的相关性评分,帮助确定搜索结果的排序...

    搜索引擎 Lucene PPT 教程

    2. 分析处理:Lucene的Analyzer负责将原始文本分解为关键词,去除停用词、标点符号,并进行词干提取等预处理。 3. 建立索引:将处理后的关键词与文档元数据关联,形成倒排索引,便于快速查找相关文档。 4. 存储索引...

    Lucene全文检索引擎工具包 v9.4.2.tgz

    7. **搜索(Search)**:Lucene支持多种搜索类型,如布尔查询、短语查询、范围查询等,可以灵活地组合条件进行精确或模糊匹配。 8. **评分(Scoring)**:Lucene会根据多个因素(如TF-IDF,词项频率等)为每个匹配...

    Lucene全文搜索 分组,精确查找,模糊查找

    在IT行业中,全文搜索引擎的使用越来越广泛,而Apache Lucene作为一款强大的开源全文检索库,深受开发者们的喜爱。它提供了高效的索引和查询功能,使得在海量数据中进行精准、快速的文本搜索成为可能。本文将围绕...

    JAVA_lucene全文检索工具包的理解与使用.rar_java_全文检索

    6. **Query**:表示一个查询,可以是单个词项、短语、布尔组合等。 7. **Hit**:搜索结果中的一个匹配文档,包含文档编号和评分。 **三、使用Lucene的步骤** 1. **创建索引**:使用`IndexWriter`,结合`Document`...

    基于Lucene_XML全文检索的应用及效率测试研究

    ### 基于Lucene_XML全文检索的应用及效率测试研究 #### 摘要与背景 本文探讨了一种基于Lucene_XML技术构建的全文检索系统的应用及其效率测试研究。随着互联网的发展,信息检索的需求日益增长,高效准确地从海量...

    lucene6.6+拼音分词+ik中文分词包

    总的来说,"lucene6.6+拼音分词+ik中文分词包"的组合提供了一套完整的中文分词解决方案。通过灵活运用这些工具,开发者可以在Lucene中实现高效的中文搜索,同时兼顾拼音搜索,满足多样化的搜索需求。对于Java开发者...

    lucene5 源码教程

    在Lucene 5中,支持多种查询类型,如TermQuery、PhraseQuery、BooleanQuery等,以及复杂的组合查询。同时,通过合理设置索引字段,如使用ngram索引、倒排索引等,可以显著提升搜索速度。 六、性能调优 Lucene提供了...

    lucene1.4.3.jar

    这个过程包括分词(Tokenization)、词干提取(Stemming)、停用词处理(Stop Word Removal)等步骤,以提高检索效率和准确性。索引存储在磁盘上,可以被后续的查询操作快速访问。 查询解析是Lucene的另一个关键...

Global site tag (gtag.js) - Google Analytics