`

Lucene查询语法简介

阅读更多
Lucene的查询语法

英文原版:http://lucene.apache.org/java/2_0_0/queryparsersyntax.html
原文来自:http://liyu2000.nease.net/article/Lucene/queryparsersyntax.htm

绪论

Lucene提供了方便您创建自建查询的API,也通过QueryParser提供了强大的查询语言。

本文讲述Lucene的查询语句解析器支持的语法,Lucene的查询语句解析器是使用JavaCC工具生成的词法解析器,它将查询字串解析为Lucene Query对象。


项(Term)

一条搜索语句被拆分为一些项(term)和操作符(operator)。项有两种类型:单独项和短语。

单独项就是一个单独的单词,例如"test" , "hello"。

短语是一组被双引号包围的单词,例如"hello dolly"。

多个项可以用布尔操作符连接起来形成复杂的查询语句(接下来您就会看到)。

注意:Analyzer建立索引时使用的解析器和解析单独项和短语时的解析器相同,因此选择一个不会受查询语句干扰的Analyzer非常重要。


域(Field)

Lucene支持域。您可以指定在某一个域中搜索,或者就使用默认域。域名及默认域是具体索引器实现决定的。

您可以这样搜索域:域名+":"+搜索的项名。

举个例子,假设某一个Lucene索引包含两个域,title和text,text是默认域。如果您想查找标题为"The Right Way"且含有"don't go this way"的文章,您可以输入:

title:"The Right Way" AND text:go

或者

title:"Do it right" AND right

因为text是默认域,所以这个域名可以不写出。

注意:域名只对紧接于其后的项生效,所以

title:Do it right

只有"Do"属于title域。"it"和"right"仍将在默认域中搜索(这里是text域)。



项修饰符(Term Modifiers)

Lucene支持项修饰符以支持更宽范围的搜索选项。

用通配符搜索

Lucene支持单个与多个字符的通配搜索。

使用符号"?"表示单个任意字符的通配。

使用符号"*"表示多个任意字符的通配。


单个任意字符匹配的是所有可能单个字符。例如,搜索"text或者"test",可以这样:

te?t

多个任意字符匹配的是0个及更多个可能字符。例如,搜索test, tests 或者 tester,可以这样:

test*

您也可以在字符窜中间使用多个任意字符通配符。

te*t

注意:您不能在搜索的项开始使用*或者?符号。



模糊查询

Lucene支持基于Levenshtein Distance与Edit Distance算法的模糊搜索。要使用模糊搜索只需要在单独项的最后加上符号"~"。例如搜索拼写类似于"roam"的项这样写:

roam~

这次搜索将找到形如foam和roams的单词。

注意:使用模糊查询将自动得到增量因子(boost factor)为0.2的搜索结果.



邻近搜索(Proximity Searches)

Lucene还支持查找相隔一定距离的单词。邻近搜索是在短语最后加上符号"~"。例如在文档中搜索相隔10个单词的"apache"和"jakarta",这样写:

"jakarta apache"~10


Boosting a Term

Lucene provides the relevance level of matching documents based on the terms found. To boost a term use the caret, "^", symbol with a boost factor (a number) at the end of the term you are searching. The higher the boost factor, the more relevant the term will be.

Lucene可以设置在搜索时匹配项的相似度。在项的最后加上符号"^"紧接一个数字(增量值),表示搜索时的相似度。增量值越高,搜索到的项相关度越好。

Boosting allows you to control the relevance of a document by boosting its term. For example, if you are searching for jakarta apache and you want the term "jakarta" to be more relevant boost it using the ^ symbol along with the boost factor next to the term. You would type:

通过增量一个项可以控制搜索文档时的相关度。例如如果您要搜索jakarta apache,同时您想让"jakarta"的相关度更加好,那么在其后加上"^"符号和增量值,也就是您输入:



jakarta^4 apache

This will make documents with the term jakarta appear more relevant. You can also boost Phrase Terms as in the example:

这将使得生成的doucment尽可能与jakarta相关度高。您也可以增量短语,象以下这个例子一样:

"jakarta apache"^4 "jakarta lucene"

By default, the boost factor is 1. Although, the boost factor must be positive, it can be less than 1 (i.e. .2)

默认情况下,增量值是1。增量值也可以小于1(例如0.2),但必须是有效的。




布尔操作符

布尔操作符可将项通过逻辑操作连接起来。Lucene支持AND, "+", OR, NOT 和 "-"这些操作符。(注意:布尔操作符必须全部大写)

OR

OR操作符是默认的连接操作符。这意味着如果两个项之间没有布尔操作符,就是使用OR操作符。OR操作符连接两个项,意味着查找含有任意项的文档。这与集合并运算相同。符号||可以代替符号OR。

搜索含有"jakarta apache" 或者 "jakarta"的文档,可以使用这样的查询:

"jakarta apache" jakarta

或者

"jakarta apache" OR jakarta





AND

AND操作符匹配的是两项同时出现的文档。这个与集合交操作相等。符号&&可以代替符号AND。

搜索同时含有"jakarta apache" 与 "jakarta lucene"的文档,使用查询:

"jakarta apache" AND "jakarta lucene"





+

"+"操作符或者称为存在操作符,要求符号"+"后的项必须在文档相应的域中存在。

搜索必须含有"jakarta",可能含有"lucene"的文档,使用查询:

+jakarta apache





NOT

NOT操作符排除那些含有NOT符号后面项的文档。这和集合的差运算相同。符号!可以代替符号NOT。

搜索含有"jakarta apache",但是不含有"jakarta lucene"的文档,使用查询:

"jakarta apache" NOT "jakarta lucene"

注意:NOT操作符不能单独与项使用构成查询。例如,以下的查询查不到任何结果:

NOT "jakarta apache"





-

"-"操作符或者禁止操作符排除含有"-"后面的相似项的文档。

搜索含有"jakarta apache",但不是"jakarta lucene",使用查询:

"jakarta apache" -"jakarta lucene"




分组(Grouping)

Lucene支持使用圆括号来组合字句形成子查询。这对于想控制查询布尔逻辑的人十分有用。

搜索含有"jakarta"或者"apache",同时含有"website"的文档,使用查询:

(jakarta OR apache) AND website

这样就消除了歧义,保证website必须存在,jakarta和apache中之一也存在。





转义特殊字符(Escaping Special Characters)

Lucene支持转义特殊字符,因为特殊字符是查询语法用到的。现在,特殊字符包括

+ - && || ! ( ) { } [ ] ^ " ~ * ? : \

转义特殊字符只需在字符前加上符号\,例如搜索(1+1):2,使用查询

\(1\+1\)\:2
分享到:
评论

相关推荐

    lucene的查询语法事例

    **Lucene查询语法详解** Apache Lucene是一款高性能、全文本搜索库,被广泛应用于各种搜索引擎的构建。在使用Lucene进行信息检索时,理解和掌握其查询语法至关重要。本篇文章将深入探讨Lucene的查询语法,帮助你更...

    Lucene查询语法

    ### Lucene查询语法详解 #### 一、Lucene概述 Lucene是一款高性能、全功能的文本搜索引擎库,被广泛应用于各种需要实现全文检索的应用场景之中。Lucene支持复杂的查询语法,能够灵活地处理多样化的查询需求,使得...

    24 Lucene学习总结之八:Lucene的查询语法,JavaCC及QueryParser(1).doc

    24 Lucene学习总结之八:Lucene的查询语法,JavaCC及QueryParser(1)

    lucene表达式处理查询

    在Lucene中,表达式查询是一种高级查询方式,允许用户通过特定的语法构造复杂的查询条件。本篇文章将深入探讨Lucene表达式处理查询的原理、语法及示例。 ### 1. Lucene表达式查询基础 Lucene表达式查询是基于...

    lucene去重、分组统计

    用到的工具 jsoup+spring+struct+DButil+mysql+lucene 可以配置采集网站的图片,包含分组统计,相同数据合并功能,主要是给群内成员来个demo,让大家有个学习的demo 小试牛刀、临时写的,莫吐槽 需要用到mysql...

    lucene.NET使用教程整合

    lucene.NET使用教程整合 lucene.NET使用教程整合 lucene.NET使用教程整合 lucene.NET使用教程整合 lucene.NET使用教程整合 lucene.NET使用教程整合

    Lucene索引搜索简介以及入门实例源码.rar

    **Lucene索引搜索简介** Lucene是Apache软件基金会下的一个开源全文搜索引擎库,它提供了高性能、可扩展的文本搜索功能。Lucene并不是一个完整的搜索引擎,而是一个工具集,允许开发人员在自己的应用程序中实现搜索...

    tripod:实时文本匹配与Lucene的查询语法兼容

    Tripod介绍​Tripod用于对文本数据的实时匹配分析,其语法主要兼容了lucene语法,并做了微调。在很多文本处理的应用中,会有类似数据订阅的需求,即将客户关注的数据推送给客户。一种典型的实现是,我们会根据用户...

    Lucene索引和查询

    - 查询分析(Query Parsing):将用户的输入转换为查询语法,可能涉及短语查询、布尔查询等。 - 匹配评分(Scoring):Lucene使用TF-IDF(Term Frequency-Inverse Document Frequency)或其他评分算法,计算每个文档...

    lucene与数据库连接进行查询

    4. **查询接口**:创建 `IndexSearcher` 对象,它将处理 Lucene 的查询语法。你可以使用 `QueryParser` 解析用户输入的查询字符串,然后使用 `IndexSearcher` 执行查询。 5. **结果处理**:查询返回 `TopDocs` 对象...

    lucene-core-8.7.0

    Java使用 lucene-core-8.7.0 实现全文检索等功能

    lucene 查询 学习

    在Lucene中,查询语法非常重要,它决定了如何有效地从索引中检索数据。Lucene支持多种查询类型,包括但不限于布尔查询(Boolean Query)、短语查询(Phrase Query)、通配符查询(Wildcard Query)等。每种查询方式...

    lucene相关jar+查询分析器jar

    5. **查询语法**:Lucene支持布尔运算符(AND, OR, NOT)、短语查询、前缀查询、范围查询等多种查询类型。例如,"title:(+java -script)"表示查询标题中包含"java"但不包含"script"的文档。 6. **性能优化**:...

    Lucene+in+action中文版

    接着,书中讨论了查询处理,包括查询语法、查询解析器和查询执行。Lucene支持多种查询表达式,如布尔查询、短语查询、模糊查询等,还提供了查询优化策略,以提高查询性能。此外,书中还涵盖了查询评分机制,它是决定...

    lucene in action英文版 lucene 3.30包

    Lucene支持高级查询语法,可以构造复杂的布尔表达式,如AND、OR、NOT等逻辑操作。同时,它还提供了评分机制,用于衡量查询结果的相关性。 4. **更新与删除** Lucene允许动态更新和删除文档,这在实时搜索场景中...

    Lucene技术文档doc

    2. **查询处理**:Lucene支持多种查询语法,包括布尔查询、短语查询、模糊查询等,用户可以通过构造查询字符串来查找相关信息。 3. **文档检索**:根据查询结果,Lucene能够快速返回与查询相关的文档列表,同时提供...

    lucene3.6 搜索例子

    1. 查询构造:Lucene支持多种查询语法,如布尔查询、短语查询、范围查询等。通过QueryParser,我们可以根据用户输入的关键词生成对应的查询对象。 2. 查询执行:使用IndexSearcher类执行查询。IndexSearcher会遍历...

    lucene搜索引擎项目

    Lucene提供了强大的查询解析器,能够处理多种查询语法,包括布尔查询、短语查询、近似查询等。查询执行阶段,Lucene会使用倒排索引快速找到匹配的文档,并根据查询权重对结果进行排序。 4. **优化与更新** Lucene...

    Lucene资料大全(包括Lucene_in_Action书等)

    - 查询语法与查询执行 - 分析器的自定义与选择 - 高级搜索特性,如短语搜索、近似搜索、拼写纠错 - 搜索结果的相关性与排序 - 多线程与分布式搜索 - 实战示例和最佳实践 **尚学堂科技_张志宇_lucene.ppt** 这份PPT...

    lucene-4.7.0全套jar包

    - **查询解析**:增强了查询解析器,支持更复杂的查询语法和用户友好的错误处理。 - **多字段搜索**:增加了对多字段搜索的支持,可以方便地在不同字段间进行组合查询。 - **文档增强**:扩展了文档模型,支持更多...

Global site tag (gtag.js) - Google Analytics