`
turingfellow
  • 浏览: 135215 次
  • 性别: Icon_minigender_1
  • 来自: 福建省莆田市
社区版块
存档分类
最新评论

[zz]学习lucene应该多看源代码

阅读更多
最近在为星网将要上线的商城系统开发搜索功能,要求使用lucene和数据库。由于lucene是完全开源的,所以对于学习与使用lucene的人,这么好的源代码资源一定要看并且利用,只有多看源代码,自身的能力才会提高,lucene使用起来,效率也会更高。
从一个小例子中,可以看出看源代码的好处。
商品搜索时,肯定要使用核心包下的org.apache.lucene.search.Searcher类,而这个类的search()方法有八个,其中有三个是abstract类型,被searcher的子类IndexSearcher所实现,如果只看javadoc的话,可以看到这八个方法分别是:
Java代码
public TopFieldDocs search(Query query,  
                           Filter filter,  
                           int n,  
                           Sort sort)  
                    throws IOException  
public void search(Query query,  
                   Collector results)  
            throws IOException  
public void search(Query query,  
                   Filter filter,  
                   Collector results)  
            throws IOException  
public TopDocs search(Query query,  
                      Filter filter,  
                      int n)  
               throws IOException  
public TopDocs search(Query query,  
                      int n)  
               throws IOException  
public abstract void search(Weight weight,  
                            Filter filter,  
                            Collector results)  
                     throws IOException  
public abstract TopDocs search(Weight weight,  
                               Filter filter,  
                               int n)  
                        throws IOException  
public abstract Document doc(int i)  
                      throws CorruptIndexException,  
                             IOException  

其中query是搜索项,filter是过滤条件,n说明要返回前n个搜索到的结果,sort是搜索结果的排序方式,Collector也是用来指定返回结果中执行排序与过滤信息的。
在javadoc中,还可以看到这八种方法的一些粗略介绍,大概告诉你这些方法是怎么用的。
现在如果已经给定你一个query,而在前台搜索界面是这样的:给了价格区间选项,用户可以指定价格区间,也就是填入两个价格去过滤搜索结果,此时应该使用filter构造过滤条件,当然用户也可以不指定价格区间,也就是不用过滤搜索结果到某一特定的价格区间,此时,看到javadoc中上面几种search方法,你可能会这样想:在后台的控制逻辑里面,也就是action与service(impl)中,去判断一下用户到底有没有输入价格信息,如果输入了,则调用上面第1种或第4种方法(第三种方法虽然也包含filter条件,但是返回类型为void,肯定不行),而如果用户没有输入价格过滤信息,就使用第5种方法。
按照上面的逻辑你会写出下面这样的代码:
Java代码
IndexSearcher searcher =new IndexSearcher(FSDirectory.open(new File(INDEX_PATH)));  
if(min != null && max != null) {  
Filter filter = new TermRangeFilter("price",NumberUtils.pad(MIN), NumberUtils.pad(MAX), true, true);  
TopDocs td = searcher.search(query, filter, TOP_NUM);  
}  
else {  
TopDocs td = searcher.search(query, TOP_NUM);  
}  

上面代码中,由于IndexSearcher是Searcher的子类,所以IndexSearcher继承了Searcher的五种search方法,实现了Searcher的三种抽象方法。
而如果你的query也需要判断构造的话,那么在构造query时,每有一个判断分支,上面的代码就要写进去一次,十分麻烦。
但是如果你看过Searcher以及IndexSearcher的源代码,情况就不同了,你可以看到上面提到的search方法的源代码如下:
Java代码
public TopFieldDocs search(Query query, Filter filter, int n, Sort sort) throws IOException {  
    return search(createWeight(query), filter, n, sort);  
  }  
public void search(Query query, Collector results)  
   throws IOException {  
   search(createWeight(query), null, results);  
}  
public void search(Query query, Filter filter, Collector results)  
  throws IOException {  
    search(createWeight(query), filter, results);  
  }  
public TopDocs search(Query query, Filter filter, int n)  
    throws IOException {  
    return search(createWeight(query), filter, n);  
  }  
public TopDocs search(Query query, int n)  
    throws IOException {  
    return search(query, null, n);  
  }  

还可以看到子类IndexSearcher实现的三种抽象方法的实现.
或许从上面代码中你已经看出了玄机,那就是上面五种search方法实际上调用的只有一两个核心的search方法而已,而且Searcher中五个方法在IndexSearcher中有三个都被重写(override)了。
而且你可以看到其实那两个核心的search方法,也就是被其他search方法多次调用的,构造中都包含filter条件,只不过有的是null而已,所以我们的搜索代码完全没必要根据价格过滤信息的有无来分别写流程,因为如果有价格过滤信息的话,filter就是你构造的价格过滤条件,如果用户没有输入价格过滤信息的话,filter只需为null即可。
所以我们的代码可以修改为:
Java代码
Filter filter = null;  
if(min != null && max != null)   
filter = new TermRangeFilter("price",NumberUtils.pad(MIN), NumberUtils.pad(MAX), true, true);  

然后这个filter就是通用的了。
我们的例子中调用IndexSearcher的search并不是IndexSearcher中的方法,因为我们的条件都包含Query,而IndexSearcher的search方法中都没有包含Query条件,而是Weight条件,而此Weight都是在Searcher的search方法中进一步调用其他类型的search方法,而此时调用的search方法已经是IndexSearcher中的search方法了,这里面的逻辑需要搞清楚。
分享到:
评论

相关推荐

    lucene.net源代码

    《深入剖析Lucene.NET:基于源代码的实例解析》 Lucene.NET,作为Apache Lucene的.NET版本,是一个高性能、全文检索库,为.NET开发者提供了强大的文本搜索功能。本实例将带您深入理解Lucene.NET的内部机制,通过源...

    Lucene-2.3.1 源代码阅读学习

    《Lucene-2.3.1 源代码阅读学习》 Lucene是Apache软件基金会的一个开放源码项目,它是一个高性能、全文本搜索库,为开发者提供了在Java应用程序中实现全文检索功能的基础架构。本篇文章将深入探讨Lucene 2.3.1版本...

    Lucene in action配套源代码

    通过分析和学习《Lucene in Action》的配套源代码,开发者不仅可以理解Lucene的基本工作原理,还能掌握实际项目中应用Lucene的技巧,提高搜索引擎的性能和用户体验。这些知识对于构建高效、可扩展的全文搜索系统至关...

    .NET lucene 源代码

    总结来说,".NET Lucene 源代码"为我们提供了一个深入了解和学习全文搜索引擎技术的宝贵资源。通过深入研究,我们可以掌握如何在.NET环境中高效地构建和使用搜索引擎,提升开发项目的搜索功能。同时,这也是一次难得...

    lucene2.0.0搜索引擎源代码

    总结,Lucene 2.0.0是一个强大的全文检索库,它的源代码提供了深入学习信息检索原理和实践的宝贵资源。通过理解并运用这些知识,开发者可以构建出高效、灵活的搜索引擎,提升应用程序的功能性和用户体验。

    lucene部分案例的源代码

    《Lucene案例源代码解析》 Lucene是一个高性能、全文本搜索库,广泛应用于各种信息检索系统中。本文将深入探讨“lucene部分案例的源代码”,解析其中的关键技术和应用场景,帮助读者更好地理解和运用Lucene。 一、...

    lucene 3.5 官网 源代码

    开发者可以通过源代码学习如何集成Lucene到自己的项目中,以实现高效、精确的全文检索功能。 总结,Lucene 3.5的源代码是理解其工作原理的宝贵资源。通过对源码的深入研究,开发者不仅可以掌握Lucene的基本操作,还...

    基于lucene的词频分析源代码

    **基于Lucene的词频分析源代码** 在信息检索和自然语言处理领域,词频分析是一种重要的技术,它用于理解文本中的关键词分布和频率。Lucene,作为一个强大的全文搜索引擎库,提供了内置的分析器和工具,支持对文本...

    开放源代码的全文检索引擎Lucene

    开放源代码的全文检索引擎Lucene开放源代码的全文检索引擎Lucene开放源代码的全文检索引擎Lucene

    Lucene2.0+Heritrix(源代码)

    总之,通过研究"Lucene2.0+Heritrix"的源代码,开发者不仅可以学习到搜索引擎的基础原理,还能掌握实际操作中的技巧和经验。这是一条通向构建个性化、高效搜索引擎的道路,对于从事信息检索、大数据分析和网站运营的...

    luke 源代码(luke Lucene index 索引 源代码)

    《深入理解Luke:Lucene索引查看工具的源代码解析》 Luke,作为一个开源的Lucene索引浏览器,为开发者提供了直接查看和分析Lucene索引的能力。它不仅是一个强大的工具,也是学习Lucene索引机制的重要途径。通过阅读...

    Lucene.NET2.9搜索引擎源代码(C#)

    总之,通过学习 Lucene.NET 2.9 的源代码,开发者不仅可以掌握全文搜索引擎的工作原理,还能提升在 .NET 平台上的搜索引擎开发能力。这是一项非常有价值的技术积累,对于提升软件开发的专业水平具有重要意义。

    Lucene 3.6.2 源代码

    这个源代码版本代表了Lucene 3.x系列的最后一个稳定版本,为开发者提供了深入理解Lucene内部机制的宝贵资源。下面将详细探讨Lucene 3.6.2中的关键知识点。 1. **分词器(Tokenizers)**: Lucene的核心功能之一是...

    lucene in action 源代码

    lucene in action 源代码

    lucene-3.0.1库及源代码

    《深入理解Lucene 3.0.1:库与源代码解析》 ...通过源代码学习,开发者不仅可以掌握Lucene的工作原理,还能根据需求进行定制化开发。无论是构建搜索引擎还是提升现有系统的搜索功能,Lucene都是一个值得信赖的选择。

    lucene-5.3.1源代码

    本文将深入探讨Lucene 5.3.1版本的核心概念、架构以及如何利用其源代码进行二次开发。 一、Lucene基础 1. Lucene核心组件: - 文档(Document):存储用户数据的容器,可以包含多个字段(Field),如标题、内容等...

    基于LUCENE的搜索引擎的设计与实现源代码

    《基于LUCENE的搜索引擎设计与实现》 在信息技术飞速发展的今天,搜索引擎已经成为人们...通过阅读“基于LUCENE的搜索引擎的设计与实现源代码”相关资料,开发者可以直接接触到实际的项目实践,进一步提升自己的技能。

    Lucene 源代码剖析.rar

    这是一篇公司的内部培训教材,其中中的内容涵盖LUCENE的方方面面,从源代码角度深入剖析LUCENE,如果要对LUCENE有更加深入的了解(专家级别),这篇技术文档必不可少。 前提:对LUCENE有一定程度的了解,否则会让你云...

    CLucene源代码-Lucene的C++版本

    CLucene是Lucene的C++实现,为那些偏好或需要使用C++进行开发的...通过深入研究clucene-core-2.3.3.4这个版本的源代码,开发者不仅可以学习到搜索引擎的基本原理,还能了解到如何在实际应用中优化和定制这些功能。

Global site tag (gtag.js) - Google Analytics