`
javafenger
  • 浏览: 246732 次
  • 来自: ...
文章分类
社区版块
存档分类
最新评论

Lucene开源检索架构预览

阅读更多

在本篇文章中,你会学习到如何利用 Lucene 实现高级搜索功能以及如何利用 Lucene 来创建 Web 搜索应用程序。通过这些学习,你就可以利用 Lucene 来创建自己的搜索应用程序。

架构概览

通常一个 Web 搜索引擎的架构分为前端和后端两部分,就像图一中所示。在前端流程中,用户在搜索引擎提供的界面中输入要搜索的关键词,这里提到的用户界面一般是一个带有输入框的 Web 页面,然后应用程序将搜索的关键词解析成搜索引擎可以理解的形式,并在索引文件上进行搜索操作。在排序后,搜索引擎返回搜索结果给用户。在后端流程中,网络爬虫或者机器人从因特网上获取 Web 页面,然后索引子系统解析这些 Web 页面并存入索引文件中。如果你想利用 Lucene 来创建一个 Web 搜索应用程序,那么它的架构也和上面所描述的类似,就如图一中所示。


Figure 1. Web 搜索引擎架构
Web搜索引擎架构

利用 Lucene 实现高级搜索

Lucene 支持多种形式的高级搜索,我们在这一部分中会进行探讨,然后我会使用 Lucene 的 API 来演示如何实现这些高级搜索功能。

布尔操作符

多数的搜索引擎都会提供布尔操作符让用户可以组合查询,典型的布尔操作符有 AND, OR, NOT。Lucene 支持 5 种布尔操作符,分别是 AND, OR, NOT, 加(+), 减(-)。接下来我会讲述每个操作符的用法。
  • OR: 如果你要搜索含有字符 A 或者 B 的文档,那么就需要使用 OR 操作符。需要记住的是,如果你只是简单的用空格将两个关键词分割开,其实在搜索的时候搜索引擎会自动在两个关键词之间加上 OR 操作符。例如,“Java OR Lucene” 和 “Java Lucene” 都是搜索含有 Java 或者含有 Lucene 的文档。
  • AND: 如果你需要搜索包含一个以上关键词的文档,那么就需要使用 AND 操作符。例如,“Java AND Lucene” 返回所有既包含 Java 又包含 Lucene 的文档。
  • NOT: Not 操作符使得包含紧跟在 NOT 后面的关键词的文档不会被返回。例如,如果你想搜索所有含有 Java 但不含有 Lucene 的文档,你可以使用查询语句 “Java NOT Lucene”。但是你不能只对一个搜索词使用这个操作符,比如,查询语句 “NOT Java” 不会返回任何结果。
  • 加号(+): 这个操作符的作用和 AND 差不多,但它只对紧跟着它的一个搜索词起作用。例如,如果你想搜索一定包含 Java,但不一定包含 Lucene 的文档,就可以使用查询语句“+Java Lucene”。
  • 减号(-): 这个操作符的功能和 NOT 一样,查询语句 “Java -Lucene” 返回所有包含 Java 但不包含 Lucene 的文档。

接下来我们看一下如何利用 Lucene 提供的 API 来实现布尔查询。清单1 显示了如果利用布尔操作符进行查询的过程。

清单1:使用布尔操作符
  //Test boolean operatorpublic void testOperator(String indexDirectory) throws Exception{   Directory dir = FSDirectory.getDirectory(indexDirectory,false);   IndexSearcher indexSearcher = new IndexSearcher(dir);   String[] searchWords = {"Java AND Lucene", "Java NOT Lucene", "Java OR Lucene",                     "+Java +Lucene", "+Java -Lucene"};   Analyzer language = new StandardAnalyzer();   Query query;   for(int i = 0; i < searchWords.length; i++){      query = QueryParser.parse(searchWords[i], "title", language);      Hits results = indexSearcher.search(query);      System.out.println(results.length() + "search results for query " + searchWords[i]);   }}

域搜索(Field Search)

Lucene 支持域搜索,你可以指定一次查询是在哪些域(Field)上进行。例如,如果索引的文档包含两个域,TitleContent,你就可以使用查询 “Title: Lucene AND Content: Java” 来返回所有在 Title 域上包含 Lucene 并且在 Content 域上包含 Java 的文档。清单 2 显示了如何利用 Lucene 的 API 来实现域搜索。


清单2:实现域搜索
//Test field searchpublic void testFieldSearch(String indexDirectory) throws Exception{    Directory dir = FSDirectory.getDirectory(indexDirectory,false);    IndexSearcher indexSearcher = new IndexSearcher(dir);    String searchWords = "title:Lucene AND content:Java";    Analyzer language = new StandardAnalyzer();    Query query = QueryParser.parse(searchWords, "title", language);    Hits results = indexSearcher.search(query);    System.out.println(results.length() + "search results for query " + searchWords);}

通配符搜索(Wildcard Search)

Lucene 支持两种通配符:问号(?)和星号(*)。你可以使用问号(?)来进行单字符的通配符查询,或者利用星号(*)进行多字符的通配符查询。例如,如果你想搜索 tiny 或者 tony,你就可以使用查询语句 “t?ny”;如果你想查询 Teach, Teacher 和 Teaching,你就可以使用查询语句 “Teach*”。清单3 显示了通配符查询的过程。


清单3:进行通配符查询
//Test wildcard searchpublic void testWildcardSearch(String indexDirectory)throws Exception{   Directory dir = FSDirectory.getDirectory(indexDirectory,false);   IndexSearcher indexSearcher = new IndexSearcher(dir);   String[] searchWords = {"tex*", "tex?", "?ex*"};   Query query;   for(int i = 0; i < searchWords.length; i++){      query = new WildcardQuery(new Term("title",searchWords[i]));      Hits results = indexSearcher.search(query);      System.out.println(results.length() + "search results for query " + searchWords[i]);   }}

模糊查询

Lucene 提供的模糊查询基于编辑距离算法(Edit distance algorithm)。你可以在搜索词的尾部加上字符 ~ 来进行模糊查询。例如,查询语句 “think~” 返回所有包含和 think 类似的关键词的文档。清单 4 显示了如果利用 Lucene 的 API 进行模糊查询的代码。


清单4:实现模糊查询
//Test fuzzy searchpublic void testFuzzySearch(String indexDirectory)throws Exception{   Directory dir = FSDirectory.getDirectory(indexDirectory,false);   IndexSearcher indexSearcher = new IndexSearcher(dir);   String[] searchWords = {"text", "funny"};   Query query;   for(int i = 0; i < searchWords.length; i++){      query = new FuzzyQuery(new Term("title",searchWords[i]));      Hits results = indexSearcher.search(query);      System.out.println(results.length() + "search results for query " + searchWords[i]);   }}

范围搜索(Range Search)

范围搜索匹配某个域上的值在一定范围的文档。例如,查询 “age:[18 TO 35]” 返回所有 age 域上的值在 18 到 35 之间的文档。清单5显示了利用 Lucene 的 API 进行返回搜索的过程。


清单5:测试范围搜索
//Test range searchpublic void testRangeSearch(String indexDirectory)throws Exception{    Directory dir = FSDirectory.getDirectory(indexDirectory,false);    IndexSearcher indexSearcher = new IndexSearcher(dir);    Term begin = new Term("birthDay","20000101");    Term end   = new Term("birthDay","20060606");    Query query = new RangeQuery(begin,end,true);    Hits results = indexSearcher.search(query);    System.out.println(results.length() + "search results is returned");}


 

分享到:
评论

相关推荐

    仿百度文库,融合session共享,nginx负载均衡,lucene全文检索,office文件在线预览,登录邮件通知等.zip

    3. **lucene全文检索**:lucene是Apache软件基金会的一个开源全文搜索引擎库。在本项目中,lucene可能被用于对文档内容进行索引和搜索,提供高效的全文检索功能,提升用户查找信息的效率。 4. **office文件在线预览...

    ASP.NET 开发基于Ajax+Lucene构建搜索引擎的设计和实现(源代码+论文)

    3. Lucene:Lucene是一个开源的全文检索库,它提供了文本分析、索引和搜索功能。在ASP.NET中集成Lucene,可以创建高性能的全文搜索引擎。Lucene支持分词、权重计算、布尔查询等多种搜索模式,使得搜索引擎能够准确、...

    文档管理系统

    文档管理系统是一种用于组织、存储、检索和管理各种电子文档的软件工具。在本文中,我们将深入探讨使用Bootstrap和Spring MVC框架构建这样的系统的关键知识点。 首先,让我们了解这两个核心技术: 1. **Bootstrap*...

    人工智能-项目实践-搜索引擎-基于搜索引擎实现网盘搜索

    Lucene提供了一系列API用于文档分析、字段存储与检索、倒排索引等,帮助我们高效地建立文件信息的索引结构。 在文件信息的处理中,我们需要进行文本预处理,包括分词、去除停用词、词干提取等步骤,以提高搜索的...

    商业编程-源码-PKY文章新闻系统(pkyArticle) v0.99 B20030211.zip

    8. **搜索功能**:系统可能具备全文检索功能,利用如Lucene这样的搜索引擎技术,以便用户快速找到所需文章。 9. **缓存机制**:为了提高性能,系统可能会采用缓存策略,比如使用Memcached或Redis来缓存热门文章或...

    仿百度文库效果.rar

    在【标签】中,“仿百度文库”意味着该程序的核心功能是模仿百度文库的文档存储和检索机制,可能包括用户登录、文档分类、搜索、预览以及下载等功能。"代码"标签则提示我们,这个压缩包包含的是源代码,可以供学习和...

    ASP源码ASP.NET网上教材管理系统的设计与实现(源代码+论文)

    2. **全文检索**:使用Lucene.NET或Elasticsearch等开源搜索引擎技术,实现高效准确的全文检索功能。 3. **安全性设计**:采取加密技术保护敏感数据,如密码加密存储;使用HTTPS协议传输数据以防止数据被截取或篡改...

    积分管理系统java源码-wemall:b2b2c平台电商

    xmall是采用Java语言开发的多用户商城系统,使用Spring+JPA+Velocity+Ehcache作为基础开发架构,应用SpringSecurity框架管理系统权限, 结合URL重写技术静态化商城前台页面。结合多年的电商开发经验及主流电商的功能...

    asp.net校园信息论坛交流照片分享网站源码案例设计.zip

    这通常涉及到SQL查询的全文检索或者使用Lucene.NET这样的搜索引擎库。 此外,考虑到是校园论坛,源码可能还集成了社交网络特性,如好友系统、私信功能,甚至可能有积分系统和等级体系,鼓励用户积极参与交流。 ...

    文章管理系统(struts+jsp)

    Struts是一个开源的MVC(Model-View-Controller)框架,它简化了构建可维护、结构清晰的Web应用程序的过程。而JSP(JavaServer Pages)是一种动态网页技术,用于在服务器端生成HTML或其他类型的文档。 在“文章管理...

    Web在线文件管理器V1.4最新版

    这一功能的实现可能基于全文搜索引擎技术,如Lucene.NET,或者通过优化数据库查询来实现高效的文件检索。 此外,修复已知BUG也是这次升级的关键环节。在软件开发中,BUG是不可避免的,它们可能影响到系统的稳定性和...

    齐鲁软件设计大赛作品简介

    本文档的编写目的是为了详细介绍参赛作品——淘尽网络检索系统的具体设计与实现细节,以便于开发团队成员及评奖老师能够更好地理解项目的整体架构和技术实现方案。 ##### 2. 项目背景 - **系统名称**:淘尽网络检索...

Global site tag (gtag.js) - Google Analytics