这两天开始研究lucene,
可怜连java都没用过的我简直是举步维艰啊,
于是还附带的小学习了一下myeclipse等玩意的配置。。今天收获颇丰,晒一下与lucene第一次亲密接触的成果。
上apache的官网下了一个lucene最新版,(发现居然有人人网的一个分流,不错~下载速度很快!)
然后看了半天多lucene的基础教程,大概理清楚了他的框架和工作流程。
lucene我们应该理解为一个搜索引擎的类库,它不是一个完整的产品/软件,而是一个开发包,可以基于它快速开发满足自己需求的搜索引擎。
其扩展度很大,完全可以根据自己的需求定制,且底层实现效率很高。是apache基金会现在维护的。
其功能上总体就分为两块,倒排序索引的建立 与 搜索业务处理,
倒排序及相关度概念还是用的TF/IDF,以及经典的“相关度向量余弦”概念。基本原理都很好理解。
接着我开始在本地部署测试例程,
然后照着各种网上例程自己写了一个。然后集成了一个口碑不错的IKAnalyzer的中文分词器,感觉效果不错!
入库的 中华人民共和国,我搜 “中华共和国”也能搜出来(自动分为 中华|共和国|……)
建立倒排序索引:
搜索业务:
分享到:
相关推荐
《Lucene之第一次亲密接触》 Lucene是一个高性能、全文本搜索库,由Apache软件基金会开发并维护。它是Java编写,被广泛应用于各种搜索引擎的构建,包括网站搜索、文档检索、甚至电子邮件过滤等场景。这篇博客将带领...
第一版发布之后,由于其内容的全面性和实用性,获得了广泛的好评,因此第二版的推出对于希望学习最新版本Lucene的读者来说非常有价值。 ### 描述知识点: 描述中提到的“有很多简单明了的demo”,指的是这本书中...
第一个是 FSDirectory,它表示一个存储在文件系统中的索引的位置。 第二个是 RAMDirectory,它表示一个存储在内存当中的索引的位置。 public void add(Query query, BooleanClause.Occur occur) BooleanClause...
《Lucene与关系型数据库对比:深度解析与应用探索》 在信息爆炸的时代,数据管理和检索成为了企业乃至个人日常工作中不可或缺的部分。随着技术的发展,不同的数据处理方式应运而生,其中Lucene与关系型数据库作为两...
《Lucene in Action 第二版》是一本深入探讨Apache Lucene全文检索库的专业书籍,它在Java开发领域具有很高的权威性。这本书详细介绍了如何利用Lucene进行高效的文本搜索和索引构建,是Java开发者和信息检索爱好者的...
《Lucene实战(第二版)》是一本深入探讨Apache Lucene全文搜索引擎库的权威书籍,主要面向对Java和搜索引擎技术感兴趣的开发者。这本书详尽地介绍了如何利用Lucene进行信息检索、文本分析和索引构建,同时也涵盖了...
《Lucene In Action 第二版》是一本深入探讨Apache Lucene全文搜索引擎库的专业书籍,高清中文版的提供为中文读者提供了便利。这本书由Michael McCandless等作者编写,旨在帮助开发者充分利用Lucene的强大功能,构建...
《Lucene 5.x与3.6.0版本差异详解》 Lucene作为一个强大的全文搜索引擎库,其每个版本的更新都带来了一系列的变化和优化。本文将深入探讨Lucene 5.x与Lucene 3.6.0之间的主要差异,帮助开发者理解新版本的功能改进...
lucene3.0 lucene3.0 lucene3.0 lucene3.0 lucene3.0
1. **创建索引**:这是Lucene工作的第一步,它会把文档内容解析成一系列的术语(tokens),然后为每个术语建立倒排索引。倒排索引是一种数据结构,它允许快速查找包含特定术语的文档。 2. **索引写入**:在创建索引...
Fort Worth Java Users Group认为,这本书非常适合那些刚接触Lucene的开发者,或者需要在应用中集成强大索引和搜索功能的开发者,或者是需要一个关于Lucene的优秀参考资料的人。 总而言之,《Lucene实战第二版》是...
1. **索引构建**:Lucene的核心功能之一就是快速构建倒排索引。这个版本中,你可以学习到如何通过`IndexWriter`类创建和更新索引,以及如何使用`Document`、`Field`来组织和存储文档内容。 2. **查询解析**:Lucene...
《Lucene实战 第2版 》基于Apache的Lucene 3 0 从Lucene核心 Lucene应用 案例分析3个方面详细系统地介绍了Lucene 包括认识Lucene 建立索引 为应用程序添加搜索功能 高级搜索技术 扩展搜索 使用Tika提取文本 Lucene...
1. **索引**:Lucene首先对文本进行索引,将文本内容转换为一系列可搜索的结构。索引过程包括分词(Tokenization)、词干提取(Stemming)、停用词处理(Stop Word Removal)等步骤。 2. **文档(Document)**:在...
《Lucene in Action》第二版是一本专注于开源全文搜索引擎库Lucene的专业著作,由美国的Otis Gospodnetic和Erik Hatcher共同撰写。这本书深入浅出地讲解了如何利用Lucene进行高效的文本搜索和索引构建,是Java开发者...
在使用lucene3与paoding集成的时候可能会出现以下错误: Exception in thread "main" java.lang.AbstractMethodError: org.apache.lucene.analysis.TokenStream.incrementToken()Z at org.apache.lucene.index....
《Lucene实战(第2版)》基于Apache的Lucene 3.0,从Lucene核心、Lucene应用、案例分析3个方面详细系统地介绍了Lucene,包括认识Lucene、建立索引、为应用程序添加搜索功能、高级搜索技术、扩展搜索、使用Tika提取文本...
《Lucene实战第二版》是关于全文搜索引擎Lucene的一本权威指南,由Michael McCandless、Erik Hatcher和Dave Bollinger共同撰写。这本书详细介绍了如何使用Java库Lucene来构建高性能、可扩展的搜索功能。以下是该书的...