经过了三年的开发努力,Apache Lucene 4.0终于发布了。
Apache Lucene是一个高性能,全功能的文本搜索引擎库,完全用Java编写的。这是一个技术适用于几乎
任何需要全文搜索,特别是跨平台的应用程序。
Apache Lucene 4.0版的亮点:
1. 索引格式支持条目、邮件列表、数据库存储的字段、条目矢量等格式,通过编码器API实现了可插拔。可以选择或自定义索引格式。
2. 矢量空间模型的相似度解耦(TF-IDF)。有附加模型(如BM25)、随机偏离、语言模型、基于信息的模型等。
3. IndexWriter支持并行写磁盘,适用于应用程序使用多线程建立索引的场景。
4. 每个文档的归一化因此不再局限于单个字节。
5. 增加了新的索引统计,包括条目或字段的令牌数等。
6. 新的默认字典索引(BlockTree)。
7. 索引的条目不再受UTF-16字符的限制。默认情况下,文本条目使用UTF-8编码。
8. 在搜索期间使用过滤器能获得更好的性能。
9. 替换了大量的编码器和组件。
10. 条目偏移量是可选的,被编码到邮件列表并可按位置检索。
11. 新的自动查询,返回所有文档包含的条目,条目由有限状态机自动提供。
12. 模糊查询的性能比上一版提高了100~200倍。
13. 新的拼写检查器。
14. 提供了各种内存数据结构,比如字典条目和字段缓存等。
还有很多新特性,有兴趣的话,下载研究吧!
分享到:
相关推荐
《深入理解Lucene4.0与IKAnalyzer2012:构建高效全文检索系统》 在信息化时代,数据量的快速增长使得高效的全文检索技术变得至关重要。Lucene作为Apache软件基金会的一个开源项目,是Java领域内最著名的全文搜索...
Lucene是一个高性能、全文本搜索库,由Apache软件基金会开发。它提供了完整的搜索功能,包括分词、索引、查询、排名等,同时支持多种编程语言,如Java、Python等。 2. **创建索引** 创建索引是Lucene工作的第一步...
Lucene 是一个开源的全文检索库,由 Apache 软件基金会开发。版本 4.0 的发布为开发者提供了更高效、更灵活的搜索解决方案。这个样例项目旨在演示如何在 Lucene 4.0 中实现基本的文档添加和查询操作,适用于 Java ...
标题中提到的" IK Analyzer 2012FF_hf1+lucene4.0的jar包 ",意味着这个压缩包包含了一个与Lucene4.0兼容的IK Analyzer 2012FF_hf1版本的Java档案(jar包)。这个jar包可以被Java应用或者全文检索服务(如Solr或...
IK Analyzer不仅支持基本的分词功能,还能够与流行的全文检索框架Apache Lucene紧密集成,尤其在提供的版本中,它已经兼容Lucene 4.0。 IK Analyzer的核心思想是通过词典分词和文法分词相结合的方式,以达到更好的...
首先,Lucene.NET 4.0是Apache Lucene项目的一个.NET版本,它实现了完整的Lucene搜索功能,包括索引、查询、排序和高亮显示等。Lucene.NET 4.0主要更新了对.NET Framework 4.0的支持,增强了性能,并引入了一些新的...
Lucene.NET是一个高性能、全文检索库,它是Apache Lucene项目在.NET平台上的实现。Lucene.NET提供了一套完整的搜索解决方案,包括索引构建、查询解析、评分和结果排序等功能。在.NET 4.0环境下,Lucene.NET能够更好...
Apache Lucene.NET网站位于: : 支持的框架Lucene.NET 3.0.3 .NET Framework 4.0 .NET Framework 3.5Lucene.NET 4.8.0 .NET Framework 4.5地位最新稳定版本:Lucene.NET 3.0.3 致力于Lucene.NET 4.8.0(当前在BETA...
解决lucene4.0与IKAnalyzer的冲突。解决Exception in thread "main" java.lang.VerifyError: class org.wltea.analyzer.lucene.IKAnalyzer overrides final method tokenStream.(Ljava/lang/String;Ljava/io/Reader;...
Apache Lucene.Net是一个高度可扩展的全文搜索库,它是Apache软件基金会的一部分,是Apache Lucene的.NET版本。这个"Apache-Lucene.Net-3.0.3-RC2.bin"压缩包包含了Lucene.Net 3.0.3 RC2版本的所有核心组件和相关...
《Lucene 4.0与IK中文分词:入门与实践》 在信息技术领域,搜索引擎的构建和文本处理是至关重要的部分。Lucene是一个高性能、全文检索库,它为Java开发者提供了一个简单易用的API,用于实现强大的全文检索功能。而...
Apache Lucene是一个高性能、全文检索库,它为Java开发者提供了强大的文本搜索功能。在Windows系统下,虽然官方并未直接提供源码,但通过从Linux系统下提取,我们得以一窥Lucene 4.10.3版本的内部构造。这一版本的...
在.NET 4.0环境下,可以通过Apache Lucene.NET项目来使用Lucene,它是Lucene的.NET版本实现,使得.NET开发者也能享受到Lucene的强大功能。 集成盘古分词与Lucene 3.0.3的过程大致分为以下几个步骤: 1. **环境配置...
Lucene,作为Apache软件基金会的一个开源项目,是Java环境中最流行的全文检索库。它提供了一个高性能、可扩展的信息检索服务,广泛应用于搜索引擎开发和大数据分析中。"luceneDemo(完整代码)"是一个实践项目,旨在...
4.0版本可能使用了Lucene的较新版本,学习源码可以帮助理解Lucene如何支持Solr的全文搜索、高亮显示、拼写检查等功能。 3. **配置文件解析**:Solr使用XML配置文件来定义其行为,如solrconfig.xml和schema.xml。...
其次,Lucene是一个高性能、全文搜索引擎库,由Apache软件基金会开发。它提供了索引和搜索功能,可以快速地从大量数据中找出相关信息。Lucene 3.0.3版本在当时已经相当成熟,具备稳定性和高效性,能够处理大规模的...
Lucene4.0-lisj可能是Lucene的4.0版本的一个学习资源或者示例代码集合。 在Java搜索引擎技术中,有几个关键知识点: 1. **文本分析(Text Analysis)**:这是搜索引擎处理输入文档的第一步,包括分词...
Lucene是一个开源的全文搜索引擎库,由Apache软件基金会开发并维护。它为Java开发者提供了一套强大的工具,用于索引和搜索文本数据。在标题中提到的"lucene-4.10.1.jar"是Lucene 4.10.1版本的Java档案(JAR)文件,...