1. LUCENE-478:新版在StandardAnalyzer将CJK分割为CJ, K,对于中文分词基本没用,隐士自创的中文分词基本没有修改直接使用,没有问题。
2. LUCENE-438:Token的final终于被砍了,大快人心。当初为了实现中文分词,隐士本想继承Token,加入一些中文相关的metadata,无奈Token被阉,隐士只好另起炉灶重写了好多代码,这次算是迟来的正义吧,将代码重构一下是正道,无奈项目催得紧,以后再重构了,暂时不会负面影响。
3. 好些deprecated的玩意都被砍了,好在隐士实现的所有应用都没有调用过deprecated的东西,所以没有修改过一行代码。
4. 经过试验验证:2.1.0可以兼容读取2.0的索引文件,2.1.0可以增量索引2.0的索引文件,optimize后索引文件是2.1.0的格式。这个相当方便,可以平稳过渡至新版本,相当于无痛分娩。
5. LUCENE-771:lock文件现在移到了索引目录,很简洁,一目了然。
6. LUCENE-565:重量级的功能,IndexWriter.updateDocument闪亮登场,隐士赶紧把delete/add替换成updateDocument。至于到底能提高多少性能,有待观察。
7. LUCENE-701:Lockless commits挺诱人的,看了一下IndexReader,deleteDocuments还在,没深入研究和IndexWriter的deleteDocuments有什么区别。
8. LUCENE-544:这个也是好东西哦,MultiFieldQueryParser可以允许为Field指定boost了。
9. LUCENE-723: 可以接受*:*哦,比较危险,一定要过滤这样的玩意,不然整个数据库就裸奔了。
总结下来,隐士除了用lucene-core-2.1.0.jar代替lucene-core-2.0.0.jar和把delete/add替换为updateDocument外什么都没做就顺利切换到2.1.0了。
分享到:
相关推荐
总的来说,从 Lucene 2.0 进化到 3.0,主要变化在于性能提升、查询功能增强以及对更多场景的支持,这些改进使得 Lucene 成为了更加成熟和全面的全文搜索解决方案。学习并掌握这两个版本的 API,对于从事相关开发工作...
然而,随着时间的推移,Lucene已经发展到更高的版本,如现在的Lucene 8.x,但在一些特定的场景或对老版本有依赖的项目中,Lucene 2.0依然具有其独特的价值。 Lucene 2.0的核心特性包括文档索引、查询解析、评分机制...
在《开发自己的搜索引擎》一书中,通过`ch2-lucene入门小例子`,读者可以了解到如何使用Lucene 2.0创建简单的搜索引擎,例如建立索引、执行搜索等基本操作。而`myReserch-可用的网络搜索引擎`可能包含一个完整的搜索...
《lucene2.0+Heritrix配套源码》是一个针对搜索引擎开发的资源包,包含了构建自定义搜索引擎所需的关键组件。Lucene是一个流行的全文搜索引擎库,而Heritrix则是一个强大的网页抓取工具,用于收集互联网上的数据。这...
Lucene 的发展历史悠久,从最初的版本到现在的成熟版本,经历了多次重大更新。以下是 Lucene 2.0 盈亏平衡点前后的一些关键版本: - **2.3.0**(2008 年 1 月):这是一个重要版本,引入了许多新特性。 - **2.4.0**...
lucene-misc-2.1.0.jar lucene-misc-2.1.0.jar
Lucene2.0是Apache软件基金会的一个项目,它是一个高性能、全文检索库,提供了一个简单的API,允许开发者将全文搜索功能集成到他们的应用中。Lucene的核心功能包括索引和搜索,它能够高效地处理大量的文本数据,并...
《深入理解Lucene 2.0:开源全文检索框架解析》 Lucene 2.0是一款强大的开源全文检索库,由Apache软件基金会开发并维护,是Java编程语言中的一个核心工具,广泛应用于搜索引擎的构建和其他信息检索场景。该版本发布...
《Lucene.2.0.API》是关于开源全文搜索引擎库Lucene的一个重要参考资料,它详尽地记录了Lucene 2.0版本的API接口及其使用方法。Lucene是一个由Apache软件基金会开发的Java全文检索库,它提供了高性能、可扩展的文本...
这些库文件是构建一个完整的搜索引擎系统不可或缺的部分,它们使得开发者能够方便地集成Lucene和Heritrix的功能,实现从数据抓取到索引创建,再到查询执行的全过程。 在学习和使用这些源代码时,开发者需要理解每个...
根据提供的文件信息,我们可以深入探讨与“开发自己的搜索引擎-Lucene 2.0 Heritrix”相关的知识点,主要包括Lucene 2.0和Heritrix的基本概念、特点以及如何利用它们来构建一个简单的搜索引擎。 ### 一、Lucene 2.0...
《深入理解Lucene-2.0:从源码到应用》 Lucene是一个开源的全文检索库,由Apache软件基金会开发并维护。它为Java开发者提供了强大的文本搜索功能,广泛应用于各种信息检索系统中。本篇文章将围绕"Lucene-2.0学习...
《lucene2.0+heritrix 随书光盘》是针对搜索引擎技术的一个资源集合,其中包含了Lucene 2.0和Heritrix的相关示例及教程。Lucene是一款强大的全文检索库,而Heritrix则是一个互联网爬虫工具,它们在构建搜索引擎时起...
《Lucene2.0+Heritrix搜索引擎》随书光盘包含了两个重要的开源搜索技术——Apache Lucene 2.0和Heritrix的资源和教程。Lucene是Java开发的全文检索库,而Heritrix则是一个网络爬虫工具,它们在构建大规模搜索引擎和...
在 Lucene 2.0 版本中,相比于之前的 1.4.3 版本,有很多改进和优化,但同时也存在向后兼容性问题。2006 年 6 月 1 日发布的 Lucene 2.0,其下载地址是 http://apache.justdn.org/lucene/java/。 下面通过两个示例...
《深入理解Lucene 2.0与Heritrix:源码剖析及应用实践》 Lucene是一个开源全文搜索引擎库,由Apache软件基金会开发并维护。它提供了高效的索引和搜索功能,广泛应用于各种信息检索系统。Heritrix是互联网档案馆...
lucene 2.0虽然是比较老的技术,它对实时搜索支持交差,不过很多普通的搜索引擎对实时性要求并不是很高,并且对于分词上没有太多的个性化专业要求,那么这个选择将是非常好的,提供各类分词接口、存储接口、索引接口...
《Lucene2.0+Nutch0.8 API帮助文档》是一个综合性的技术资源,它包含了对Lucene 2.0和Nutch 0.8这两个关键的开源搜索引擎库的详细接口和功能说明。这两个组件在信息检索、全文搜索以及网络爬虫领域有着广泛的应用。 ...
但作为入门实例,这个"Lucene2.0实例"应该会从最基本的层面教你如何启动并运行一个简单的搜索应用。通过学习并实践这些基础操作,你可以逐步掌握Lucene的核心功能,为进一步深入学习和开发更复杂的搜索系统奠定基础...
《构建个人搜索引擎:深入理解Lucene 2.0与Heritrix》 在这个数字化时代,搜索引擎已经成为我们获取信息的关键工具。对于IT专业人士来说,了解并掌握搜索引擎的内部工作原理及开发技术,不仅可以提升自身技能,还能...