`
caocao
  • 浏览: 272986 次
  • 来自: 上海
社区版块
存档分类
最新评论

从Lucene 2.0升级到2.1.0之路

    博客分类:
  • Java
阅读更多
作者:caocao(网络隐士),转载请注明来源:http://caocao.iteye.com/blog/70305
 
随着Lucene 2.1.0在2007年情人节的问世,隐士遂将本来基于的2.0的应用升级到了2.1.0,升级日志如下:(2.1.0新功能请参见http://svn.apache.org/repos/asf/lucene/java/tags/lucene_2_1_0/CHANGES.txt
 
1. LUCENE-478:新版在StandardAnalyzer将CJK分割为CJ, K,对于中文分词基本没用,隐士自创的中文分词基本没有修改直接使用,没有问题。
 
2. LUCENE-438:Token的final终于被砍了,大快人心。当初为了实现中文分词,隐士本想继承Token,加入一些中文相关的metadata,无奈Token被阉,隐士只好另起炉灶重写了好多代码,这次算是迟来的正义吧,将代码重构一下是正道,无奈项目催得紧,以后再重构了,暂时不会负面影响。
 
3. 好些deprecated的玩意都被砍了,好在隐士实现的所有应用都没有调用过deprecated的东西,所以没有修改过一行代码。
 
4. 经过试验验证:2.1.0可以兼容读取2.0的索引文件,2.1.0可以增量索引2.0的索引文件,optimize后索引文件是2.1.0的格式。这个相当方便,可以平稳过渡至新版本,相当于无痛分娩。
 
5. LUCENE-771:lock文件现在移到了索引目录,很简洁,一目了然。
 
6. LUCENE-565:重量级的功能,IndexWriter.updateDocument闪亮登场,隐士赶紧把delete/add替换成updateDocument。至于到底能提高多少性能,有待观察。
 
7. LUCENE-701:Lockless commits挺诱人的,看了一下IndexReader,deleteDocuments还在,没深入研究和IndexWriter的deleteDocuments有什么区别。
 
8. LUCENE-544:这个也是好东西哦,MultiFieldQueryParser可以允许为Field指定boost了。
 
9. LUCENE-723: 可以接受*:*哦,比较危险,一定要过滤这样的玩意,不然整个数据库就裸奔了。
 
总结下来,隐士除了用lucene-core-2.1.0.jar代替lucene-core-2.0.0.jar和把delete/add替换为updateDocument外什么都没做就顺利切换到2.1.0了。
分享到:
评论
12 楼 amw_demon 2007-06-04  
不错   收下
11 楼 junjie314 2007-05-24  
关注......
10 楼 javadev 2007-05-02  
我现在正在研究,期待大家更多精辟见解。
9 楼 lanhuai 2007-04-27  
从2.0到2.1.0的 变化还有segments文件名变成了segments.gen
8 楼 qwer 2007-04-19  
.,.
7 楼 wildwind 2007-04-17  
研究中
6 楼 wuhua 2007-04-16  
我现在就在学习这方面的知识。
期待有这方面的高人出现
5 楼 lix23 2007-04-16  
IndexWriter.updateDocument

可以更新而不是 delete/add了??

这个可要好好研究一下,太重要了!!
4 楼 netfishx 2007-04-16  
yuanetking 写道
江南白衣 写道
hibernate是用Lucene2.1的。相比compass,现在更关注hibernate对lucene的集成进展。


请问hibernate对lucene的集成进展如何?在哪里可以查到?我同样很关注。

http://search.hibernate.org/
3 楼 yuanetking 2007-04-16  
江南白衣 写道
hibernate是用Lucene2.1的。相比compass,现在更关注hibernate对lucene的集成进展。


请问hibernate对lucene的集成进展如何?在哪里可以查到?我同样很关注。
2 楼 江南白衣 2007-04-16  
hibernate是用Lucene2.1的。相比compass,现在更关注hibernate对lucene的集成进展。
1 楼 codeutil 2007-04-12  

compass还不支持 lucene2.1.0

相关推荐

    lucene 2.0 api以及lucene 3.0 api

    总的来说,从 Lucene 2.0 进化到 3.0,主要变化在于性能提升、查询功能增强以及对更多场景的支持,这些改进使得 Lucene 成为了更加成熟和全面的全文搜索解决方案。学习并掌握这两个版本的 API,对于从事相关开发工作...

    lucene2.0与其分词工具包

    然而,随着时间的推移,Lucene已经发展到更高的版本,如现在的Lucene 8.x,但在一些特定的场景或对老版本有依赖的项目中,Lucene 2.0依然具有其独特的价值。 Lucene 2.0的核心特性包括文档索引、查询解析、评分机制...

    开发自己的搜索引擎《lucene2.0+heritrix》一书对应的源码资料

    在《开发自己的搜索引擎》一书中,通过`ch2-lucene入门小例子`,读者可以了解到如何使用Lucene 2.0创建简单的搜索引擎,例如建立索引、执行搜索等基本操作。而`myReserch-可用的网络搜索引擎`可能包含一个完整的搜索...

    lucene2.0+Heritrix配套源码

    《lucene2.0+Heritrix配套源码》是一个针对搜索引擎开发的资源包,包含了构建自定义搜索引擎所需的关键组件。Lucene是一个流行的全文搜索引擎库,而Heritrix则是一个强大的网页抓取工具,用于收集互联网上的数据。这...

    开发自己的搜索引擎Lucene2.0+Heritrix

    Lucene 的发展历史悠久,从最初的版本到现在的成熟版本,经历了多次重大更新。以下是 Lucene 2.0 盈亏平衡点前后的一些关键版本: - **2.3.0**(2008 年 1 月):这是一个重要版本,引入了许多新特性。 - **2.4.0**...

    lucene-misc-2.1.0.jar下载

    lucene-misc-2.1.0.jar lucene-misc-2.1.0.jar

    Lucene2.0+Heritrix(源代码)

    Lucene2.0是Apache软件基金会的一个项目,它是一个高性能、全文检索库,提供了一个简单的API,允许开发者将全文搜索功能集成到他们的应用中。Lucene的核心功能包括索引和搜索,它能够高效地处理大量的文本数据,并...

    lucene-2.0

    《深入理解Lucene 2.0:开源全文检索框架解析》 Lucene 2.0是一款强大的开源全文检索库,由Apache软件基金会开发并维护,是Java编程语言中的一个核心工具,广泛应用于搜索引擎的构建和其他信息检索场景。该版本发布...

    Lucene.2.0.API

    《Lucene.2.0.API》是关于开源全文搜索引擎库Lucene的一个重要参考资料,它详尽地记录了Lucene 2.0版本的API接口及其使用方法。Lucene是一个由Apache软件基金会开发的Java全文检索库,它提供了高性能、可扩展的文本...

    Lucene 2.0+Heriterx书源代码-ch7lib

    这些库文件是构建一个完整的搜索引擎系统不可或缺的部分,它们使得开发者能够方便地集成Lucene和Heritrix的功能,实现从数据抓取到索引创建,再到查询执行的全过程。 在学习和使用这些源代码时,开发者需要理解每个...

    《开发自己的搜索引擎-Lucene 2.0 Heritrix》cd(全)(下载地址)

    根据提供的文件信息,我们可以深入探讨与“开发自己的搜索引擎-Lucene 2.0 Heritrix”相关的知识点,主要包括Lucene 2.0和Heritrix的基本概念、特点以及如何利用它们来构建一个简单的搜索引擎。 ### 一、Lucene 2.0...

    Lucene-2.0学习文档

    《深入理解Lucene-2.0:从源码到应用》 Lucene是一个开源的全文检索库,由Apache软件基金会开发并维护。它为Java开发者提供了强大的文本搜索功能,广泛应用于各种信息检索系统中。本篇文章将围绕"Lucene-2.0学习...

    lucene2.0+heritrix 随书光盘

    《lucene2.0+heritrix 随书光盘》是针对搜索引擎技术的一个资源集合,其中包含了Lucene 2.0和Heritrix的相关示例及教程。Lucene是一款强大的全文检索库,而Heritrix则是一个互联网爬虫工具,它们在构建搜索引擎时起...

    Lucene2.0+Heritrix搜索引擎 随书光盘

    《Lucene2.0+Heritrix搜索引擎》随书光盘包含了两个重要的开源搜索技术——Apache Lucene 2.0和Heritrix的资源和教程。Lucene是Java开发的全文检索库,而Heritrix则是一个网络爬虫工具,它们在构建大规模搜索引擎和...

    重要lucene2.0 学习文档

    在 Lucene 2.0 版本中,相比于之前的 1.4.3 版本,有很多改进和优化,但同时也存在向后兼容性问题。2006 年 6 月 1 日发布的 Lucene 2.0,其下载地址是 http://apache.justdn.org/lucene/java/。 下面通过两个示例...

    Lucene2.0+Heritrix(ch4源代码)

    《深入理解Lucene 2.0与Heritrix:源码剖析及应用实践》 Lucene是一个开源全文搜索引擎库,由Apache软件基金会开发并维护。它提供了高效的索引和搜索功能,广泛应用于各种信息检索系统。Heritrix是互联网档案馆...

    lucene 2.0开发包

    lucene 2.0虽然是比较老的技术,它对实时搜索支持交差,不过很多普通的搜索引擎对实时性要求并不是很高,并且对于分词上没有太多的个性化专业要求,那么这个选择将是非常好的,提供各类分词接口、存储接口、索引接口...

    Lucene2.0+Nutch0.8 API帮助文档(CHM格式)

    《Lucene2.0+Nutch0.8 API帮助文档》是一个综合性的技术资源,它包含了对Lucene 2.0和Nutch 0.8这两个关键的开源搜索引擎库的详细接口和功能说明。这两个组件在信息检索、全文搜索以及网络爬虫领域有着广泛的应用。 ...

    Lucene2.0实例

    但作为入门实例,这个"Lucene2.0实例"应该会从最基本的层面教你如何启动并运行一个简单的搜索应用。通过学习并实践这些基础操作,你可以逐步掌握Lucene的核心功能,为进一步深入学习和开发更复杂的搜索系统奠定基础...

    【完整光盘24.5M】开发自己的搜索引擎-Lucene 2.0+Heritrix.zip

    《构建个人搜索引擎:深入理解Lucene 2.0与Heritrix》 在这个数字化时代,搜索引擎已经成为我们获取信息的关键工具。对于IT专业人士来说,了解并掌握搜索引擎的内部工作原理及开发技术,不仅可以提升自身技能,还能...

Global site tag (gtag.js) - Google Analytics