`
renavatior
  • 浏览: 73197 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

lucene2.4.0 demo 中文支持搭建

阅读更多
由于自己的毕业设计要对html文件建索引,所以参考了 lucene2.4.0的demo,由于现在网上对这个demo的搭建都是较早版本,所以有很多的问题,现在把我的步骤阐述一下:
step1:首先需要准备好lucene-core-2.4.0.jar和IKAnalyzer2.0.2OBF.jar(不要使用IKAnalyzer1.4版本,它不怎么支持lucene-core-2.4.0.jar).
step2:在elipse里面建立一个java工程,把demo的原代码拷贝过来.
step3:把这个demo代码中的全部StandardAnalyzer修改为IK_CIKAnalyzer,此时你去调试demo会出现类似一下错误:
Parse Aborted: Lexical error at line 63, column 16.   Encountered: "\u987b" (39035), after : ""

step4:解决上面的问题需要:
      第一:先下载一个javacc
      第二:修改HtmlParser.jj文件的
       options { IGNORE_CASE = true; STATIC = false;} 为:
       options { IGNORE_CASE = true; STATIC = false;UNICODE_INPUT=true;}         
      第三:运行javacc HtmlParser.jj
      第四:把产生出来的7个java文件覆盖原先的java源文件
此时去建立索引试没有问题了,
但是如果要使用luceneweb来搜索还要修改jsp编码问题
step5:把luceneweb下面的5个jsp文件都加上
<%@ page contentType="text/html; charset=GBK" %>

step6:还需要修改results.jsp
把62行的
queryString = request.getParameter("query");

改为
 queryString =  new String( request.getParameter("query").getBytes("ISO8859-1"),"GBK");

并且把这个results.jsp里面的SdandardAnalyzer也要改为IK_CAnalyzer,并且不要忘记在results.jsp头部把IK_CAnalyzer导入
step7:如果还不行,需要修改一下你的tomcat(我的是6.0.10版本)的配置文件server.xml
:把46行附近的代码改为:
 <Connector port="8080" protocol="HTTP/1.1" 
               maxThreads="150" connectionTimeout="20000" 
               redirectPort="8443" URIEncoding="UTF-8" useBodyEncodingForURI="true" />

OK了
分享到:
评论
2 楼 renavatior 2009-02-18  
这个demo,是支持中文的,原先只能支持英文,这样对有些人上手方便点而已了
1 楼 kafei819000 2009-02-16  
就不知道你在说些什么 lucene2.4在2.3的基础上有了很大的改变,许多方法已经不建议使用,并且在建立索引时的算法也已经彻底换掉,你的帖子是要说明lucene2.4的功能呢?还是要说明和以前的区别?搭建这个demo说明什么意义?而你说的demo是lucene自带的,如果你想要深入研究lucene,那么在javaeye上有好多关于这方面的帖子可以参考的。

相关推荐

    Lucene2.4.0(jar包+高亮包)

    **Lucene 2.4.0 知识点详解** Lucene 是一个开源的全文搜索引擎库,由 Apache 软件基金会开发并维护。在版本 2.4.0 中,它提供了强大的文本检索功能,使得开发者能够快速、高效地在大量数据中搜索相关信息。这个...

    lucene-2.4.0-src.zip

    最后,Lucene 2.4.0还支持多种高级特性,如命中高亮(Highlighting)、近似搜索(Fuzzy Search)、短语查询(Phrase Query)和多字段搜索。这些功能通过`Highlighter`、`FuzzyQuery`、`PhraseQuery`等类实现,极大地...

    lucene-2.4.0 jar包

    **Lucene 2.4.0 Jar 包详解** Lucene 是一个开源的全文搜索引擎库,由 Apache 软件基金会开发并维护。这个“lucene-2.4.0 jar 包”是 Lucene 的一个重要版本,发布于较早时期,尽管现在已经有更新的版本,但对理解 ...

    基于lucene2.4.0的开发jar包

    《深入剖析Lucene 2.4.0:核心与扩展》 Lucene是一个开源全文搜索引擎库,由Apache软件基金会开发并维护。在2.4.0版本中,Lucene为开发者提供了一套强大的文本检索和分析工具,使得构建高效、可扩展的搜索应用成为...

    lucene2.4.0

    7. 多线程支持:Lucene 2.4.0支持多线程索引和搜索,提升了性能。 四、实际应用 Lucene 2.4.0被广泛应用于各种搜索场景,如企业内部知识库搜索、电商产品搜索、邮件搜索等。通过结合其他开源项目,如Solr和Elastic...

    lucene-highlighter-2.4.0.jar

    lucene-highlighter-2.4.0.jar lucene highlighter

    lucene-2.4.0.rar

    - **多语言支持**:Lucene 2.4.0在处理非英文文本时可能存在局限,后续版本逐渐增强了多语言处理能力。 - **云计算集成**:随着云计算的发展,Lucene的分布式搜索和存储成为重要研究方向。 总结,Lucene 2.4.0是...

    lucene-core-2.4.0的源码

    2. **排序(Sort)**:Lucene 2.4.0支持按字段值排序,可以是基于评分的排序或自定义的排序方式。 3. **分面搜索(Faceting)**:虽然2.4.0版本未直接支持,但可以通过自定义实现统计特定字段的频次,实现简单的分...

    lucene-2.4.0

    lucene-2.4.0 自己下的 !不知道对不对 lucene-2.4.0 自己下的 ! 可以用 我已经试过了 解压之后 更改后缀 再解压一次

    Lucene-Demo.rar Lucene分词的demo

    这个名为"Lucene-Demo.rar"的压缩包提供了一个基于Lucene的分词演示项目,可以帮助开发者快速理解和应用Lucene的分词功能。在这个压缩包中,有两个主要的文件:`lucene`目录和`Lucene-Demo`文件。 `lucene`目录很...

    lucene_demo例子

    《Lucene实战(第2版) PDF高清中文版.pdf》这本书是关于Apache Lucene的一本经典教程,适合初学者入门。Lucene是一个全文搜索引擎库,它提供了强大的文本搜索功能,被广泛应用于各种信息检索系统中。这本书详细介绍了...

    最全的lucene-2.4.0jar包

    标题中的“lucene-2.4.0jar包”指的是Lucene的2.4.0版本,这是一个较早的稳定版本,但仍然包含了丰富的功能和示例。 在这个压缩包中,你将找到以下内容: 1. **Lucene核心库**:`lucene-core-2.4.0.jar` 是Lucene...

    Lucene简单Demo(附带Jar)

    "luceneDemo1"和"lucene"可能是两个不同的文件或文件夹,它们可能包含了运行Lucene的示例代码或者已经构建好的索引。"luceneDemo1"可能是一个包含Lucene应用示例的Java项目,包含了必要的类和方法,展示了如何使用...

    lucene-2.4.0-javadoc.chm

    lucene 2.4.0 javadoc api 是不能搜索的,不过资料都全,我还上了一个可以搜索的, 你在搜下

    lucene Demo(paoding)

    Lucene是开源的全文检索引擎库,它提供了强大的文本搜索功能,而Paoding则是针对中文处理的插件,优化了Lucene对中文的支持。 在【描述】中提到的"lucene demo and paoding good shuang",可以理解为这个项目不仅...

    简单的lucene demo

    **标题:“简单的lucene demo”** Lucene是一个强大的全文搜索引擎库,由Apache软件基金会开发并维护,它在Java编程语言中实现,广泛应用于各种搜索应用的构建。这个“简单的lucene demo”旨在向我们展示如何利用...

    Apache Lucene.Net 2.4.0 API Documentation.chm

    Apache Lucene.Net 2.4.0 API

    lucene-core-2.4.0.jar

    《Lucene核心技术详解——以lucene-core-2.4.0.jar为例》 Apache Lucene是一个开源全文搜索引擎库,它为开发者提供了强大的文本搜索功能。本文将以“lucene-core-2.4.0.jar”这一特定版本为例,深入探讨Lucene的...

    luceneDemo(完整代码)

    《LuceneDemo(完整代码):入门到精通的探索》 Lucene,作为Apache软件基金会的一个开源项目,是Java环境中最流行的全文检索库。它提供了一个高性能、可扩展的信息检索服务,广泛应用于搜索引擎开发和大数据分析中...

    Lucene.net2.4.0

    1. **跨平台支持**:Lucene.NET 2.4.0支持.NET Framework,同时兼容.NET Core,具备良好的跨平台能力,可在Windows、Linux和Mac OS等操作系统上运行。 2. **高效索引**:Lucene.NET使用倒排索引技术,能快速查找...

Global site tag (gtag.js) - Google Analytics