继续学习车东利用Lucene提供网站全文检索的开源项目。
由于文档不全,这次看代码看得很苦,几乎是用log4j一个类一个方法的看过来的。令人高兴的是,期间请教车东时,他说到要重新整理一下整个项目的源代码和文档,估计后来者可以轻松矣。
除了以前提到的汉化外,车东在这个项目中,加入了很多实用的东东,如反显、排序、摘要等,甚至也连网页过期时间、输出格式的限制都考虑到了。
下面是我的测试页面,大家看看先。等明天我把源代码diff一下,把我做的修改文件也挂上来,供大家参考。
在车东的简历上,有一个商业检索网址,估计是车东他们的成绩,可以去看看,也帮助理解这个项目的功能。
下面是运行weblucene需要作得改动和说明。
weblucene/
|-- WEB-INF
| |-- classes
| | `-- com
| | `-- chedong
| | |-- weblucene
| | |-- WebLuceneAdminServlet.java
| | |-- index
| | | `-- SAXIndexer.java
| | `-- search
| | `-- WebLuceneHighlighter.java
| |-- logs <-----这是一个子目录,
手工建立后程序运行时log文件在这个目录下。
| `-- var
| `-- app
| |-- index <-----这是一个子目录,
手工建立后索引时将索引文件放在这儿。
| |-- weblucene.xsl
| `-- wl.conf
|-- index.html
|-- style.css
`-- test.xml
对SAXIndexer.java的修改
将两行
sb.append(luceneDoc.getField((String) it.next()));
改为两行
sb.append(luceneDoc.get((String) it.next()));
对WebLuceneHighlighter.java的修改
将两处<u>改为<ins>
将两处</u>改为</ins>
对WebLuceneAdminServlet.java可改可不改
建议将
logFileName = servletConfig.getServletContext().getRealPath("WEB-INF/logs/")
+ logFileName;
改为
logFileName = servletConfig.getServletContext().getRealPath("WEB-INF/logs/")
+ "/" + logFileName;
除了三个java程序外,其它文件都可以从
这儿下载.
通过web进行检索前,需要先建立索引,命令如下:
$ java IndexRunner -i tt.xml -o WEB-INF/var/app/index/ -t Title,Content -n Author,Pubtime
需要再说一句,就是估计车东会很快推出一个崭新的实用性更强的版本,到那时此处可供下载的内容估计都没有用了。:)
分享到:
相关推荐
lucene学习笔记 3 .txt lucene入门实战.txt Lucene 的学习 .txt Lucene-2.0学习文档 .txt Lucene入门与使用 .txt lucene性能.txt 大富翁全文索引和查询的例子程序.txt 关于lucene2.0的创建、检索和删除功能...
10. **lucene学习笔记 3 .txt** 这是作者的学习笔记,可能包含了个人理解和使用Lucene过程中遇到的问题及解决方案,提供了不同角度的见解和实践经验。 通过这些文档,你可以系统地学习和掌握Lucene的各个方面,从...
**Lucene 学习笔记 1** Lucene 是一个全文搜索引擎库,由 Apache 软件基金会开发。它提供了一个可扩展的、高性能的搜索框架,使得开发者能够在其应用程序中集成高级的搜索功能。本篇学习笔记将深入探讨 Lucene 的...
【Lucene学习笔记】 Lucene是一个高性能、全文检索的开源库,完全用Java编写,能够帮助开发者在应用程序中实现复杂的搜索引擎功能。它提供了强大的索引和搜索机制,使得从大量文本数据中快速找到相关信息变得简单。...
标题:Lucene学习笔记 描述:Lucene学习笔记,Lucene入门必备材料 知识点: 一、Lucene概述与文档管理策略 Lucene是一款高性能、全功能的文本搜索引擎库,广泛应用于文档检索、全文搜索等场景。为了提升搜索效率...
【Lucene 3.6 学习笔记】 Lucene 是一个高性能、全文本搜索库,广泛应用于各种搜索引擎的开发。本文将深入探讨Lucene 3.6版本中的关键概念、功能以及实现方法。 ### 第一章 Lucene 基础 #### 1.1 索引部分的核心...
NULL 博文链接:https://kylinsoong.iteye.com/blog/719415
【Lucene学习笔记】 Lucene 是一款开源的全文检索框架,由Apache软件基金会维护,它提供了高效的、可扩展的搜索引擎功能。不同于一个完整的应用程序,Lucene 提供的是一个基础组件,开发者可以将其集成到自己的应用...
### Lucene 3.5 学习笔记 #### 一、Lucene 3.5 基本概念 ##### 1.1 Lucene 概述 **1.1.1 IndexWriter** `IndexWriter` 是 Lucene 中的核心类之一,用于创建或更新索引。它提供了添加文档、删除文档、优化索引等...
《Lucene 3.5 学习笔记》 在信息技术高速发展的今天,搜索引擎技术成为了信息检索的核心工具。Apache Lucene,作为一个开源全文检索库,为开发者提供了强大的文本搜索功能。本文将深入探讨Lucene 3.5版本的相关知识...
《Lucene 3.0 学习笔记(三)与Paoding整合》 在深入了解Lucene 3.0的过程中,我们经常会遇到如何将其与第三方工具进行整合的问题,以提升搜索性能和用户体验。这篇学习笔记主要关注的是将Lucene 3.0与Paoding搜索...
**Lucene 基础学习笔记与源码分析** **一、Lucene 概述** Lucene 是一个高性能、全文本搜索库,由 Apache 软件基金会开发并维护。它是一个 Java 开发的开源项目,被广泛应用于各种搜索引擎的构建,支持多种编程...
《深入理解Lucene 2.9.1:构建与搜索的全方位解析》 Lucene,作为一款开源的全文搜索引擎库,被广泛应用于各种信息检索场景。本文将详细讲解Lucene 2.9.1版本的核心概念、架构以及索引创建与搜索的流程。 一、...