`

WebLucene之安装习行录

阅读更多
            WebLucene之安装习行录
 
  清人颜元曾说过:“学而必习,习又必行,固也”。若干年来,本人一直对这句话奉若神明,深感只有致用才能巩固学的效果,发现学的不足,享受学的乐趣。
  搜索引擎在近几年的发展虽没有大的突破,却逐步走向成熟,走向商业。同时,随着开源的搜索引擎逐渐增多,门槛也逐步降低,使得普通程序员也能有机会接触到这一高深的领域。由于对搜索引擎的兴趣所致,笔者也利用部分业余时间对此进行一些研究与尝试。本文及后续的文章主要记载笔者在实践中的一些操作过程及应用体会,同时参考了一些前人的文章,目的主要是为了备忘,也希望能对后来者有所参考与助益。
  目前较为有名的开源搜索引擎Nutch、Compass、Solr等都是基于Lucene之上,而在众多基于Lucene的检索系统中,车东先生的WebLucene可以说是国人在此领域非常有影响力的作品,那就首先从WebLucene的安装开始说起吧!
 
  1、安装系统环境
  (1)安装Java JDK
  安装Java JDK 1.4或更新的版本,同时设置好环境变量。这应该是这篇文章读者电脑里的基本设置,所以不再详述。
  (2)安装JavaCC 2.1
  从JavaCC的项目主页(https://javacc.dev.java.net/servlets/ProjectDocumentList?folderID=212&expandFolder=212&folderID=0下载到JavaCC 2.1的版本,请注意,一定要下载JavaCC 2.1版本。笔者下载了JavaCC的最新版本4.0之后,发现WebLucene并不支持此版本,只好重新去下载JavaCC 2.1。
  解压JavaCC2_1.zip文件后,打开DOS命令提示符窗口,来到刚解压生成的目录,输入如下命令来安装JavaCC(如图1所示):
       java -cp ./ JavaCC2_1 -c

                                    (图1)
 
在接受协议之后,选择要安装的目录路径,回车后就进行自动的安装操作了,等看到如图
2所示的提示表示已安装成功。

                 (图2)
 
  (3)安装Ant
  http://ant.apache.org下载Ant的最新版本,解压文件后,分别设置环境变量ANT_HOME与PATH。
  在DOS命令提示符窗口输入ant,如果出现如图3所示的提示,则表明已安装成功。

                   (图3)
 
  (4)部署WebLucene工程
  本文使用的应用服务器为resin-3.0.17,将下载来的WebLucene压缩包解压到resin-3.0.17目录下的webapps目录中。
 
  2、Build项目
  (1)准备Build环境
  首先将weblucene目录下的文件build.properties.default重命名为build.properties,打开此文件,将内容修改为如下的形式,读者可依据自己的实际目录来做相应调整:
# ---------------------------------------------------------
# WebLucene BUILD PROPERTIES
# ---------------------------------------------------------
jsdk_jar=E:\\resin-3.0.17\\lib\\jsdk-24.jar
javacc.home=D:\\opensource\\JavaCC2_1\\javacc2.1\\bin
javacc.zip.dir=D:\\opensource\\JavaCC2_1\\javacc2.1\\bin\\lib
javacc.zip=D:\\opensource\\JavaCC2_1\\javacc2.1\\bin\\lib\\JavaCC.zip
  (2)Build工程
  在DOS命令提示符窗口中将当前路径调整到weblucene目录,输入“ant build”命令,如出现图4所示的提示,则表示已Build成功。如果build失败,请检查CLASSPATH中的环境变量以及build.properties文件中的相应配置是否正确。

                                        (图4)
 
  3、创建索引
  创建索引使用IndexRunner命令,位于/weblucene/WEB-INF/classes/IndexRunner.class,其参数格式为:
  -i xml_url       输入XML的URL
  -o output_dir    输出索引的目录
  在dump目录中有一blog.xml文件,我们可以对其进行创建索引的测试。当然读者也可以使用自己准备的素材来进行创建索引的测试,在后续文章中笔者将会对其作进一步的讨论。
  在DOS命令提示符窗口中进行如图5所示的操作,见到如下提示则表示创建索引成功:
  50 rows added Total time Use:0 second
  750 [main] INFO IndexRunner - Great! Indexing OK

 
                                       (图5)
 
对于输入上面这么多的命令,读者可能会不太习惯,笔者制作了一个批处理文件index.bat,可以在http://www.cnblogs.com/Files/dev2dev/WebLucene之安装习行录index.rar下载。读者下载后可依据自己的实际目录来做相应调整,然后双击此文件运行即可完成创建索引的操作了。
 
  4、搜索测试
  搜索使用SearchRunner 命令,位于 /weblucene/WEB-INF/classes/SearchRunner.class,其参数格式为:
  -i  索引所在的目录
  -f  索引的字段名
  -k  查询的关键字
  在DOS命令提示符窗口中进行如图6所示的操作,可以看到搜索结果被打印到屏幕上:

                                             (图6)
 
从上面的图中可以看出WebLucene采用了二元分词,在后续的文章中笔者将会对分词作进一步的讨论。
 
  5、部署Web应用
  (1)在resin.conf文件里加上如下的配置,读者可依据自己的实际目录来做相应调整:
  [host id="" root-directory="."]
   [web-appid='/weblucene'  document-directory="E:\resin-3.0.17\webapps\weblucene\webapp"/]
  [/host]
  (2)将weblucene/webapp/WEB-INF/conf/目录下的log4j.conf.default重命名成 log4j.conf,并将文件中的log4j.appender.A1.File设置成为E:\\resin-3.0.17\\webapps\\weblucene\\webapp\\WEB-INF\\logs\\weblucene.log,请读者依据自己的实际目录来做调整。
  (3)启动Resin应用服务器,打开浏览器在地址栏中输入http://localhost:8080/weblucene /search.html会出现如图7所示的页面:

                                     (图7)
 
在搜索框中输入关键字“路线图”,点击查询后会出现如图8所示的页面:

 
                                         (图8)
 

  好了,关于WebLucene的安装就告一段落,在后续文章中笔者将来讲述如何实现基于WebLucene的应用。 



Trackback: http://tb.donews.net/TrackBack.aspx?PostId=1021739

分享到:
评论

相关推荐

    weblucene安装文档

    在本安装文档中,我们将详细介绍如何一步步地安装并配置WebLucene,以便于你能够快速地将它集成到你的项目中。 首先,我们需要了解安装WebLucene所需的环境。WebLucene基于Java,因此确保你的系统已经安装了Java ...

    Weblucene 站内搜索

    - **安装与配置**:下载Weblucene的源代码或二进制包,根据官方文档配置相关参数,如索引目录、日志设置等。 - **创建索引**:使用Weblucene提供的工具,抓取并索引你的网站内容。这一步可能需要定期运行以保持索引...

    关于webLucene 安装方法

    建立索引是WebLucene的核心功能之一,它涉及到对网站内容的抓取、分析和存储。在Eclipse中,你可以编写测试代码来调用WebLucene的索引建立接口,设置好必要的参数,如索引路径、数据源等。在实际应用中,索引的更新...

    WebLucene2.zip

    WebLucene2.zip 文件可能是一个包含Lucene库的压缩包,用于在Web环境中实现全文搜索引擎。Lucene是Apache软件基金会的一个开源项目,它提供了一个高性能、可伸缩的信息检索库。这个库允许开发者轻松地在应用程序中...

    Lucene4.7-Web 例子

    《Lucene4.7在Web应用中的实践:结合SpringMVC与MyBatis3》 在信息化时代,搜索引擎已经成为我们日常获取信息的重要工具。Apache Lucene作为一款强大的全文搜索引擎库,为开发者提供了丰富的功能,帮助构建高效、可...

    web lucene

    标题中的“Web Lucene”指的是将Apache Lucene这个搜索引擎库应用于Web环境中的实践。Lucene是一个高性能、全文本搜索库,被广泛用于构建复杂的搜索功能。在这个场景中,它可能被用来增强网站或Web应用程序的搜索...

    基于Lucene的WEB站内搜索引擎的研究与实现

    ### 基于Lucene的WEB站内搜索引擎研究与实现 #### 一、搜索引擎基本原理与Lucene概述 搜索引擎的基本原理涉及对大量文档或网页进行分析、索引和检索的过程。这一过程通常包括数据采集(爬虫)、预处理(如分词、...

    【weblucene官方CVS源码】----<下载不扣分,回帖加1分,欢迎下载,童叟无欺>

    WebLucene: Lucene search engine XML interface, provided sax based indexing, indexing sequence based result sorting and xml output with highlight support.The CJKTokenizer support Chinese Japanese and ...

    lucene整理文档,lucene详细描述,安装使用过程。

    安装 Lucene 非常简单,只需要将对应的 JAR 包添加到项目依赖中。在 Maven 项目中,可以在 pom.xml 文件中添加 Lucene 的依赖,或者在其他构建工具中进行相应的配置。对于非 Maven 项目,可以直接下载 Lucene 的 JAR...

    Lucene-WEB-search-program.zip_lucene java web_lucene web_lucene

    **Lucene:构建简单的WEB搜索程序** 在信息技术领域,搜索引擎是不可或缺的一部分,它们帮助用户在海量数据中快速找到所需信息。Apache Lucene是一款强大的开源全文搜索引擎库,它为开发者提供了构建高效、可扩展的...

    lucene开发WEB搜索引擎

    《使用LUCENE.NET构建WEB搜索引擎》 在信息化飞速发展的今天,搜索引擎已经成为人们获取网络信息的重要工具。本文将深入探讨如何使用LUCENE.NET框架来开发一款基于C#的WEB搜索引擎,帮助开发者掌握这一核心技术。 ...

    lucene_web项目应用实例

    《Lucene Web项目应用实例详解》 在信息技术领域,搜索引擎技术是不可或缺的一部分,Apache Lucene作为一款开源全文搜索引擎库,为开发者提供了强大的文本检索能力。本文将深入探讨一个名为“lucene_web”的项目,...

    Lucene在web项目中的应用

    **Lucene在Web项目中的应用** Lucene是一个高性能、全文本搜索库,由Apache软件基金会开发,它提供了完整的搜索解决方案,包括索引构建、搜索功能以及分词处理。在Java Web项目中,Lucene能够帮助开发者实现高效、...

    Lucene 2.0.0下载安装及简单测试

    《Lucene 2.0.0的下载、安装与初步测试》 一、Lucene简介与版本选择 Lucene是一款高性能、全功能的文本搜索引擎库,由Java编写,旨在为应用提供快速、高效的全文检索能力。它不仅仅是一个简单的索引和搜索工具,还...

    深入了解Lucene之四 主要算法介绍.ppt

    《深入理解Lucene之四:主要算法介绍》 Lucene是一个强大的开源全文搜索引擎库,它在信息检索领域具有广泛的应用。本资料旨在介绍Lucene在构建索引、增量归并、查找定位等方面的关键算法,帮助读者更深入地理解其...

    Lucene之删除索引

    在深入探讨Lucene删除索引这一主题之前,我们先来理解一下Lucene的基本概念。Lucene是一个开源的全文搜索引擎库,由Apache软件基金会开发。它提供了高性能、可扩展的搜索和索引功能,广泛应用于各种应用程序中,如...

    \Lucene Nutch和安装说明文旦

    标题中的“Lucene Nutch和安装说明文档”暗示了我们要讨论的是一个关于Apache Lucene和Nutch的安装过程。Lucene是一个全文搜索引擎库,它提供了核心的搜索功能,而Nutch则是一个基于Lucene的开源网络爬虫项目,用于...

Global site tag (gtag.js) - Google Analytics