`

精致的桌面全文搜索引擎regain安装配置简介

阅读更多


一、Regain简要介绍(摘录网上)
regain是一款与Web搜索引擎类似的桌面搜索引擎系统,其不同之处在于regain不是对Internet内容的搜索,而是针对自己的文档或文件的搜索,使用regain可以轻松地在几秒内完成大量数据(许多个G)的搜索。Regain采用了Lucene的搜索语法,因此支持多种查询方式,支持多索引的搜索及基于文件类型的高级搜索,并且能实现URL重写及文件到HTTP的桥接,并且对中文也提供了较好的支持。 

Regain提供了两种版本:桌面搜索及服务器搜索。桌面搜索提供了对普通桌面计算机的文档与局域网环境下的网页的快速搜索。服务器版本主要安装在Web服务器上,为网站及局域网环境下的文件服务器进行搜索。 

Regain使用Java编写,因此可以实现跨平台安装,能安装于Windows、Linux、Mac OS及Solaris上。服务器版本需要 JSPs环境及标签库(tag library),因此需要安装一个Tomcat容器。而桌面版自带了一个小型的Web服务器,安装非常简单。

二、安装配置简介
大致知道了regain是什么以后,如果regain的功能正好是您需要的,那我们就来一起进行安装配置吧。
1.下载regain最新版本。主页http://regain.sourceforge.net/
如果只是安装使用的话,可以直接这里下载编译好的版本:http://regain.sourceforge.net/download.php提供多种平台的最新稳定版本。如果是研究学习,或者想自己做优化修改,则建议下载带源码的版本:http://sourceforge.net/project/showfiles.php?group_id=111168

2.下载后解压到特定目录,本文范例以 e:\Devp\Java\JavaApp\regain 目录为解压目录

3.如果仅仅是下载编译好的版本安装试用的话,几乎都不需要什么设置,直接解压后,打开命令行窗口进入安装目录,直接运行

java -jar regain.jar
命令行

运行后会在右下角systray系统托盘处出现regain的形状为“r”的小图标,右击会弹出search\status\Perferences菜单。直接选择Search就会打开查询页面。其实如果第一次运行,系统会自动弹出欢迎页面。Perferences设置页面可以增加用户要索引的文件数据目录和web端口。

4.更多设置在conf目录中,主要设置文件包括如下4个文件,设置都非常简单直观
现在把比较重要的设置稍做解释。

(1)SearchConfiguration.xml  主要包括查询模块的设置。
...
    <!-- The search index 'main' -->
    <index name="main" default="true" isparent="true">
      <!-- The directory where the index is located -->
      <dir>D:\SearchEngine\Index\regainindex</dir>索引放置的目录
    </index>

(2)DesktopConfiguration.xml 主要包括本地桌面查询设置,可通过perferences页面设置。


<configuration>

  <!-- The interval to update the search index in minutes -->
  <interval>1440</interval>
 
  <!-- Allow/Disallow external access to the running desktop instance -->
  <allow_external_access>true</allow_external_access>

<port>60009</port> 端口

</configuration>


(3)CrawlerConfiguration.xml 主要包括数据抓取和索引生成模块的设置


<startlist>
  <start index="false" parse="true">file://D:/SearchEngine/Data</start>
  关键参数!!! 设置用户需要进行索引的文档资料目录!可通过perferences页面设置。
</startlist>

<searchIndex>
  <!-- The directory where the index should be located -->
  <dir>D:\SearchEngine\Index\regainindex</dir>索引放置的目录,同文件1的设置

  <!--
   | Specifies the analyzer type to use.
   |
   | You may specify the class name of the analyzer or you use one of the
   | following aliases:
   |  * english: For the english language
   |    (alias for org.apache.lucene.analysis.standard.StandardAnalyzer)
   |  * german: For the german language
   |    (alias for org.apache.lucene.analysis.de.GermanAnalyzer)
   |  * paoding: 个人增加的paoding分词模块
   |  * chinese: 个人增加的中文模块
   +-->
  <analyzerType>paoding</analyzerType>
  默认是german,建议修改为english,
当然最好就是替换成中文模块,我会在后面把整个替换步骤单独讲。


  <!--
   | Contains all words that should not be indexed.
   | Separate the words by a blank.
   +-->
  <stopwordList/>
  词语分割符号,实际相当于词法分析时做分割的词语列表。
(默认的设置不是这样的,我修改是因为我已修改为中文分词模块,这个参数没什么必要!
   其实如果用户选择english,此参数也用途不大,因为默认是german分割符号)


  <!--
   | Contains all words that should not be changed by an analyser when indexed.
   | Separate the words by a blank.
   +-->
  <exclusionList/>生成索引时需要排除的词语列表(中文模块则此参数也没有什么必要)

(4)log4j.properties        
    日志输出配置
   
5.基本上上述设置后regain应该可以运行。
regain是个不可多得的本地文件全文索引和快速全文搜索工具!虽然它也支持抓取互联网或者局域网页面数据进行索引。但是作为本地桌面全文搜索工具来讲,它比较专业精致,而且完美支持中文文件和中文目录。

谁乐意和我一起研究研究这个系统呢~~~
3
0
分享到:
评论

相关推荐

    基于lucene的搜索引擎regain安装版

    **基于Lucene的搜索引擎Regain安装指南** Regain是一个基于Apache Lucene的全文搜索引擎,它提供了高级的搜索功能,能够帮助用户快速、准确地在大量数据中查找所需信息。Lucene是Java语言实现的一个开源信息检索库...

    搜索引擎regain_v1.2.3_server

    "regain_v1.2.3_server"是一个针对搜索引擎技术的特定版本,主要集中在服务器端的实现。在本文中,我们将深入探讨regain搜索引擎的工作原理、功能特性、更新至v1.2.3版本带来的改进以及如何在服务器环境中部署和使用...

    regain:在桌面或服务器上运行的搜索引擎,支持各种文件格式

    重新获得您的隐藏信息regain是在桌面或服务器上运行的搜索引擎,支持各种文件格式。重新获得什么? regain是一个类似于Google之类的网络搜索引擎的搜索引擎,区别在于您不搜索网络,而是搜索自己的文件和文档。 使用...

    PyPI 官网下载 | regain-0.1.7.tar.gz

    标题中的"PyPI 官网下载 | regain-0.1.7.tar.gz"指的是Python Package Index(PyPI)上发布的名为"regain"的软件包的版本0.1.7,该版本被打包成tar.gz格式。PyPI是Python开发者发布和分享他们编写的开源软件的地方,...

    Regain:一个基于Jakarta Lucene的Java搜索引擎-开源

    Regain是一个基于Jakarta Lucene的Java搜索引擎。 它提供了索引和搜索文件的多种格式(HTML,XML,doc(x),xls(x),ppt(x),oo,PDF,RTF,mp3,mp4,Java)。 TagLibrary使您可以轻松地将搜索结果集成到基于...

    Regain Power-开源

    文件夹选项、任务管理器、regedit 大多被 windows 中的病毒禁用。该程序可以带回您的文件夹选项、任务管理器、regedit(windows 注册表编辑器)搜索选项、运行选项、显示隐藏文件和文件夹等.. 选项

    Python库 | regain-0.2.2.tar.gz

    资源分类:Python库 所属语言:Python 资源全名:regain-0.2.2.tar.gz 资源来源:官方 安装方法:https://lanzao.blog.csdn.net/article/details/101784059

    重获:REGAIN(规则图形推论)

    恢复考虑到潜在变量的影响,跨多个时间戳的正则化图形推断。...安装安装重新获得收益的最简单方法是使用pip pip install regain 或conda conda install -c fdtomasi regain 如果您想从源代码安装,或者

    英文读后感《To Regain the Nature of Goodness》.doc

    《To Regain the Nature of Goodness》是一篇对查尔斯·狄更斯作品《雾都孤儿》(Oliver Twist)的英文读后感。这篇读后感由上海市实验学校高三(1)班的顾竹屹撰写,深入剖析了这部反映18世纪英国社会悲剧的小说。 ...

    regain-开源

    Regain 是一个基于 Jakarta Lucene 的 Java 搜索引擎。 它为多种格式(HTML、XML、doc(x)、xls(x)、ppt(x)、oo、PDF、RTF、mp3、mp4、Java)提供索引和搜索文件。 TagLibrary 简化了在基于 JSP 的网页中集成搜索结果...

    regain:koa2 + mysql + vue3

    node 后端 /back-end 在 /back-end 目录下创建 config 文件夹。 在其下添加 database.js const data = { url:'database-host', //host user:'database-user', //user pwd:'database-pwd', //password ...

    YacineNacer.rar_Alis_diagnostic

    Le diagnostic de défaillances des ... Le regain d’intérêt manifesté par les différents secteurs industriels et par le monde de la recherche, démontre que ce domaine est un créneau très porteur.

    Cracklock 时限破解器

    When installing Cracklock, users... Basically, users who can no longer access a certain shareware software that they have been using for the past 30 days can process it using Cracklock and regain access.

    PRACTICA 2_powerelectronics_

    The stability of power systems refers to the property that allows them to remain in an operating state in equilibrium under normal operating conditions and to regain another state of equilibrium after...

    2020_2021学年高中英语Unit4Makingthenewsgrammar课时作业1新人教版必修520210528267

    - "regain the minerals it had lost"描述了土壤自然恢复的过程,这是农业生产中的生态平衡知识。 4. 词汇搭配: - suffer starvation: 遭受饥饿 - give the harvest of...to: 把...的收成给... - benefit from...

    英文原版-Cisco ISE for BYOD and Secure Unified Access 1st Edition

    Using Cisco Secure Unified Access Architecture and Cisco Identity Services Engine, you can secure and regain control of borderless networks in a Bring Your Own Device (BYOD) world. This book covers ...

    2014高考英语完形填空基础极品训练题(16).doc

    1. **快速浏览全文**:先大致了解文章的结构和主题,对文章有一个初步的印象。 2. **分析选项**:每个空格的四个选项通常会涉及到词汇、短语或句法结构,需要理解每个选项的意义。 3. **上下文联系**:根据已知信息...

    MySQL Admin Cookbook

    * Restrict access sensibly and regain access to your database in case of loss of administrative user credentials * Part of Packt's Cookbook series: Each recipe is a carefully organized sequence of ...

Global site tag (gtag.js) - Google Analytics