`
commando
  • 浏览: 77839 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Dspace1.5 之 Lucene

阅读更多

 Dspace 是采用 Lucene 作为它的检索引擎, 来看看如何增加其对中文及全文检索的支持。

 

一 、 中文检索

 

1.  增加中文分词器

 

    Lucene 2.3.2 也已采用 maven 来管理了,分了很多模块。Dspace 中依赖的包 lucene-core-2.3.0.jar

中仅有 standardAnalyzer ,只能检索英文。要想检索中文,需要引用 lucene-contrib 下的analyzers。 

在Dspace-api 模块的pom配置文件中增加 analyzers 依赖项:

 

      <groupId>org.apache.lucene</groupId>
         <artifactId>lucene-analyzers</artifactId>
      </dependency>

 

然后到系统当前用户 [\.m2\repository\org\dspace\dspace-parent\1.5.1-SNAPSHOT] 目录下找到

dspace-parent-1.5.1-SNAPSHOT.pom 文件,增加 analyzers 依赖:

 

         <dependency>
            <groupId>org.apache.lucene</groupId>
            <artifactId>lucene-analyzers</artifactId>
            <version>2.3.0</version>
         </dependency>

 

 

2.  修改 dspace-config 配置文件,设置中文分词器为 ChineseAnalyzer:

 

# Chinese analyzer
search.analyzer = org.apache.lucene.analysis.cn.ChineseAnalyzer

 

 dspace-assemble 重新编译后运行,可以看到中文检索的效果。

 

3.  说明

   

    可以通过如下cmd命令行来重新建立索引,需要将[dspace]/search/ 目录下的索引文件先清空。

 

dsrun org.dspace.search.DSIndexer

  

    Dspace1.5 中命令行的执行请见 “Dspace1.5 在 Eclipse 中的集成”。 

 

    尽管实现了中文检索的功能,但还是比较弱的。ChineseAnalyzer,CjkAnalyzer 是Lucene contrib 中

提供的中文分词器,可以考虑其他中文分词器,如 庖丁 和 IKAnalyzer ,性能可能会好些。

 

 

二、 全文检索

 

1.  配置 [dspace]/config/dspace.cfg 文件

   

    在dspace.cfg中有过滤器插件的配置,过滤器的作用是将对应的文件转换成能够索引的 txt 文本文件。Dspace目前支

持pdf、word、html、txt 这几种类型的文件。

 

#Names of the enabled MediaFilter or FormatFilter plugins
filter.plugins = PDF Text Extractor, HTML Text Extractor, \
	       Word Text Extractor, JPEG Thumbnail

 

 

2.  执行CMD命令建立索引

   

dsrun org.dspace.app.mediafilter.MediaFilterManager

 

    这条命令会调用配置文件中设置的过滤器完成对相应文件的转换(transform to txt)并基于txt文件建立全文索引。索

引完成后就可以在首页默认的搜索栏内、或高级检索中搜索类型选为关键字的时候进行全文检索了。

 

    Dspace1.5 中命令行的执行请见 “Dspace1.5 在 Eclipse 中的集成”。 

 

3.  每次新增文件都需要重新执行cmd命令来reindex,这可以通过加入Quartz 等调度框架来实现任务的定时自动执行。

       

 

 

 

 

 

 

 

 

 

分享到:
评论

相关推荐

    dSPACE软件安装教程V3.pdf

    在本文档中,我们将详细讲解dSPACE软件安装教程V3的主要内容,具体包括dSPACE软件概述、安装环境要求、安装步骤、产品安装过程、结束安装以及Matlab关联等方面的知识。 首先,我们提到的dSPACE软件是由德斯拜思机电...

    Lucene介绍的PPT

    相比之下,Lucene利用倒排索引来提高全文搜索性能。例如,考虑以下数据表: DocTable (docnum, content, author, date, category) 倒排索引将词频和文档编号存储在一起,如: Term | Doc1 | Doc2 -----|------|--...

    基于Dspace的CAN通信

    本内容介绍了Dspace相关概念,对RCP/HILS/RTI相关内容进行详细介绍,帮助对Dspace有深入的认识,并对基于Dspace搭建流程和方法做了详细阐述,使仿真开发人员对DsPace仿真框架设计能够详细了解使用了具体案例展示了 ...

    dspace安装流程

    1. DSPACE安装概述: DSPACE软件是一套用于实时计算和模拟的工具,常被用于控制系统的开发和测试。其安装过程可能较为复杂,涉及多个步骤,包括操作系统环境准备、MATLAB版本检查、编译器安装以及DSPACE软件本身的...

    基于dSPACE的硬件在环操作流程

    dSPACE与MATLAB的集成是实现这一目标的关键步骤之一。 1. **链接dSPACE和MATLAB** - 安装完成后,dSPACE通常会自动检测并连接到计算机上已有的MATLAB版本。 - 如果存在多个MATLAB版本,可以通过**DSPACE ...

    DSpace-Manual学习资料

    DSpace 是一个开源的数字保存和检索系统,广泛用于学术机构和图书馆,用于管理和发布电子学术文献、研究成果和数据。本学习资料主要围绕 DSpace 的使用手册展开,旨在帮助用户更好地理解和操作 DSpace 平台。 ...

    学习dspace的好资料

    - **快速原型设计**:快速原型设计是DSpace的重要特性之一,它允许开发者快速验证控制策略的有效性,加快迭代速度。 - **生产代码生成**:通过TargetLink等工具,DSpace可以从Simulink®/Stateflow®等模型自动生成...

    dspace部署

    DSpace是一款广泛应用于学术机构和研究领域的开源数字存储和检索平台。它允许用户存储、管理和分享各种形式的数字资源,如论文、研究报告、多媒体文件等。DSpace的核心功能包括元数据记录、版本控制、权限管理以及...

    dSPACE MicroAutoBoxII的介绍

    ### dSPACE MicroAutoBox II 的详细介绍 #### 一、概述 dSPACE MicroAutoBox II 是由 dSPACE 公司开发的一款高性能实时控制原型系统。它主要用于汽车和其他交通工具的快速控制原型(RCP)开发,旨在帮助工程师们在...

    dSPACE培训教程入门.ppt

    【dSPACE培训教程入门】是针对初学者的指导材料,主要介绍了如何使用dSPACE系统进行开发流程。dSPACE是一款在汽车、航空航天和其他工程领域广泛使用的实时仿真和原型系统。本教程涉及的内容包括从功能设计、快速原型...

    dspace1.6.0 使用手册

    dspace的数据模型是其核心架构之一,它设计为高度灵活,能够适应不同类型和结构的数字资源。每个资源在系统中被定义为“项”(Items),项可以属于多个“集合”(Collections),而集合则归属于更大的“社区”...

    dSPACE DS1103

    【dSPACE DS1103】是嵌入式控制系统开发中的一个重要工具,它是一款高性能的实时仿真和控制硬件。dSPACE系统广泛应用于汽车工程、航空航天、自动化以及其他领域,为工程师们提供了一个强大的平台来测试和验证复杂的...

    DSPACE RCP 快速原型案例集锦

    本文件中提及的"快速原型案例集锦"主要围绕着dSPACE快速控制原型(Rapid Control Prototyping,简称RCP)系统的应用案例,这些案例覆盖了多个行业领域,包括但不限于汽车行业、航空航天、机械工程、电力电子和医疗...

    dspace1.5.2 使用手册

    DSpace的工作流引擎是其核心组件之一,用于管理数字对象从提交到发布的整个生命周期。通过预设的工作流步骤,确保每项资源都经过必要的审核和处理,提高了数据质量与管理效率。 **2.10 监督与合作(Supervision and ...

    Dspace DS2211Features

    ### 一、Dspace DS2211 I/O Board 特性 #### 1. 版本信息 - **发布版本**:Release 7.2(发布于2011年11月) - **产品型号**:DS2211 HIL I/O Board #### 2. 联系Dspace支持的方式 Dspace提供了多种方式来联系技术...

    Dspace使用入门

    标题中提到的"Dspace使用入门",说明本文将详细讲解Dspace软件的初学者如何使用该软件,对于那些刚刚接触Dspace的技术人员和开发者提供入门指导。Dspace是一个硬件在回路仿真(HIL)测试的软件平台,广泛应用于汽车...

    dSPACE.rar_dSPACE_pdf Dspace matlab_半实物仿真

    dSPACE培训教程入门,控制系统半实物仿真的最好工具学习资料

Global site tag (gtag.js) - Google Analytics