`

给LUKE增加word分词器

阅读更多

word分词是一个Java实现的分布式中文分词组件

 

1、下载http://luke.googlecode.com/files/lukeall-4.0.0-ALPHA.jar(国内不能访问)

 

2、下载并解压Java中文分词组件word-1.0-bin.zip

 

3、将解压后的 Java中文分词组件word-1.0-bin/word-1.0 文件夹里面的4个jar包解压到当前文件夹,用压缩解压工具如winrar打开lukeall-4.0.0-ALPHA.jar,将当前文件夹里面除了.jar、.bat、.html文件外的其他所有文件拖到lukeall-4.0.0-ALPHA.jar里面 

 

4、执行命令 java  -jar  lukeall-4.0.0-ALPHA.jar 启动luke,在Search选项卡的Analysis里面就可以选择 org.apdplat.word.lucene.ChineseWordAnalyzer 分词器了

 

5、在Plugins选项卡的Available analyzers found on the current classpath里面也可以选择 org.apdplat.word.lucene.ChineseWordAnalyzer 分词器

 

下载已经集成好的Luke插件:

lukeall-4.0.0-ALPHA-with-word-1.0.jar (适用于lucene4.0.0)

lukeall-4.10.3-with-word-1.2.jar(适用于lucene4.10.3)

 

如下图所示:



  



  



  

 

 

 

  • 大小: 277.3 KB
1
0
分享到:
评论

相关推荐

    lukeall-3.5.0 加 IK分词器

    luke-all是查询lucense生成索引文件的工具,加入IK分词器,更好的支持中文查询

    lukeall-3.5.0 加入IK分词器

    luke-all是查询lucense生成索引文件的工具,加入IK分词器,更好的支持中文查询

    luke3.5添加IK分词.zip

    7. **测试IKAnalyzer**:在luke3.5中创建一个新的索引,输入中文文本,选择IKAnalyzer作为分词器,你可以观察到分词结果,验证其是否满足你的需求。 在实际应用中,IKAnalyzer的性能和效果可能受到多种因素影响,...

    luke-7.1.0-luke-release.zip

    3. **分词查看器**:允许用户查看字段的分词结果,分析分词器的工作效果。 4. **倒排索引查看**:展示了每个词项的倒排索引,包括文档频率、位置信息和Posting List。 5. **分析器测试**:用户可以输入文本,实时...

    luke 5.3.1 带有IK分词

    查看lucene 索引的工具,支持lucene 5.3.1 加入了中文分词IK

    word:Java分布式中文分词组件 - word分词

    Java分布式中文分词组件 - word分词 word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名...

    luke-5.3.0-luke-release.zip

    4. **分词查看器**:用户可以查看任何字段的分词结果,了解索引是如何处理文本数据的。这对于优化分析器配置和提高搜索质量非常有帮助。 5. **多语言支持**:Luke支持多种语言的索引,包括中文,因此对于处理多语言...

    Lucene索引管理器(基于Luke修改而来)

    开发者可以使用它来调试索引,检查搜索性能,或者了解分词器的工作方式。Luke支持多种版本的Lucene,使得它成为开发者必备的工具之一。 基于Luke修改的索引管理器,通常是为了满足特定需求或优化某些功能。这些修改...

    luke-6.6.0-luke-release.zip

    Luke提供了诸如字段列表、文档数、分词查看、倒排索引查看、文档值查看等多种功能,有助于开发者理解和优化搜索性能。 总的来说,Luke是Lucene生态系统中的重要工具,对于开发、调试和维护基于Lucene的搜索引擎系统...

    luke-javafx-7.3.1-luke-release.zip

    7.3.1是Lucene的一个稳定版本,包含了多个性能优化和新特性,比如改进的分词器、新的查询解析器和更高效的索引结构。 JavaFX是Java平台上的一个用户界面工具包,用于构建跨平台的桌面应用。在Luke 7.3.1中使用...

    luke-javafx-7.4.0-luke-release

    1. **索引浏览器**:它可以显示索引的基本信息,如文档数量、字段列表、分词器和分析器设置等。用户可以通过这个界面浏览每个文档的内容,查看其字段值以及被索引的方式。 2. **字段值查看器**:此功能允许用户查看...

    ik分词器2012和lucene的资源和jar包以及lucene索引查看工具

    IK分词器与Lucene是Java开发中两个重要的文本处理工具,主要应用于信息检索和自然语言处理领域。这里我们将深入探讨这两个组件以及相关的资源和工具。 1. **IK分词器**: IK分词器(Intelligent Chinese Analyzer ...

    luke for lucene 2.4.1

    - 分析分词:查看分词器是如何对文本进行拆分和处理的,这对于优化搜索语句和提高匹配精度至关重要。 - 查询执行:模拟查询并查看搜索结果,分析查询性能和返回的文档列表。 - 高亮显示:突出显示搜索结果中的匹配...

    luke-5.3.0-luke-release

    - **分词查看器**:查看字段是如何被分词的,这对于理解和优化搜索性能至关重要。 - **文档频率和位置**:了解词汇项在索引中的分布和位置,有助于理解查询匹配和评分。 - **术语频率和文档频率**:查看词汇项在整个...

    luke8用于查看lucene保存的索引库数据和文档数据

    - **多语言支持**:luke8支持多种语言的分词,包括中文、英文等,可以查看不同语言环境下索引的表现。 - **版本兼容**:luke8与Lucene的版本相对应,例如这里的8.0.0版本,适用于Lucene 8.x系列。 - **可配置性**:...

    luke-6.0.0.jar luke 最新版

    3. **术语分析**:Luke允许用户查看分词结果,了解索引过程中如何处理文本。 4. **查询构造与执行**:用户可以直接在界面中构造查询,观察查询结果和相关性评分,有助于优化查询语句。 5. **性能分析**:通过查看...

    luke3.5源码

    因此,要理解Luke的源码,首先要熟悉Lucene的基本概念,如文档(Document)、字段(Field)、分词器(Tokenizer)以及倒排索引(Inverted Index)等。Luke通过API与Lucene交互,解析并展示索引结构,帮助用户理解和...

    索引分词查看工具

    《索引分词查看工具——Luke 6.0深度解析》 在信息技术领域,数据的检索与分析是一项至关重要的任务,而搜索引擎的构建是其中的关键环节。为了更好地理解和优化搜索引擎的索引结构,开发者和研究人员常常需要借助...

    luke lucene索引查看

    2. **字段信息**:在Luke中,你可以看到每个字段的定义,包括字段类型(是否可搜索、是否存储、是否被索引等)、分词器设置以及其他的元数据。 3. **文档查看器**:这个功能允许用户查看单个文档的全部字段和值。...

Global site tag (gtag.js) - Google Analytics