1、下载http://luke.googlecode.com/files/lukeall-4.0.0-ALPHA.jar(国内不能访问)
2、下载并解压Java中文分词组件word-1.0-bin.zip
3、将解压后的 Java中文分词组件word-1.0-bin/word-1.0 文件夹里面的4个jar包解压到当前文件夹,用压缩解压工具如winrar打开lukeall-4.0.0-ALPHA.jar,将当前文件夹里面除了.jar、.bat、.html文件外的其他所有文件拖到lukeall-4.0.0-ALPHA.jar里面
4、执行命令 java -jar lukeall-4.0.0-ALPHA.jar 启动luke,在Search选项卡的Analysis里面就可以选择 org.apdplat.word.lucene.ChineseWordAnalyzer 分词器了
5、在Plugins选项卡的Available analyzers found on the current classpath里面也可以选择 org.apdplat.word.lucene.ChineseWordAnalyzer 分词器
下载已经集成好的Luke插件:
lukeall-4.0.0-ALPHA-with-word-1.0.jar (适用于lucene4.0.0)
lukeall-4.10.3-with-word-1.2.jar(适用于lucene4.10.3)
如下图所示:
相关推荐
Java分布式中文分词组件 - word分词 word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名...
###Java分布式中文分词组件 - word分词####word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名...
- **分词器(Tokenizer)**: 分词器是 Lucene 文本分析的一部分,它将输入文本分割成有意义的单元(单词或短语)。 - **分析器(Analyzer)**: 分析器负责整个文本处理流程,包括分词、去除停用词、词形还原等,...
IKAnalyzer是基于Java的中文分词器,`IKAnalyzer3.2.5Stable.jar`是其稳定版本。它能够有效地进行中文词汇切分,适用于搜索引擎、信息检索、文本挖掘等领域。IKAnalyzer支持自定义词典和热更新,使得开发者可以根据...
这涉及到对文本的预处理,包括分词(Tokenization)、去除停用词(Stop Word Removal)、词干提取(Stemming)等,这些步骤有助于提高搜索效率和准确性。 其次,查询处理是另一个重点。Lucene支持多种查询语法,如...