给LUKE增加word分词器 - 杨尚川的博客 - ITeye博客

`

yangshangchuan

浏览: 2483472 次
性别:
来自: 北京

最近访客更多访客>>

wangyy

akingde

feilafei123

wf_chn

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

masuweng：你好, 根据机器码计算注册码的代码是在哪个包下的哪个类了.
APDPlat中的机器码生成机制
masuweng：我的那个项目跑起来为什么503了
APDPlat中的机器码生成机制
masuweng：
APDPlat中的机器码生成机制
liutaochn：可以用，thanks
Cygwin运行nutch报错：Failed to set permissions of path
qbuer： The Google Web Search API is no ...
使用Java调用谷歌搜索

给LUKE增加word分词器

博客分类：

word分词

luke nutch word分词搜索网络爬虫

阅读更多

word分词是一个Java实现的分布式中文分词组件

1、下载http://luke.googlecode.com/files/lukeall-4.0.0-ALPHA.jar（国内不能访问）

2、下载并解压Java中文分词组件word-1.0-bin.zip

3、将解压后的 Java中文分词组件word-1.0-bin/word-1.0 文件夹里面的4个jar包解压到当前文件夹，用压缩解压工具如winrar打开lukeall-4.0.0-ALPHA.jar，将当前文件夹里面除了.jar、.bat、.html文件外的其他所有文件拖到lukeall-4.0.0-ALPHA.jar里面

4、执行命令 java -jar lukeall-4.0.0-ALPHA.jar 启动luke，在Search选项卡的Analysis里面就可以选择 org.apdplat.word.lucene.ChineseWordAnalyzer 分词器了

5、在Plugins选项卡的Available analyzers found on the current classpath里面也可以选择 org.apdplat.word.lucene.ChineseWordAnalyzer 分词器

下载已经集成好的Luke插件：

lukeall-4.0.0-ALPHA-with-word-1.0.jar （适用于lucene4.0.0）

lukeall-4.10.3-with-word-1.2.jar（适用于lucene4.10.3）

如下图所示：

查看图片附件

1
顶

0
踩

分享到：

SOLR4.2+NUTCH1.6 | 分布式内存文件系统：Tachyon

2015-04-07 21:12
浏览 4048
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

word:Java分布式中文分词组件 - word分词: Java分布式中文分词组件 - word分词 word分词是一个Java实现的分布式的中文分词组件，提供了多种基于词典的分词算法，并利用ngram模型来消除歧义。能准确识别英文、数字，以及日期、时间等数量词，能识别人名、地名...

stopword:引用ysc备分: ###Java分布式中文分词组件 - word分词####word分词是一个Java实现的分布式的中文分词组件，提供了多种基于词典的分词算法，并利用ngram模型来消除歧义。能准确识别英文、数字，以及日期、时间等数量词，能识别人名...

Lucene---全文检索(文档pdf/txt/office/html): - **分词器（Tokenizer）**: 分词器是 Lucene 文本分析的一部分，它将输入文本分割成有意义的单元（单词或短语）。 - **分析器（Analyzer）**: 分析器负责整个文本处理流程，包括分词、去除停用词、词形还原等，...

很多java 包很实用以及一个UML建模工具: IKAnalyzer是基于Java的中文分词器，`IKAnalyzer3.2.5Stable.jar`是其稳定版本。它能够有效地进行中文词汇切分，适用于搜索引擎、信息检索、文本挖掘等领域。IKAnalyzer支持自定义词典和热更新，使得开发者可以根据...

lucene_in_action中文版.rar: 这涉及到对文本的预处理，包括分词（Tokenization）、去除停用词（Stop Word Removal）、词干提取（Stemming）等，这些步骤有助于提高搜索效率和准确性。其次，查询处理是另一个重点。Lucene支持多种查询语法，如...

Global site tag (gtag.js) - Google Analytics