上一篇讲了使用solr4.3自带的smartcn进行中文分词,这一篇说一下,怎么使用IK进行分词,
在这之前先对中文分词的种类介绍一下,目前的中文分词主要有两种
1,基于中科院ICTCLAS的隐式马尔科夫hhmm算法的中文分词器,例如smartcn等。(不支持自定义扩展词库)
2,基于正向迭代最细粒度切分算法(正向最大匹配并且最细分词)例如IK,庖丁等(支持自定义扩展词库)
安装分词前,可以去http://code.google.com/p/ik-analyzer/downloads/list下载IK的分词包
ikanalyzer-4.3.1-SNAPSHOT.jar
下载完毕后,将此包放进solr的\WEB-INF\lib下面
F:\eclipse10tomcat\webapps\solr\WEB-INF\lib
下面需要在solr的schemal.xml进行分词器注册,给出代码如下
<!-- 配置IK分词器 -->
<fieldType name="text_ik" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<!-- 分词-->
<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory"/>
<!-- 禁用词过滤根据情况使用-->
<!-- <filter class="org.wltea.analyzer.lucene.IKStopFilterFactory"/> -->
</analyzer>
<analyzer type="query">
<!-- 分词-->
<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory"/>
<!-- 禁用词过滤根据情况使用-->
<!-- <filter class="org.wltea.analyzer.lucene.IKStopFilterFactory"/>-->
</analyzer>
</fieldType>
最后还得配置一个引用字段就OK了
<field name="ik" type="text_ik" indexed="true" stored="true" multiValued="true"/>
然后访问UI管理器页面,可以使用Analysis进行中文切词分析测试,个人感觉IK的词库要比smartcn的词库大,不过两者各有优缺点,可以视具体业务情况而定,选择自己项目最合适的分词器。
分享到:
相关推荐
最新版solr4.3的IK分词器,中文分词效果良好!对付一般的大众分词没有问题
solr4.3 分词器 把IKAnalyzer.jar放到solr\WEB-INF\lib下。
solr4.3的ik分词器(改了一些smart分词算法。使用maven编译),隔壁有我写的包 支持从solr自己的环境中获取自定义词典(使用solr的ResourceLoader,只需要把字典文件放到对应索引的conf目录里) 增加一个定时更新类...
- **配置IK Analyzer**:在Lucene项目中,需要将IK Analyzer的jar包添加到类路径,并在配置文件中指定使用IKAnalyzer作为默认的分词器。 - **创建索引**:利用IK Analyzer进行中文文档的分词,然后使用Lucene的...
在中文处理方面,IKAnalyzer是一个优秀的开源中文分词器,专为Lucene设计,旨在提高中文分词的准确性和效率。本文将深入探讨IKAnalyzer的特性和其在Lucene 4.3中的兼容性问题及其解决方案。 **IKAnalyzer简介** IK...
### IKAnalyzer中文分词器V3.2.0使用手册:关键知识点解析 #### 1. IKAnalyzer3.X概述 IKAnalyzer是一款专为中文环境设计的高性能、轻量级的分词工具包,由Java语言编写,自2006年12月发布1.0版以来,已历经多次...
由于中文搜索的需求,需要配置中文分词器,这里推荐使用IKAnalyzer。配置步骤包括: - 下载并上传IKAnalyzer中文分析器的文件到Linux系统。 - 将IKAnalyzer.jar添加到Solr工程的WEB-INF/lib目录下。 - 将分词器的...
主分析器(`org.wltea.analyzer.lucene.IKSegmentation`)是IKAnalyzer的核心模块之一,主要用于执行实际的分词操作。默认情况下采用的是最细粒度切分算法。该类并不直接进行分词处理,而是作为分词的入口,具体的分词...
- **Ikanalyzer**:一种针对中文文本的分词器。 - **Sphinx**:另一个高性能的全文搜索引擎,主要用于数据库的全文检索。 - **Lucene**:Solr 的基础技术栈之一,是 Java 中最流行的信息检索工具包。 ##### 3.2 ...
- **IKAnalyzer**: 支持中文分词。 - **MMSEGAnalyzer**: 另一种常用的中文分词器。 --- #### 五、Solr 3.5 相关用法 **5.1 Solr 简介** - Solr 是基于 Lucene 的企业级搜索平台。 - 提供了更丰富的功能集,易于...
- **配置分词器**: 在ElasticSearch配置文件中启用并配置IK分词器。 **5.2 IK 分词器测试** - **测试分词效果**: 创建包含中文内容的文档,并使用IK分词器进行分词测试。 - **验证分词结果**: 确认分词结果是否...