`
qindongliang1922
  • 浏览: 2188561 次
  • 性别: Icon_minigender_1
  • 来自: 北京
博客专栏
7265517b-f87e-3137-b62c-5c6e30e26109
证道Lucene4
浏览量:117662
097be4a0-491e-39c0-89ff-3456fadf8262
证道Hadoop
浏览量:126069
41c37529-f6d8-32e4-8563-3b42b2712a50
证道shell编程
浏览量:60024
43832365-bc15-3f5d-b3cd-c9161722a70c
ELK修真
浏览量:71398
社区版块
存档分类
最新评论

solr4.3之配置中文分词IK

    博客分类:
  • Solr
阅读更多

上一篇讲了使用solr4.3自带的smartcn进行中文分词,这一篇说一下,怎么使用IK进行分词,
在这之前先对中文分词的种类介绍一下,目前的中文分词主要有两种
1,基于中科院ICTCLAS的隐式马尔科夫hhmm算法的中文分词器,例如smartcn等。(不支持自定义扩展词库)
2,基于正向迭代最细粒度切分算法(正向最大匹配并且最细分词)例如IK,庖丁等(支持自定义扩展词库)


安装分词前,可以去http://code.google.com/p/ik-analyzer/downloads/list下载IK的分词包
ikanalyzer-4.3.1-SNAPSHOT.jar

下载完毕后,将此包放进solr的\WEB-INF\lib下面
F:\eclipse10tomcat\webapps\solr\WEB-INF\lib



下面需要在solr的schemal.xml进行分词器注册,给出代码如下
<!--  配置IK分词器 -->
	<fieldType name="text_ik" class="solr.TextField" positionIncrementGap="100">
      <analyzer type="index">
	  <!--  分词-->
        <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory"/>
		 <!--   禁用词过滤根据情况使用-->
		<!-- <filter class="org.wltea.analyzer.lucene.IKStopFilterFactory"/> -->
      </analyzer>
      <analyzer type="query">
	   <!--  分词-->
        <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory"/>
		<!--   禁用词过滤根据情况使用-->
		<!-- <filter class="org.wltea.analyzer.lucene.IKStopFilterFactory"/>-->
      </analyzer>
    </fieldType>


最后还得配置一个引用字段就OK了
 <field name="ik" type="text_ik" indexed="true" stored="true" multiValued="true"/>


然后访问UI管理器页面,可以使用Analysis进行中文切词分析测试,个人感觉IK的词库要比smartcn的词库大,不过两者各有优缺点,可以视具体业务情况而定,选择自己项目最合适的分词器。


分享到:
评论
2 楼 qindongliang1922 2014-02-28  
qq911110 写道
请问IK做中文分词,扩展词库更新后,只有重启搜索服务,重建索引才有效果,如何做到不需要重启搜索服务就能重新加载 扩展词库呢?



这个目前还没实现,估计得改IK源码了
1 楼 qq911110 2014-02-28  
请问IK做中文分词,扩展词库更新后,只有重启搜索服务,重建索引才有效果,如何做到不需要重启搜索服务就能重新加载 扩展词库呢?

相关推荐

    solr4.3的IK分词器

    最新版solr4.3的IK分词器,中文分词效果良好!对付一般的大众分词没有问题

    solr4.3-ik-analyzer

    solr4.3 分词器 把IKAnalyzer.jar放到solr\WEB-INF\lib下。

    ik4solr4.3:ik分词器for Solr4.3,支持4.4,二进制不用修改也支持4.6,不放心可以改下POM中的依赖

    solr4.3的ik分词器(改了一些smart分词算法。使用maven编译),隔壁有我写的包 支持从solr自己的环境中获取自定义词典(使用solr的ResourceLoader,只需要把字典文件放到对应索引的conf目录里) 增加一个定时更新类...

    lucene4.3.0+IK Analyzer2012FF

    - **配置IK Analyzer**:在Lucene项目中,需要将IK Analyzer的jar包添加到类路径,并在配置文件中指定使用IKAnalyzer作为默认的分词器。 - **创建索引**:利用IK Analyzer进行中文文档的分词,然后使用Lucene的...

    lucene的IKAnalyzer以及兼容4.3

    在中文处理方面,IKAnalyzer是一个优秀的开源中文分词器,专为Lucene设计,旨在提高中文分词的准确性和效率。本文将深入探讨IKAnalyzer的特性和其在Lucene 4.3中的兼容性问题及其解决方案。 **IKAnalyzer简介** IK...

    IKAnalyzer中文分词器V3.2.0使用手册

    ### IKAnalyzer中文分词器V3.2.0使用手册:关键知识点解析 #### 1. IKAnalyzer3.X概述 IKAnalyzer是一款专为中文环境设计的高性能、轻量级的分词工具包,由Java语言编写,自2006年12月发布1.0版以来,已历经多次...

    Java搜索服务Solr操作指南.pdf

    由于中文搜索的需求,需要配置中文分词器,这里推荐使用IKAnalyzer。配置步骤包括: - 下载并上传IKAnalyzer中文分析器的文件到Linux系统。 - 将IKAnalyzer.jar添加到Solr工程的WEB-INF/lib目录下。 - 将分词器的...

    IK3.2.8原理及源码分析(原创)

    主分析器(`org.wltea.analyzer.lucene.IKSegmentation`)是IKAnalyzer的核心模块之一,主要用于执行实际的分词操作。默认情况下采用的是最细粒度切分算法。该类并不直接进行分词处理,而是作为分词的入口,具体的分词...

    solr基本总结

    - **Ikanalyzer**:一种针对中文文本的分词器。 - **Sphinx**:另一个高性能的全文搜索引擎,主要用于数据库的全文检索。 - **Lucene**:Solr 的基础技术栈之一,是 Java 中最流行的信息检索工具包。 ##### 3.2 ...

    lucene3.5学习笔记

    - **IKAnalyzer**: 支持中文分词。 - **MMSEGAnalyzer**: 另一种常用的中文分词器。 --- #### 五、Solr 3.5 相关用法 **5.1 Solr 简介** - Solr 是基于 Lucene 的企业级搜索平台。 - 提供了更丰富的功能集,易于...

    ElasticSearch入门篇.docx

    - **配置分词器**: 在ElasticSearch配置文件中启用并配置IK分词器。 **5.2 IK 分词器测试** - **测试分词效果**: 创建包含中文内容的文档,并使用IK分词器进行分词测试。 - **验证分词结果**: 确认分词结果是否...

Global site tag (gtag.js) - Google Analytics