IK 中文分词的配置和使用

zcz123

浏览: 160763 次
性别:
来自: 厦门

最近访客更多访客>>

mhx1535

spedit

josephgch

偶然——相逢

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Solr
IK

有的时候，用户搜索的关键字，可能是一句话，不是很规范。所以在 Solr 中查询出的时候，就需要将用户输入的关键字进行分词。

　　目前有很多优秀的中文分词组件。本篇只以 IKAnalyzer 分词为例，讲解如何在 solr 中及集成中文分词，使用 IKAnalyzer的原因 IK 比其他中文分词维护的勤快，和 Solr 集成也相对容易。具体就不多介绍，这里直接solr 集成 IK 的方法。

　　1. 首先，下载IKAnalyzer ，下载

　　　　注意：以前老的IK 不支持Solr 5.3的版本，请注意下载最新的。

　　2. 将ik的相关文件拷贝到 webapps\solr\WEB-INF\lib 目录下

　　3. 在 solr_home\mycore1\conf\schema.xml 增加如下配置

<!-- 我添加的IK分词 -->
<fieldType name="text_ik" class="solr.TextField">   
<analyzer type="index" isMaxWordLength="false" 
class="org.wltea.analyzer.lucene.IKAnalyzer"/>   
<analyzer type="query" isMaxWordLength="true" 
class="org.wltea.analyzer.lucene.IKAnalyzer"/>   
</fieldType>

　　　同时，把需要分词的字段，设置为text_ik，

　 <field name="id" type="int" indexed="true" stored="true" required="true"
 	multiValued="false" />
   <field name="name" type="text_ik" indexed="true" stored="true" 
	required="true" multiValued="false" />
   <field name="title" type="text_ik" indexed="true" stored="true" 
	required="true" multiValued="false" />
   <field name="category" type="int" indexed="true" stored="true" 
	required="true" multiValued="false" />
   <field name="content" type="text_ik" indexed="true" stored="true" 
	required="true" multiValued="false" />
   <field name="price" type="double" indexed="true" stored="true" 
	required="true" multiValued="false" />
   <field name="color" type="string" indexed="true" stored="true" 
	required="true" multiValued="false" />
   <field name="orderBy" type="int" indexed="true" stored="true" 
	required="true" multiValued="false" />
   <field name="updatetime" type="date" indexed="true" stored="true" 
	required="true" multiValued="false" />

　　4. 重启服务

　　　　注意：如果之前已经创建了索引，需要将之前的索引删掉，重新创建分词后的索引。

　　5. 在admin后台， analysis 下查看分词效果

　　　　1. 中文分词效果

　　　　2. 索引查询效果

　　6. 配置IKAnalyzer分词器的扩展词典，停止词词典

　　　　1. 将文件夹下的IKAnalyzer.cfg.xml , ext.dic和stopword.dic 三个文件复制到/webapps/solr/WEB-INF/classes 目录下，并修改IKAnalyzer.cfg.xml

　　　　<?xml version="1.0" encoding="UTF-8"?>
　　　　<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">  
　　　　<properties>  
   　　　　 <comment>IK Analyzer 扩展配置</comment>
   　　　　 <!--用户可以在这里配置自己的扩展字典 -->
    　　　　<entry key="ext_dict">ext.dic;</entry> 

   　　　　 <!--用户可以在这里配置自己的扩展停止词字典-->
    　　　　<entry key="ext_stopwords">stopword.dic;</entry> 
　　　　</properties>