在Solr中使用IKAnalyzer遇到的一个问题

wdmsyf

浏览: 1621435 次
性别:
来自: 厦门

最近访客更多访客>>

wwwzxl

zsls27

sin_xt

cxz7411

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Solr 全文检索配置管理 JavaScript 项目管理

最近在项目中使用Solr做全文检索功能，使用了IKAnalyzer中文分词器（在此感谢：http://linliangyi2007.iteye.com/category/27277）。在使用过程中一切都很顺利。因为太顺利了，所以测试没有做得很细，在给用户测试时，发现一个奇怪的现象：

对于有些词组或句子，索引库中明明存在，但就是检索不出来，例如：

对于“企业所得税”这个词组，按照“企业所得税”能检索到内容，但去掉中间空格，按“企业所得税”来检索，却怎么也搜索不到。

在Solr管理界面分析页面（http://127.0.0.1:8080/solr/admin/analysis.jsp），分析得到分词结果是：

Index Analyzer：

企业所

企业

所得税

所得

Query Analyzer：

PanskyESE 管理页面 <script type="text/javascript"></script>

企业所

所得税

奇怪，两个分词出来的结果竟然不一样。检查配置文件，在schema.xml文件中，IKAnalyzer的配置如下：

      <analyzer type="index">
	<!--IK分词器-->
	<tokenizer class = "org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="false" />
         ...
      </analyzer>

      <analyzer type="query">
	<!--IK分词器-->
	<tokenizer class = "org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="true" />
         ...
      </analyzer>

这是按照IKAnalyzer附带的安装手册做的配置，但是不明白为什么在索引时和搜索时isMaxWordLength要设置成不一样 。不管三七二十一，先把下面那个isMaxWordLength="true"改成isMaxWordLength="false"试试。

改完，重启服务器，再搜索“企业所得税”，终于搜到结果了。

问题算是解决了，但不明白原因，有明白人请赐教。

分享到：

记录一个DWG查看器的地址 | 设置DIV内容纵向居中的两种办法

2010-07-12 18:06
浏览 2959
评论(2)
分类:互联网
查看更多

2 楼 wdmsyf 2013-06-20

多谢老猴子的解答。

1 楼 oldmonkey 2013-06-09

查询采用IK自己的最大分词法，索引则采用它的细粒度分词法，所以各自配置了isMaxWordLength属性

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论