solr ik分词

fan0128

浏览: 150311 次
性别:
来自: 上海

最近访客更多访客>>

yang_50

权律二

lj408226003

dongguangming88

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

solr

solr ik分词

目前Ik分词器相对来说是中文分词中用的相对较多的，比较流行的一种分词器了，与solr组合相当完美的一种中文分词器了，其他的庖丁和solr自带的分词器也相对较多，下面我主要说一下我在使用solr和Ik分词器做搜索时遇到的问题。IK分词器对中文分词是按照词组分的，效果如下

下面是英文字母和数字组合分词的效果

相信看到这个效果后，做搜索的朋友会想到，如果我的id是uuid或者某个对象的唯一属性是由数字或者字母组合成的，那么搜索出来的结果就会出现多个了，另外这些组合中如果含有_ +等特殊字符是不进行拆分的，直接忽略这些特殊字符跟上面效果一样。接下来我们看一下不分词的效果

上面不分词的效果是将schema.xml中的field的类型改为string了，string会将你输入的词组当作整体不拆分。

此时你在solrj客户端搜索时可以搜索到你想搜索的结果，但是写的程序就搜索不出来。程序搜索可能报空指针异常，这个时候你会很纠结为什么，我当时就纠结了很久，我使用facet进行查询时，查询条件都是正确的，但是就是搜索不出结果，最后发现在使用程序时多了引号导致的，之前使用ik分词时使用了引号将搜索的关键字引起来了，能搜索出结果，但是由于分词的原因将field类型改为string之后就出现了该问题。解决该问题的思路就是将你使用程序搜索的url和使用solrj客户端搜索的url对比，哪个能搜索出你要的结果就用哪个，如果你细心，你会发现在solrj客户端中字段与值加上引号和不加引号的结果一样，但是到了程序中就错了，此时你就该核对你的URL了，其中url中可能会出现%3A %22 %27等常见的字符，这个你使用URL编码冒号、引号就知道了，是因为你发送请求时，到了服务器端，服务器会将这些特殊字符进行转义，+号会转成空格，确定你的程序的URL与solrj客户端的URL地址一致问题就应该可以解决了，程序中一般是多了引号。

这个问题只是我在开发中遇到的问题，有不同见解的或者更好的解决方案的望分享一下，有更好的意见的请提出，谢谢。

分享到：

IE8兼容性问题记录 | jetty9运行

2014-09-22 22:54
浏览 864
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

solr ik分词

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

solr ik分词

评论

发表评论

相关推荐

solr ClientUtils转义特殊字符

solr5.1启动

Server at http://localhost:8983/solr returned non ok status:500, message:Ser

solr更新操作

solr排除查询

solrj的对索引的添加、删除、更新、（高亮）查询

org.apache.solr.client.solrj.impl.HttpSolrServer$RemoteSolrException: Document i

最近访客更多访客>>