精华帖 (4) :: 良好帖 (1) :: 新手帖 (2) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2010-09-26
wuxiaoqqqq 写道 你好,请问一下我能强制一元分词吗?
一元分词使用ChineseAnalyzer吧。 对IK而言,除非你吧主词典都清空了,它对汉字就只能采取一元分词了 |
|
返回顶楼 | |
发表时间:2010-09-26
linliangyi2007 写道 wuxiaoqqqq 写道 你好,请问一下我能强制一元分词吗? 一元分词使用ChineseAnalyzer吧。 对IK而言,除非你吧主词典都清空了,它对汉字就只能采取一元分词了 我想把皮鞋分词成 皮/鞋/皮鞋 如果我在solr里面用ChineseAnalyzer+IK,能达到这个效果吗? |
|
返回顶楼 | |
发表时间:2010-09-26
wuxiaoqqqq 写道 linliangyi2007 写道 wuxiaoqqqq 写道 你好,请问一下我能强制一元分词吗?
一元分词使用ChineseAnalyzer吧。 对IK而言,除非你吧主词典都清空了,它对汉字就只能采取一元分词了 我想把皮鞋分词成 皮/鞋/皮鞋 如果我在solr里面用ChineseAnalyzer+IK,能达到这个效果吗? 呃~~~~貌似两个分词器不能同时起作用吧 |
|
返回顶楼 | |
发表时间:2010-09-26
那如果我想把皮鞋分成
皮/鞋/皮鞋 请问有什么好的办法吗? |
|
返回顶楼 | |
发表时间:2010-09-26
wuxiaoqqqq 写道 那如果我想把皮鞋分成
皮/鞋/皮鞋 请问有什么好的办法吗? 其实我的想法是,不需要这样的分词的,否则lucene就不适合你的应用场景,这个值得你仔细思考一下啊 |
|
返回顶楼 | |
发表时间:2010-09-26
linliangyi2007 写道 wuxiaoqqqq 写道 那如果我想把皮鞋分成 皮/鞋/皮鞋 请问有什么好的办法吗? 其实我的想法是,不需要这样的分词的,否则lucene就不适合你的应用场景,这个值得你仔细思考一下啊 现在我有这样一个场景,我的索引里面有运动鞋,皮鞋,跑鞋,帆布鞋 但我搜索鞋出来不了任何东西,这 我觉得能否提供一个是否可以最大力度切分的接口,可以控制是否做一元分词,多元分词(控制冗余度)。 |
|
返回顶楼 | |
发表时间:2010-09-26
wuxiaoqqqq 写道 linliangyi2007 写道 wuxiaoqqqq 写道 那如果我想把皮鞋分成
皮/鞋/皮鞋 请问有什么好的办法吗? 其实我的想法是,不需要这样的分词的,否则lucene就不适合你的应用场景,这个值得你仔细思考一下啊 现在我有这样一个场景,我的索引里面有运动鞋,皮鞋,跑鞋,帆布鞋 但我搜索鞋出来不了任何东西,这 我觉得能否提供一个是否可以最大力度切分的接口,可以控制是否做一元分词,多元分词(控制冗余度)。 就一般的使用而言,我更建议你在自定义词典中,添加“鞋”这个关键词,因为它对你是有意义的。 另外,我建议你可以开发一个很简单的自定义关键词的维护系统(“增删改查”的那种),将自定义的词放在数据库表中,然后通过程序将词从数据库里读出,再通过IK的词典API写入动态扩展词典中。 |
|
返回顶楼 | |
发表时间:2010-09-26
linliangyi2007 写道 wuxiaoqqqq 写道 linliangyi2007 写道 wuxiaoqqqq 写道 那如果我想把皮鞋分成 皮/鞋/皮鞋 请问有什么好的办法吗? 其实我的想法是,不需要这样的分词的,否则lucene就不适合你的应用场景,这个值得你仔细思考一下啊 现在我有这样一个场景,我的索引里面有运动鞋,皮鞋,跑鞋,帆布鞋 但我搜索鞋出来不了任何东西,这 我觉得能否提供一个是否可以最大力度切分的接口,可以控制是否做一元分词,多元分词(控制冗余度)。 就一般的使用而言,我更建议你在自定义词典中,添加“鞋”这个关键词,因为它对你是有意义的。 另外,我建议你可以开发一个很简单的自定义关键词的维护系统(“增删改查”的那种),将自定义的词放在数据库表中,然后通过程序将词从数据库里读出,再通过IK的词典API写入动态扩展词典中。 谢谢,我先将鞋加入到自定义词典中看能不能分出来。 |
|
返回顶楼 | |
发表时间:2010-09-26
我能查询你的词库里面有什么词吗?
通过api动态加载的话,是不需要重启tomcat的吧? |
|
返回顶楼 | |
发表时间:2010-09-26
研究了你提供的api和google一下资料,我觉得应该没有问题了,非常感谢你的分词器。
虽然我还没写过java代码,但我想这个功能应该不会太难。 |
|
返回顶楼 | |