发布 IK Analyzer 3.2.5 稳定版 for Lucene3.0

linliangyi2007

浏览: 1014477 次
性别:
来自: 福州

最近访客更多访客>>

anyitzy

pos3721

ymgjava

winco304

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

程序人生

lucene Solr QQ Eclipse Google

新版本IKAnnlyzer3.2.8已发布！
地址： http://linliangyi2007.iteye.com/blog/941132

IK Analyzer 3.2.5版本修订

在3.2.3版本基础上，更新如下：
1.修订了分词器内部的数组越界异常
2.重构了字母子分词器，强化了对英文和阿拉伯混合字窜的切分
3.根据用户意见，修订了字典扩展的API接口，List-->Collection
4.考虑到linux系统下用户使用的方便性，将发布包从rar改为zip压缩

PS:如果您使用的是Solr1.3或者v2.9之前的Lucene，请下载IK Analyzer3.1.6GA使用！ IK Analyzer3.2.X仅支持Lucene3.0以上版本。

下载地址

IK Analyzer 3.2.5分布包

IK Analyzer 3.2.5源码包

分享到：

Gosling离开Oracle的原因让我感到Java程序 ... | ThinkPad C盘空间莫名丢失问题

2010-09-08 14:43
浏览 5831
评论(41)
论坛回复 / 浏览 (36 / 10634)
分类:编程语言
查看更多

21 楼 linliangyi2007 2010-11-16

shadowlin 写道

问一个比较弱智的问题啊，如果我要看分词的结果，现在要怎么看呢？
以前的term.next似乎在3.0以后都没有掉了。


                        String t = "你要尝试切分的文本";  
			IKSegmentation ikSeg = new IKSegmentation(new StringReader(t) , false);
			try {
				Lexeme l = null;
				while( (l = ikSeg.next()) != null){
					System.out.println(l);
				}
			} catch (IOException e) {
				// TODO Auto-generated catch block
				e.printStackTrace();
			}

20 楼 shadowlin 2010-11-16

问一个比较弱智的问题啊，如果我要看分词的结果，现在要怎么看呢？
以前的term.next似乎在3.0以后都没有掉了。

19 楼 wuxiaoqqqq 2010-09-26

研究了你提供的api和google一下资料，我觉得应该没有问题了，非常感谢你的分词器。
虽然我还没写过java代码，但我想这个功能应该不会太难。

18 楼 wuxiaoqqqq 2010-09-26

我能查询你的词库里面有什么词吗？
通过api动态加载的话，是不需要重启tomcat的吧？

17 楼 wuxiaoqqqq 2010-09-26

linliangyi2007 写道

wuxiaoqqqq 写道

linliangyi2007 写道

wuxiaoqqqq 写道

那如果我想把皮鞋分成

皮/鞋/皮鞋

请问有什么好的办法吗？

其实我的想法是，不需要这样的分词的，否则lucene就不适合你的应用场景，这个值得你仔细思考一下啊

现在我有这样一个场景，我的索引里面有运动鞋，皮鞋，跑鞋，帆布鞋

但我搜索鞋出来不了任何东西，这

我觉得能否提供一个是否可以最大力度切分的接口，可以控制是否做一元分词，多元分词（控制冗余度）。

就一般的使用而言，我更建议你在自定义词典中，添加“鞋”这个关键词，因为它对你是有意义的。
另外，我建议你可以开发一个很简单的自定义关键词的维护系统（“增删改查”的那种），将自定义的词放在数据库表中，然后通过程序将词从数据库里读出，再通过IK的词典API写入动态扩展词典中。

谢谢，我先将鞋加入到自定义词典中看能不能分出来。

16 楼 linliangyi2007 2010-09-26

wuxiaoqqqq 写道

linliangyi2007 写道

wuxiaoqqqq 写道

那如果我想把皮鞋分成

皮/鞋/皮鞋

请问有什么好的办法吗？

其实我的想法是，不需要这样的分词的，否则lucene就不适合你的应用场景，这个值得你仔细思考一下啊

15 楼 wuxiaoqqqq 2010-09-26

linliangyi2007 写道

wuxiaoqqqq 写道

那如果我想把皮鞋分成

皮/鞋/皮鞋

请问有什么好的办法吗？

其实我的想法是，不需要这样的分词的，否则lucene就不适合你的应用场景，这个值得你仔细思考一下啊

14 楼 linliangyi2007 2010-09-26

wuxiaoqqqq 写道

那如果我想把皮鞋分成

皮/鞋/皮鞋

请问有什么好的办法吗？

其实我的想法是，不需要这样的分词的，否则lucene就不适合你的应用场景，这个值得你仔细思考一下啊

13 楼 wuxiaoqqqq 2010-09-26

那如果我想把皮鞋分成

皮/鞋/皮鞋

请问有什么好的办法吗？

12 楼 linliangyi2007 2010-09-26

wuxiaoqqqq 写道

linliangyi2007 写道

wuxiaoqqqq 写道

你好，请问一下我能强制一元分词吗？

一元分词使用ChineseAnalyzer吧。

对IK而言，除非你吧主词典都清空了，它对汉字就只能采取一元分词了

我想把皮鞋分词成

皮/鞋/皮鞋

如果我在solr里面用ChineseAnalyzer+IK，能达到这个效果吗？

呃~~~~貌似两个分词器不能同时起作用吧

11 楼 wuxiaoqqqq 2010-09-26

linliangyi2007 写道

wuxiaoqqqq 写道

你好，请问一下我能强制一元分词吗？

一元分词使用ChineseAnalyzer吧。

对IK而言，除非你吧主词典都清空了，它对汉字就只能采取一元分词了

我想把皮鞋分词成

皮/鞋/皮鞋

如果我在solr里面用ChineseAnalyzer+IK，能达到这个效果吗？

10 楼 linliangyi2007 2010-09-26

wuxiaoqqqq 写道

你好，请问一下我能强制一元分词吗？

一元分词使用ChineseAnalyzer吧。

对IK而言，除非你吧主词典都清空了，它对汉字就只能采取一元分词了

9 楼 wuxiaoqqqq 2010-09-26

你好，请问一下我能强制一元分词吗？

8 楼 jforever 2010-09-12

<p>我觉得这个分词挺好用的，还支持通过数据库扩展词典。最近我新上线的两个子栏目（OPEN开源搜索和<a href="http://doc.open-open.com">OPEN文档</a>）都用到这个分词器。</p>
<p> </p>

7 楼 yaobiao753 2010-09-11

支持楼主~

6 楼 linliangyi2007 2010-09-10

kjj 写道

变化不是很大就不更新了,已经把前一个版本集成到nutch了,很方便,楼主辛苦............,希望这玩意越来越强大,超越中科院分词系统...........我绝对支持......................

哈哈，这个理想很远大，不过俺就一个人，中科院人家是一个团队，还是要低调低调的

5 楼 niumd 2010-09-10

thanks for sharing,
正在阅读源码学习；

4 楼 kjj 2010-09-10

3 楼 xieshaohu 2010-09-09

不错。看看。

2 楼 dh189 2010-09-08

下载看看。

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论