发布IK Analyzer 3.1 GA升级包

linliangyi2007

浏览: 1009778 次
性别:
来自: 福州

最近访客更多访客>>

anyitzy

pos3721

ymgjava

winco304

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

程序人生

互联网 SVN XML thread 浏览器

IK Analyzer 3.1 GA升级变更：

1.修订了数词切分时，指针越界的bug

2.设计了分词结果排序器，大幅度提升分词性能30%（从49万/秒提升至65万字/秒）

3.扩充了分词词典，新增5万多新词。

下载：IKAnalyzer3.1.1稳定版完整包.rar

更多详细请参看《IKAnalyzer中文分词器V3.1.1使用手册.pdf》

或浏览：http://linliangyi2007.iteye.com/blog/429960

分享到：

应网友需求发布IKAnalyzer3.1.1GA | 分享IKAnalyzer 3.0 中文分词器

2009-07-29 17:11
浏览 2073
评论(26)
论坛回复 / 浏览 (26 / 7720)
查看更多

6 楼 rongxh7 2009-07-31

楼主,您好!
研读IK 3.x 的源码,发现没有了正向最大匹配的中文分词，我们的项目急需正向最大匹配，而想改ChineseSegmenter,发觉代码执行的流程有点复杂，本人比较愚笨，看了一天，也没看全懂！
我们想将ChineseSegmenter改成正向最大匹配的，应该怎么做？请楼主指点一二！谢谢！
如：人类互联网史
IK3分词成：
人类
互联网
互联
联网
史

我们想要的结果是：
人类
互联网
史

5 楼 linliangyi2007 2009-07-30

fc6029585 写道

rongxh7 写道

我们的项目有这样的需求：
输入待分词的字符串为：
@(title,body) hello world
我们想要的分词结果是：
@
hello
world
也就是要把@(title,body)里面的内容过滤掉。我们的想法是在IK3的源码上基础上写多一个实现了ISegmenter接口的类，用来处理这样的需求。这一点，跟楼主的LetterSegmenter，QuantifierSegmenter，ChineseSegmenter的处理都有所不同。请楼主给予指点，非常感谢！

直接将 (*) 的内容 replaceAll "" 可以吧

我想rongxh7还需要把括号外面的词进行切分吧，因此不仅仅是替换啦

4 楼 fc6029585 2009-07-30

rongxh7 写道

直接将 (*) 的内容 replaceAll "" 可以吧

3 楼 linliangyi2007 2009-07-29

rongxh7 写道

我想知道，括号内和括号外都有哪些字符，如果括号内只是英文，中文，或者数字，那么会容易修改些；
否则就要修改LetterSegmenter，QuantifierSegmenter，ChineseSegmenter三个子分词器的逻辑了。当然就你的例子而言，有明确的括号分割，应该是不难的

2 楼 rongxh7 2009-07-29

1 楼 rongxh7 2009-07-29

强烈支持,我们现在就用你的分词器!

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论