论坛首页 Java企业应用论坛

发布IK Analyzer 3.1 GA升级包

浏览 7729 次
精华帖 (1) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2009-07-29   最后修改:2009-08-24
IK Analyzer 3.1 GA升级变更:

1.修订了数词切分时,指针越界的bug

2.设计了分词结果排序器,大幅度提升分词性能30%(从49万/秒提升至65万字/秒)

3.扩充了分词词典,新增5万多新词。



下载 :IKAnalyzer3.1.1稳定版完整包.rar

更多详细请参看《IKAnalyzer中文分词器V3.1.1使用手册.pdf》

或浏览:http://linliangyi2007.iteye.com/blog/429960
   发表时间:2009-07-29  
强烈支持,我们现在就用你的分词器!
0 请登录后投票
   发表时间:2009-07-29  
我们的项目有这样的需求:
输入待分词的字符串为:
@(title,body) hello world
我们想要的分词结果是:
@
hello
world
也就是要把@(title,body)里面的内容过滤掉。我们的想法是在IK3的源码上基础上写多一个实现了ISegmenter接口的类,用来处理这样的需求。这一点,跟楼主的LetterSegmenter,QuantifierSegmenter,ChineseSegmenter的处理都有所不同。请楼主给予指点,非常感谢!
0 请登录后投票
   发表时间:2009-07-29  
rongxh7 写道
我们的项目有这样的需求:
输入待分词的字符串为:
@(title,body) hello world
我们想要的分词结果是:
@
hello
world
也就是要把@(title,body)里面的内容过滤掉。我们的想法是在IK3的源码上基础上写多一个实现了ISegmenter接口的类,用来处理这样的需求。这一点,跟楼主的LetterSegmenter,QuantifierSegmenter,ChineseSegmenter的处理都有所不同。请楼主给予指点,非常感谢!


我想知道,括号内和括号外都有哪些字符,如果括号内只是英文,中文,或者数字,那么会容易修改些;
否则就要修改LetterSegmenter,QuantifierSegmenter,ChineseSegmenter三个子分词器的逻辑了。当然就你的例子而言,有明确的括号分割,应该是不难的
0 请登录后投票
   发表时间:2009-07-30  
rongxh7 写道
我们的项目有这样的需求:
输入待分词的字符串为:
@(title,body) hello world
我们想要的分词结果是:
@
hello
world
也就是要把@(title,body)里面的内容过滤掉。我们的想法是在IK3的源码上基础上写多一个实现了ISegmenter接口的类,用来处理这样的需求。这一点,跟楼主的LetterSegmenter,QuantifierSegmenter,ChineseSegmenter的处理都有所不同。请楼主给予指点,非常感谢!


直接将  (*)  的内容 replaceAll "" 可以吧
0 请登录后投票
   发表时间:2009-07-30  
fc6029585 写道
rongxh7 写道
我们的项目有这样的需求:
输入待分词的字符串为:
@(title,body) hello world
我们想要的分词结果是:
@
hello
world
也就是要把@(title,body)里面的内容过滤掉。我们的想法是在IK3的源码上基础上写多一个实现了ISegmenter接口的类,用来处理这样的需求。这一点,跟楼主的LetterSegmenter,QuantifierSegmenter,ChineseSegmenter的处理都有所不同。请楼主给予指点,非常感谢!


直接将  (*)  的内容 replaceAll "" 可以吧


我想rongxh7还需要把括号外面的词进行切分吧,因此不仅仅是替换啦
0 请登录后投票
   发表时间:2009-07-31  
楼主,您好!
研读IK 3.x 的源码,发现没有了正向最大匹配的中文分词,我们的项目急需正向最大匹配,而想改ChineseSegmenter,发觉代码执行的流程有点复杂,本人比较愚笨,看了一天,也没看全懂!
我们想将ChineseSegmenter改成正向最大匹配的,应该怎么做?请楼主指点一二!谢谢!
如:人类互联网史
IK3分词成:
人类
互联网
互联
联网


我们想要的结果是:
人类
互联网
0 请登录后投票
   发表时间:2009-07-31   最后修改:2009-08-01
rongxh7 写道
楼主,您好!
研读IK 3.x 的源码,发现没有了正向最大匹配的中文分词,我们的项目急需正向最大匹配,而想改ChineseSegmenter,发觉代码执行的流程有点复杂,本人比较愚笨,看了一天,也没看全懂!
我们想将ChineseSegmenter改成正向最大匹配的,应该怎么做?请楼主指点一二!谢谢!
如:人类互联网史
IK3分词成:
人类
互联网
互联
联网


我们想要的结果是:
人类
互联网


OK,那就出个3.1.1吧,周末就出个版本哈
0 请登录后投票
   发表时间:2009-08-01  
linliangyi2007 写道
rongxh7 写道
楼主,您好!
研读IK 3.x 的源码,发现没有了正向最大匹配的中文分词,我们的项目急需正向最大匹配,而想改ChineseSegmenter,发觉代码执行的流程有点复杂,本人比较愚笨,看了一天,也没看全懂!
我们想将ChineseSegmenter改成正向最大匹配的,应该怎么做?请楼主指点一二!谢谢!
如:人类互联网史
IK3分词成:
人类
互联网
互联
联网


我们想要的结果是:
人类
互联网


OK,那就出个3.1.1吧,周末就出个版本哈

蓝山,俺是87.没事逛逛,嘎嘎... ...
0 请登录后投票
   发表时间:2009-08-01  
linliangyi2007 写道
rongxh7 写道
楼主,您好!
研读IK 3.x 的源码,发现没有了正向最大匹配的中文分词,我们的项目急需正向最大匹配,而想改ChineseSegmenter,发觉代码执行的流程有点复杂,本人比较愚笨,看了一天,也没看全懂!
我们想将ChineseSegmenter改成正向最大匹配的,应该怎么做?请楼主指点一二!谢谢!
如:人类互联网史
IK3分词成:
人类
互联网
互联
联网


我们想要的结果是:
人类
互联网


OK,那就出个3.1.1吧,周末就出个版本哈


太好了,楼主真好人!期待带有正向最大匹配分词功能的IK3.1.1!
1 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics