精华帖 (1) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2009-07-29
最后修改:2009-08-24
1.修订了数词切分时,指针越界的bug 2.设计了分词结果排序器,大幅度提升分词性能30%(从49万/秒提升至65万字/秒) 3.扩充了分词词典,新增5万多新词。 下载 :IKAnalyzer3.1.1稳定版完整包.rar 更多详细请参看《IKAnalyzer中文分词器V3.1.1使用手册.pdf》 或浏览:http://linliangyi2007.iteye.com/blog/429960 声明:ITeye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
推荐链接
|
|
返回顶楼 | |
发表时间:2009-07-29
强烈支持,我们现在就用你的分词器!
|
|
返回顶楼 | |
发表时间:2009-07-29
我们的项目有这样的需求:
输入待分词的字符串为: @(title,body) hello world 我们想要的分词结果是: @ hello world 也就是要把@(title,body)里面的内容过滤掉。我们的想法是在IK3的源码上基础上写多一个实现了ISegmenter接口的类,用来处理这样的需求。这一点,跟楼主的LetterSegmenter,QuantifierSegmenter,ChineseSegmenter的处理都有所不同。请楼主给予指点,非常感谢! |
|
返回顶楼 | |
发表时间:2009-07-29
rongxh7 写道 我们的项目有这样的需求:
输入待分词的字符串为: @(title,body) hello world 我们想要的分词结果是: @ hello world 也就是要把@(title,body)里面的内容过滤掉。我们的想法是在IK3的源码上基础上写多一个实现了ISegmenter接口的类,用来处理这样的需求。这一点,跟楼主的LetterSegmenter,QuantifierSegmenter,ChineseSegmenter的处理都有所不同。请楼主给予指点,非常感谢! 我想知道,括号内和括号外都有哪些字符,如果括号内只是英文,中文,或者数字,那么会容易修改些; 否则就要修改LetterSegmenter,QuantifierSegmenter,ChineseSegmenter三个子分词器的逻辑了。当然就你的例子而言,有明确的括号分割,应该是不难的 |
|
返回顶楼 | |
发表时间:2009-07-30
rongxh7 写道 我们的项目有这样的需求:
输入待分词的字符串为: @(title,body) hello world 我们想要的分词结果是: @ hello world 也就是要把@(title,body)里面的内容过滤掉。我们的想法是在IK3的源码上基础上写多一个实现了ISegmenter接口的类,用来处理这样的需求。这一点,跟楼主的LetterSegmenter,QuantifierSegmenter,ChineseSegmenter的处理都有所不同。请楼主给予指点,非常感谢! 直接将 (*) 的内容 replaceAll "" 可以吧 |
|
返回顶楼 | |
发表时间:2009-07-30
fc6029585 写道 rongxh7 写道 我们的项目有这样的需求:
输入待分词的字符串为: @(title,body) hello world 我们想要的分词结果是: @ hello world 也就是要把@(title,body)里面的内容过滤掉。我们的想法是在IK3的源码上基础上写多一个实现了ISegmenter接口的类,用来处理这样的需求。这一点,跟楼主的LetterSegmenter,QuantifierSegmenter,ChineseSegmenter的处理都有所不同。请楼主给予指点,非常感谢! 直接将 (*) 的内容 replaceAll "" 可以吧 我想rongxh7还需要把括号外面的词进行切分吧,因此不仅仅是替换啦 |
|
返回顶楼 | |
发表时间:2009-07-31
楼主,您好!
研读IK 3.x 的源码,发现没有了正向最大匹配的中文分词,我们的项目急需正向最大匹配,而想改ChineseSegmenter,发觉代码执行的流程有点复杂,本人比较愚笨,看了一天,也没看全懂! 我们想将ChineseSegmenter改成正向最大匹配的,应该怎么做?请楼主指点一二!谢谢! 如:人类互联网史 IK3分词成: 人类 互联网 互联 联网 史 我们想要的结果是: 人类 互联网 史 |
|
返回顶楼 | |
发表时间:2009-07-31
最后修改:2009-08-01
rongxh7 写道 楼主,您好!
研读IK 3.x 的源码,发现没有了正向最大匹配的中文分词,我们的项目急需正向最大匹配,而想改ChineseSegmenter,发觉代码执行的流程有点复杂,本人比较愚笨,看了一天,也没看全懂! 我们想将ChineseSegmenter改成正向最大匹配的,应该怎么做?请楼主指点一二!谢谢! 如:人类互联网史 IK3分词成: 人类 互联网 互联 联网 史 我们想要的结果是: 人类 互联网 史 OK,那就出个3.1.1吧,周末就出个版本哈 |
|
返回顶楼 | |
发表时间:2009-08-01
linliangyi2007 写道 rongxh7 写道 楼主,您好!
研读IK 3.x 的源码,发现没有了正向最大匹配的中文分词,我们的项目急需正向最大匹配,而想改ChineseSegmenter,发觉代码执行的流程有点复杂,本人比较愚笨,看了一天,也没看全懂! 我们想将ChineseSegmenter改成正向最大匹配的,应该怎么做?请楼主指点一二!谢谢! 如:人类互联网史 IK3分词成: 人类 互联网 互联 联网 史 我们想要的结果是: 人类 互联网 史 OK,那就出个3.1.1吧,周末就出个版本哈 蓝山,俺是87.没事逛逛,嘎嘎... ... |
|
返回顶楼 | |
发表时间:2009-08-01
linliangyi2007 写道 rongxh7 写道 楼主,您好!
研读IK 3.x 的源码,发现没有了正向最大匹配的中文分词,我们的项目急需正向最大匹配,而想改ChineseSegmenter,发觉代码执行的流程有点复杂,本人比较愚笨,看了一天,也没看全懂! 我们想将ChineseSegmenter改成正向最大匹配的,应该怎么做?请楼主指点一二!谢谢! 如:人类互联网史 IK3分词成: 人类 互联网 互联 联网 史 我们想要的结果是: 人类 互联网 史 OK,那就出个3.1.1吧,周末就出个版本哈 太好了,楼主真好人!期待带有正向最大匹配分词功能的IK3.1.1! |
|
返回顶楼 | |