发布IK Analyzer 3.1 GA升级包

全部 Hibernate Spring Struts iBATIS 企业应用 Lucene SOA Java综合 Tomcat 设计模式 OO JBoss

浏览 7729 次

锁定老帖子主题：发布IK Analyzer 3.1 GA升级包精华帖 (1) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者	正文
linliangyi2007 等级: 性别: 文章: 992 积分: 1266 来自: 福州	发表时间：2009-07-29 最后修改：2009-08-24 相关推荐: IKAnalyzer2012完整分发包 IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer分词器升级Lucene5.5.4 IKAnalyzer包 IKAnalyzer3.1.6GA完整包更多相关推荐 IK Analyzer 3.1 GA升级变更： 1.修订了数词切分时，指针越界的bug 2.设计了分词结果排序器，大幅度提升分词性能30%（从49万/秒提升至65万字/秒） 3.扩充了分词词典，新增5万多新词。下载：IKAnalyzer3.1.1稳定版完整包.rar 更多详细请参看《IKAnalyzer中文分词器V3.1.1使用手册.pdf》或浏览：http://linliangyi2007.iteye.com/blog/429960 声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

rongxh7 等级: 初级会员性别: 文章: 13 积分: 40 来自: 广州	发表时间：2009-07-29 强烈支持,我们现在就用你的分词器!
返回顶楼	回帖地址 0 0 请登录后投票

rongxh7 等级: 初级会员性别: 文章: 13 积分: 40 来自: 广州	发表时间：2009-07-29 我们的项目有这样的需求：输入待分词的字符串为： @(title,body) hello world 我们想要的分词结果是： @ hello world 也就是要把@(title,body)里面的内容过滤掉。我们的想法是在IK3的源码上基础上写多一个实现了ISegmenter接口的类，用来处理这样的需求。这一点，跟楼主的LetterSegmenter，QuantifierSegmenter，ChineseSegmenter的处理都有所不同。请楼主给予指点，非常感谢！
返回顶楼	回帖地址 0 0 请登录后投票

linliangyi2007 等级: 性别: 文章: 992 积分: 1266 来自: 福州	发表时间：2009-07-29 rongxh7 写道我们的项目有这样的需求：输入待分词的字符串为： @(title,body) hello world 我们想要的分词结果是： @ hello world 也就是要把@(title,body)里面的内容过滤掉。我们的想法是在IK3的源码上基础上写多一个实现了ISegmenter接口的类，用来处理这样的需求。这一点，跟楼主的LetterSegmenter，QuantifierSegmenter，ChineseSegmenter的处理都有所不同。请楼主给予指点，非常感谢！我想知道，括号内和括号外都有哪些字符，如果括号内只是英文，中文，或者数字，那么会容易修改些；否则就要修改LetterSegmenter，QuantifierSegmenter，ChineseSegmenter三个子分词器的逻辑了。当然就你的例子而言，有明确的括号分割，应该是不难的
返回顶楼	回帖地址 0 0 请登录后投票

fc6029585 等级: 初级会员性别: 文章: 41 积分: 0 来自: 重庆	发表时间：2009-07-30 rongxh7 写道我们的项目有这样的需求：输入待分词的字符串为： @(title,body) hello world 我们想要的分词结果是： @ hello world 也就是要把@(title,body)里面的内容过滤掉。我们的想法是在IK3的源码上基础上写多一个实现了ISegmenter接口的类，用来处理这样的需求。这一点，跟楼主的LetterSegmenter，QuantifierSegmenter，ChineseSegmenter的处理都有所不同。请楼主给予指点，非常感谢！直接将 (*) 的内容 replaceAll "" 可以吧
返回顶楼	回帖地址 0 0 请登录后投票

linliangyi2007 等级: 性别: 文章: 992 积分: 1266 来自: 福州	发表时间：2009-07-30 fc6029585 写道 rongxh7 写道我们的项目有这样的需求：输入待分词的字符串为： @(title,body) hello world 我们想要的分词结果是： @ hello world 也就是要把@(title,body)里面的内容过滤掉。我们的想法是在IK3的源码上基础上写多一个实现了ISegmenter接口的类，用来处理这样的需求。这一点，跟楼主的LetterSegmenter，QuantifierSegmenter，ChineseSegmenter的处理都有所不同。请楼主给予指点，非常感谢！直接将 (*) 的内容 replaceAll "" 可以吧我想rongxh7还需要把括号外面的词进行切分吧，因此不仅仅是替换啦
返回顶楼	回帖地址 0 0 请登录后投票

rongxh7 等级: 初级会员性别: 文章: 13 积分: 40 来自: 广州	发表时间：2009-07-31 楼主,您好! 研读IK 3.x 的源码,发现没有了正向最大匹配的中文分词，我们的项目急需正向最大匹配，而想改ChineseSegmenter,发觉代码执行的流程有点复杂，本人比较愚笨，看了一天，也没看全懂！我们想将ChineseSegmenter改成正向最大匹配的，应该怎么做？请楼主指点一二！谢谢！如：人类互联网史 IK3分词成：人类互联网互联联网史我们想要的结果是：人类互联网史
返回顶楼	回帖地址 0 0 请登录后投票

linliangyi2007 等级: 性别: 文章: 992 积分: 1266 来自: 福州	发表时间：2009-07-31 最后修改：2009-08-01 rongxh7 写道楼主,您好! 研读IK 3.x 的源码,发现没有了正向最大匹配的中文分词，我们的项目急需正向最大匹配，而想改ChineseSegmenter,发觉代码执行的流程有点复杂，本人比较愚笨，看了一天，也没看全懂！我们想将ChineseSegmenter改成正向最大匹配的，应该怎么做？请楼主指点一二！谢谢！如：人类互联网史 IK3分词成：人类互联网互联联网史我们想要的结果是：人类互联网史 OK,那就出个3.1.1吧，周末就出个版本哈
返回顶楼	回帖地址 0 0 请登录后投票

lianj_lee 等级: 初级会员性别: 文章: 50 积分: 10 来自: 北京	发表时间：2009-08-01 linliangyi2007 写道 rongxh7 写道楼主,您好! 研读IK 3.x 的源码,发现没有了正向最大匹配的中文分词，我们的项目急需正向最大匹配，而想改ChineseSegmenter,发觉代码执行的流程有点复杂，本人比较愚笨，看了一天，也没看全懂！我们想将ChineseSegmenter改成正向最大匹配的，应该怎么做？请楼主指点一二！谢谢！如：人类互联网史 IK3分词成：人类互联网互联联网史我们想要的结果是：人类互联网史 OK,那就出个3.1.1吧，周末就出个版本哈蓝山，俺是87.没事逛逛，嘎嘎... ...
返回顶楼	回帖地址 0 0 请登录后投票

rongxh7 等级: 初级会员性别: 文章: 13 积分: 40 来自: 广州	发表时间：2009-08-01 linliangyi2007 写道 rongxh7 写道楼主,您好! 研读IK 3.x 的源码,发现没有了正向最大匹配的中文分词，我们的项目急需正向最大匹配，而想改ChineseSegmenter,发觉代码执行的流程有点复杂，本人比较愚笨，看了一天，也没看全懂！我们想将ChineseSegmenter改成正向最大匹配的，应该怎么做？请楼主指点一二！谢谢！如：人类互联网史 IK3分词成：人类互联网互联联网史我们想要的结果是：人类互联网史 OK,那就出个3.1.1吧，周末就出个版本哈太好了,楼主真好人!期待带有正向最大匹配分词功能的IK3.1.1!
返回顶楼	回帖地址 1 0 请登录后投票

论坛首页 → Java企业应用版

跳转论坛: