发布IK Analyzer 3.1 GA升级包

linliangyi2007

浏览: 1012671 次
性别:
来自: 福州

最近访客更多访客>>

anyitzy

pos3721

ymgjava

winco304

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

程序人生

互联网 SVN XML thread 浏览器

IK Analyzer 3.1 GA升级变更：

1.修订了数词切分时，指针越界的bug

2.设计了分词结果排序器，大幅度提升分词性能30%（从49万/秒提升至65万字/秒）

3.扩充了分词词典，新增5万多新词。

下载：IKAnalyzer3.1.1稳定版完整包.rar

更多详细请参看《IKAnalyzer中文分词器V3.1.1使用手册.pdf》

或浏览：http://linliangyi2007.iteye.com/blog/429960

分享到：

应网友需求发布IKAnalyzer3.1.1GA | 分享IKAnalyzer 3.0 中文分词器

2009-07-29 17:11
浏览 2085
评论(26)
论坛回复 / 浏览 (26 / 7726)
查看更多

26 楼 linliangyi2007 2009-08-14

rongxh7 写道

楼主IK3的源码,我看了两三个星期,不知道有没有看懂一半了,总之就是有很多是看不懂的,虽然有注释.或许是我比较愚笨吧,呵呵.建议楼主,有空时出一系列文章叫<<IK3源码分析>>,让我们学习一下.

哈哈，主意是不错，不过就怕被人说成自卖自夸就惨了

25 楼 rongxh7 2009-08-14

24 楼 linliangyi2007 2009-08-05

crazy_001 写道

速度好快，这么快就解决了！支持一下

支持要记得顶贴哦

，嘎嘎嘎。

23 楼 crazy_001 2009-08-05

速度好快，这么快就解决了！支持一下

22 楼 linliangyi2007 2009-08-05

crazy_001 写道

如果svn上面是最新的，那我用的也是最新的，可能测试方式不一样，我的数据是放在xml文件里的，然后从xml读取出来再建索引就会有问题，如果把内容直接放在一个字符变量中是没有问题的，我再传一份xml文件，你测试看看
测试代码：
String s = "";
IKAnalyzer analyzer = new IKAnalyzer();
IndexWriter writer = null;
Directory directory = new RAMDirectory();
try {
writer = new IndexWriter(directory, analyzer, true, MaxFieldLength.UNLIMITED);
SAXReader reader = new SAXReader();
reader.setEncoding("utf-8");
org.dom4j.Document document = reader.read("g:/xml1/text.xml");
Element e = (Element)document.selectObject("/SEGMENT/DOCUMENT/CONTENT");
s = e.getText();
System.out.println("====="+s);
Document doc = new Document();
Field field = new Field("context", s, Field.Store.NO,Field.Index.ANALYZED);
doc.add(field);
writer.addDocument(doc, analyzer);
writer.close();
} catch (CorruptIndexException e) {
e.printStackTrace();
} catch (LockObtainFailedException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
} catch (DocumentException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}

BUG已经修订，谢谢啊！这个bug藏的相当深，因为你的文本不仅长而且中间没有任何的标点、空格来分割，造成了缓冲区边界处理时的指针异常。 IK3.1.1GA2已发布，地址http://www.iteye.com/topic/440321

21 楼 crazy_001 2009-08-04

linliangyi2007 写道

crazy_001 写道

linliangyi2007 写道

crazy_001 写道

楼主，你好！我以前也用过这个分词，觉得不错，看了你发布新版的，也拿来试试看，但在建索引的时候会报出以下异常，不知道算不算bug:
Exception in thread "main" java.lang.IllegalArgumentException: length < 0
at org.wltea.analyzer.Lexeme.<init>(Lexeme.java:47)

你用的那个版本？3.0在切分数词时，有这个bug，请使用IK3.1GA以上版本

另外你进行分词的文字能发给我看一下嘛？

我用的是从svn上更新下来的，应该是最新的，可能跟数据长度有关吧，我把数据也上传一下，你测试看看

兄弟，你的版本应该是3.0的，重新下一个3.1.1的吧，我这边测试了你给我的文档，没有问题啊

20 楼 linliangyi2007 2009-08-04

crazy_001 写道

linliangyi2007 写道

crazy_001 写道

你用的那个版本？3.0在切分数词时，有这个bug，请使用IK3.1GA以上版本

另外你进行分词的文字能发给我看一下嘛？

我用的是从svn上更新下来的，应该是最新的，可能跟数据长度有关吧，我把数据也上传一下，你测试看看

兄弟，你的版本应该是3.0的，重新下一个3.1.1的吧，我这边测试了你给我的文档，没有问题啊

19 楼 crazy_001 2009-08-04

linliangyi2007 写道

crazy_001 写道

你用的那个版本？3.0在切分数词时，有这个bug，请使用IK3.1GA以上版本

另外你进行分词的文字能发给我看一下嘛？

我用的是从svn上更新下来的，应该是最新的，可能跟数据长度有关吧，我把数据也上传一下，你测试看看

18 楼 linliangyi2007 2009-08-04

crazy_001 写道

你用的那个版本？3.0在切分数词时，有这个bug，请使用IK3.1GA以上版本

另外你进行分词的文字能发给我看一下嘛？

17 楼 crazy_001 2009-08-04

16 楼 phoenixup 2009-08-03

O，3.1.1GA又出来了。。。更新很频繁，项目很活跃。。。

15 楼 smilerain 2009-08-03

楼主的分词很不错,赞一个.

14 楼 coolasp 2009-08-02

向楼主的这种精神致敬！

13 楼 952222 2009-08-01

我也要正向最大匹配。真是太好了！！！真是好人！！！

12 楼 linliangyi2007 2009-08-01

langhua9527 写道

动作也太快一点了吧。。

呵呵，昨晚折腾到凌晨4点哦

11 楼 langhua9527 2009-08-01

动作也太快一点了吧。。

10 楼 linliangyi2007 2009-08-01

rongxh7 写道

linliangyi2007 写道

rongxh7 写道

楼主,您好!
研读IK 3.x 的源码,发现没有了正向最大匹配的中文分词，我们的项目急需正向最大匹配，而想改ChineseSegmenter,发觉代码执行的流程有点复杂，本人比较愚笨，看了一天，也没看全懂！
我们想将ChineseSegmenter改成正向最大匹配的，应该怎么做？请楼主指点一二！谢谢！
如：人类互联网史
IK3分词成：
人类
互联网
互联
联网
史

我们想要的结果是：
人类
互联网
史

OK,那就出个3.1.1吧，周末就出个版本哈

太好了,楼主真好人!期待带有正向最大匹配分词功能的IK3.1.1!

IK3.1.1GA 已经发布 http://linliangyi2007.iteye.com/blog/437550

9 楼 rongxh7 2009-08-01

linliangyi2007 写道

rongxh7 写道

OK,那就出个3.1.1吧，周末就出个版本哈

太好了,楼主真好人!期待带有正向最大匹配分词功能的IK3.1.1!

8 楼 lianj_lee 2009-08-01

linliangyi2007 写道

rongxh7 写道

OK,那就出个3.1.1吧，周末就出个版本哈

蓝山，俺是87.没事逛逛，嘎嘎... ...

7 楼 linliangyi2007 2009-07-31

rongxh7 写道

OK,那就出个3.1.1吧，周末就出个版本哈

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论