应网友需求发布IKAnalyzer3.1.1GA2

linliangyi2007

浏览: 1009734 次
性别:
来自: 福州

最近访客更多访客>>

anyitzy

pos3721

ymgjava

winco304

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

程序人生

lucene 搜索引擎算法应用服务器多线程

3.1.1GA2版本变更：
1.修订了大文本处理时，缓冲区边界指针位置不正确的异常
2.添加“正向最大切分算法”
新增API更新如下：

 类org.wltea.analyzer.lucene.IKAnalyzer
 public IKAnalyzer(boolean isMaxWordLength)
说明：新构造函数，从版本V3.1.1起
参数1 ：boolean isMaxWordLength ，当为true时，分词器进行最大词长切分；当为false时，分词器进行最细粒度切分。

 类org.wltea.analyzer.IKSegmentation
 public IKSegmentation(Reader input , boolean isMaxWordLength)
说明：IK主分词器新构造函数，从版本V3.1.1起
参数1：Reader input , 字符输入读取
参数2：boolean isMaxWordLength ，当为true时，分词器进行最大词长切分；当为false时，分词器进行最细粒度切分。

下载：IKAnalyzer3.1.1稳定版完整包.rar

更多详细请参看《IKAnalyzer中文分词器V3.1.1使用手册.pdf》

分享到：

哈哈，美食是生活的重要组成啊，自己烹调鲍 ... | 悟透JavaScript

2009-08-05 00:47
浏览 4906
评论(46)
论坛回复 / 浏览 (46 / 14415)
查看更多

6 楼 linliangyi2007 2009-08-05

andylau8250 写道

感謝樓主心苦的開發!
我最近再研究樓主的分詞套件!
用這一版本有個問題!
我用最大分詞!跑出的結果為:

中華民族
共和國
在
1911
年
建立
從此
開始
了
新中國
的
偉大
大篇
篇章

1.1911年沒有正確分到
2."的", "了" 贅詞也沒過濾掉!

請問這樣是這確的嗎?

以下是用2.0.2跑出來的結果:
2:0 - 2 = 中華
2:2 - 4 = 民主
3:4 - 7 = 共和國
5:8 - 13 = 1911年
2:13 - 15 = 建立
2:16 - 18 = 從此
2:18 - 20 = 開始
3:21 - 24 = 新中國
2:25 - 27 = 偉大
2:26 - 28 = 大篇
2:27 - 29 = 篇章

似乎2.0.2的比較正確!

還是我這版(3.1.1GA2)的寫法寫錯了?

Analyzer analyzer = new IKAnalyzer(true);

請樓主指證一下，謝謝!

你的用法没有错，在3.0中，对数词和量没有做合并处理，原因是用户希望用“1911”搜索的时候，如果合并了，就搜不到结果了。第二，对介词，副词，3.0也不做过滤的，原因是，分词器要完整的输出文章的全部，而且2.0.2的算法会造成部分的姓名的一部分字被当成无用词给过滤掉，因此3.0取消了对无用词的过滤

5 楼 andylau8250 2009-08-05

4 楼 star022 2009-08-05

哈哈~~~ 好东西，下载下来分析下~~
对楼主的分享精神赞一个！

3 楼 linliangyi2007 2009-08-05

感谢了要顶贴哈，嘎嘎嘎（邪恶的奸笑中ing）

2 楼 sw2-long 2009-08-05

我07年毕业设计是做个简单的全文搜索，也用到了楼主的分词器，呵呵，感谢楼主

1 楼 neptune 2009-08-05

一直用你的分词，努力呀

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论