论坛首页 Java企业应用论坛

应网友需求发布IKAnalyzer3.1.1GA2

浏览 14446 次
精华帖 (8) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2009-08-05   最后修改:2009-08-24
3.1.1GA2版本变更:
1.修订了大文本处理时,缓冲区边界指针位置不正确的异常
2.添加“正向最大切分算法”
新增API更新如下:

 类org.wltea.analyzer.lucene.IKAnalyzer
 public IKAnalyzer(boolean isMaxWordLength)
说明:新构造函数,从版本V3.1.1起
参数1 :boolean isMaxWordLength , 当为true时,分词器进行最大词长切分  ;当为false时,分词器进行最细粒度切分。


 类org.wltea.analyzer.IKSegmentation
 public IKSegmentation(Reader input , boolean isMaxWordLength)
说明:IK主分词器新构造函数,从版本V3.1.1起
参数1:Reader input , 字符输入读取
参数2:boolean isMaxWordLength , 当为true时,分词器进行最大词长切分  ;当为false时,分词器进行最细粒度切分。


下载 :IKAnalyzer3.1.1稳定版完整包.rar

更多详细请参看《IKAnalyzer中文分词器V3.1.1使用手册.pdf》


   发表时间:2009-08-05  
一直用你的分词,努力呀
0 请登录后投票
   发表时间:2009-08-05  
我07年毕业设计是做个简单的全文搜索,也用到了楼主的分词器,呵呵,感谢楼主
0 请登录后投票
   发表时间:2009-08-05  
感谢了要顶贴哈,嘎嘎嘎(邪恶的奸笑中ing)
0 请登录后投票
   发表时间:2009-08-05  
哈哈~~~ 好东西,下载下来分析下~~
对楼主的分享精神赞一个!
0 请登录后投票
   发表时间:2009-08-05  
感謝樓主心苦的開發!
我最近再研究樓主的分詞套件!
用這一版本有個問題!
我用最大分詞!跑出的結果為:

中華民族
共和國

1911

建立
從此
開始

新中國

偉大
大篇
篇章

1.1911年沒有正確分到
2."的", "了" 贅詞也沒過濾掉!

請問這樣是這確的嗎?

以下是用2.0.2跑出來的結果:
2:0 - 2 = 中華
2:2 - 4 = 民主
3:4 - 7 = 共和國
5:8 - 13 = 1911年
2:13 - 15 = 建立
2:16 - 18 = 從此
2:18 - 20 = 開始
3:21 - 24 = 新中國
2:25 - 27 = 偉大
2:26 - 28 = 大篇
2:27 - 29 = 篇章

似乎2.0.2的比較正確!

還是我這版(3.1.1GA2)的寫法寫錯了?

Analyzer analyzer = new IKAnalyzer(true);

請樓主指證一下,謝謝!
0 请登录后投票
   发表时间:2009-08-05  
andylau8250 写道
感謝樓主心苦的開發!
我最近再研究樓主的分詞套件!
用這一版本有個問題!
我用最大分詞!跑出的結果為:

中華民族
共和國

1911

建立
從此
開始

新中國

偉大
大篇
篇章

1.1911年沒有正確分到
2."的", "了" 贅詞也沒過濾掉!

請問這樣是這確的嗎?

以下是用2.0.2跑出來的結果:
2:0 - 2 = 中華
2:2 - 4 = 民主
3:4 - 7 = 共和國
5:8 - 13 = 1911年
2:13 - 15 = 建立
2:16 - 18 = 從此
2:18 - 20 = 開始
3:21 - 24 = 新中國
2:25 - 27 = 偉大
2:26 - 28 = 大篇
2:27 - 29 = 篇章

似乎2.0.2的比較正確!

還是我這版(3.1.1GA2)的寫法寫錯了?

Analyzer analyzer = new IKAnalyzer(true);

請樓主指證一下,謝謝!

你的用法没有错,在3.0中,对数词和量没有做合并处理,原因是用户希望用“1911”搜索的时候,如果合并了,就搜不到结果了。 第二,对介词,副词,3.0也不做过滤的,原因是,分词器要完整的输出文章的全部,而且2.0.2的算法会造成部分的姓名的一部分字被当成无用词给过滤掉,因此3.0取消了对无用词的过滤
0 请登录后投票
   发表时间:2009-08-05  
瞭解了!
謝謝樓主的回覆!
0 请登录后投票
   发表时间:2009-08-05  
你更新的比我学的还快了 我忙的很 在看看你这更新的那么快我那儿还是老版本的
0 请登录后投票
   发表时间:2009-08-05  
whaosoft 写道
你更新的比我学的还快了 我忙的很 在看看你这更新的那么快我那儿还是老版本的


有了svn和junit,可以自己做简单的每日构建了,而且项目不大,因此更新会简单些。
0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics