精华帖 (8) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2009-08-05
最后修改:2009-08-24
1.修订了大文本处理时,缓冲区边界指针位置不正确的异常 2.添加“正向最大切分算法” 新增API更新如下: 类org.wltea.analyzer.lucene.IKAnalyzer public IKAnalyzer(boolean isMaxWordLength) 说明:新构造函数,从版本V3.1.1起 参数1 :boolean isMaxWordLength , 当为true时,分词器进行最大词长切分 ;当为false时,分词器进行最细粒度切分。 类org.wltea.analyzer.IKSegmentation public IKSegmentation(Reader input , boolean isMaxWordLength) 说明:IK主分词器新构造函数,从版本V3.1.1起 参数1:Reader input , 字符输入读取 参数2:boolean isMaxWordLength , 当为true时,分词器进行最大词长切分 ;当为false时,分词器进行最细粒度切分。 下载 :IKAnalyzer3.1.1稳定版完整包.rar 更多详细请参看《IKAnalyzer中文分词器V3.1.1使用手册.pdf》 声明:ITeye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
推荐链接
|
|
返回顶楼 | |
发表时间:2009-08-05
一直用你的分词,努力呀
|
|
返回顶楼 | |
发表时间:2009-08-05
我07年毕业设计是做个简单的全文搜索,也用到了楼主的分词器,呵呵,感谢楼主
|
|
返回顶楼 | |
发表时间:2009-08-05
感谢了要顶贴哈,嘎嘎嘎(邪恶的奸笑中ing)
|
|
返回顶楼 | |
发表时间:2009-08-05
哈哈~~~ 好东西,下载下来分析下~~
对楼主的分享精神赞一个! |
|
返回顶楼 | |
发表时间:2009-08-05
感謝樓主心苦的開發!
我最近再研究樓主的分詞套件! 用這一版本有個問題! 我用最大分詞!跑出的結果為: 中華民族 共和國 在 1911 年 建立 從此 開始 了 新中國 的 偉大 大篇 篇章 1.1911年沒有正確分到 2."的", "了" 贅詞也沒過濾掉! 請問這樣是這確的嗎? 以下是用2.0.2跑出來的結果: 2:0 - 2 = 中華 2:2 - 4 = 民主 3:4 - 7 = 共和國 5:8 - 13 = 1911年 2:13 - 15 = 建立 2:16 - 18 = 從此 2:18 - 20 = 開始 3:21 - 24 = 新中國 2:25 - 27 = 偉大 2:26 - 28 = 大篇 2:27 - 29 = 篇章 似乎2.0.2的比較正確! 還是我這版(3.1.1GA2)的寫法寫錯了? Analyzer analyzer = new IKAnalyzer(true); 請樓主指證一下,謝謝! |
|
返回顶楼 | |
发表时间:2009-08-05
andylau8250 写道 感謝樓主心苦的開發!
我最近再研究樓主的分詞套件! 用這一版本有個問題! 我用最大分詞!跑出的結果為: 中華民族 共和國 在 1911 年 建立 從此 開始 了 新中國 的 偉大 大篇 篇章 1.1911年沒有正確分到 2."的", "了" 贅詞也沒過濾掉! 請問這樣是這確的嗎? 以下是用2.0.2跑出來的結果: 2:0 - 2 = 中華 2:2 - 4 = 民主 3:4 - 7 = 共和國 5:8 - 13 = 1911年 2:13 - 15 = 建立 2:16 - 18 = 從此 2:18 - 20 = 開始 3:21 - 24 = 新中國 2:25 - 27 = 偉大 2:26 - 28 = 大篇 2:27 - 29 = 篇章 似乎2.0.2的比較正確! 還是我這版(3.1.1GA2)的寫法寫錯了? Analyzer analyzer = new IKAnalyzer(true); 請樓主指證一下,謝謝! 你的用法没有错,在3.0中,对数词和量没有做合并处理,原因是用户希望用“1911”搜索的时候,如果合并了,就搜不到结果了。 第二,对介词,副词,3.0也不做过滤的,原因是,分词器要完整的输出文章的全部,而且2.0.2的算法会造成部分的姓名的一部分字被当成无用词给过滤掉,因此3.0取消了对无用词的过滤 |
|
返回顶楼 | |
发表时间:2009-08-05
瞭解了!
謝謝樓主的回覆! |
|
返回顶楼 | |
发表时间:2009-08-05
你更新的比我学的还快了 我忙的很 在看看你这更新的那么快我那儿还是老版本的
|
|
返回顶楼 | |
发表时间:2009-08-05
whaosoft 写道 你更新的比我学的还快了 我忙的很 在看看你这更新的那么快我那儿还是老版本的
有了svn和junit,可以自己做简单的每日构建了,而且项目不大,因此更新会简单些。 |
|
返回顶楼 | |