应网友需求发布IKAnalyzer3.1.1GA2

linliangyi2007

浏览: 1009723 次
性别:
来自: 福州

最近访客更多访客>>

anyitzy

pos3721

ymgjava

winco304

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

程序人生

lucene 搜索引擎算法应用服务器多线程

3.1.1GA2版本变更：
1.修订了大文本处理时，缓冲区边界指针位置不正确的异常
2.添加“正向最大切分算法”
新增API更新如下：

 类org.wltea.analyzer.lucene.IKAnalyzer
 public IKAnalyzer(boolean isMaxWordLength)
说明：新构造函数，从版本V3.1.1起
参数1 ：boolean isMaxWordLength ，当为true时，分词器进行最大词长切分；当为false时，分词器进行最细粒度切分。

 类org.wltea.analyzer.IKSegmentation
 public IKSegmentation(Reader input , boolean isMaxWordLength)
说明：IK主分词器新构造函数，从版本V3.1.1起
参数1：Reader input , 字符输入读取
参数2：boolean isMaxWordLength ，当为true时，分词器进行最大词长切分；当为false时，分词器进行最细粒度切分。

下载：IKAnalyzer3.1.1稳定版完整包.rar

更多详细请参看《IKAnalyzer中文分词器V3.1.1使用手册.pdf》

分享到：

哈哈，美食是生活的重要组成啊，自己烹调鲍 ... | 悟透JavaScript

2009-08-05 00:47
浏览 4904
评论(46)
论坛回复 / 浏览 (46 / 14414)
查看更多

26 楼 linliangyi2007 2009-08-12

tangfl 写道

IK的处理分为两个部分;
1.对英文的处理，这部分完成是采用了Lucene的 StandardAnalyzer 的分词策略，将数字和字母连接一起。
2.对数词的处理，则是会将数词单独切分。
因此就出现了 a236kitty | 236 |

25 楼 tangfl 2009-08-12

24 楼 andylau8250 2009-08-12

你好! 想請問個問題!
在自訂的辭典中，
是不是英文部份會沒有效果!
因為我在自己的英文辭典中，加入了 "absolute expression"
但是斷詞器還是把它拆成 "absolute" 、 "expression" 兩個了!

想請問，是否斷詞系統沒有特別對英文作匹配處理!
還是你有提供什麼api輔助?

23 楼 linliangyi2007 2009-08-11

tangfl 写道

linliangyi2007 写道

tangfl 写道

http://blog.fulin.org/2009/07/about_analyzer_of_sitesearch.html

稍微作了一个对比，最后选择了你的 ik ，感谢你的辛苦工作和无私分享！

提一个小问题：
compareAnalyzers: (skey) : 等等等等
paoding: (0 ms)
等等 | 等等 | 等等 |
-imdict: (0 ms)
等等 | 等等 |
-----ik: (0 ms)
等等等等 | 等等 | 等等 | 等等 |
-mmseg4j: (0 ms)
等等 | 等等 |

后面三个词是否应该排除一下重复结果呢？

另外，paoding 有自动检测词库更新的功能，ik 是否有这方面的打算？如果没有，我可能就需要自己动手 hack 了

1.关于你上面提到的例子中的3个等等，是不同位置上的，分别是0-2 ； 1-3 ；2-4的，因此不能进行重复排除。IK的算法是采用迭代式搜索，因此，它会检查出从任何位置上开始的词语。

2.IK对词库的管理，个人感觉应该更适合动态更新。因为它提供了词典API，你可以将数据库中的词典表通过API方式，添加到词典中，而不是去修改词典文本，当然你可以使用自己的词典文本，通过自己的动态加载程序读入后，再通过API向IK添加，这样的设计是不是比直接修改IK来的耦合度更低？！

我已经实现了在一个检测线程中调用 api
public static void loadExtendWords(List<String> extWords)
但是我不确定这个 api 是线程安全的。
当更新 ik 的词典的时候，对 IKAnalyzer 实例的调用是否需要额外的锁？

IK词典API中的更新是线程安全的

22 楼 tangfl 2009-08-11

linliangyi2007 写道

tangfl 写道

21 楼 linliangyi2007 2009-08-11

tangfl 写道

20 楼 tangfl 2009-08-11

19 楼 linliangyi2007 2009-08-11

poppk 写道

目前带词性分析标注的只有中科院ictclas衍生出来的几个开源版本，java的只有ictclas4j，ictclas4j还是半拉子工程，bug很多，貌似作者也小一年不更新了。
楼主可以考虑把这个加入进来，就可以在目前几个主流的开源中文分词包中脱颖而出了。

老兄看了一直很关心分词啊，居然被你发现有一年没更新了，呵呵

18 楼 poppk 2009-08-11

17 楼 linliangyi2007 2009-08-07

smilerain 写道

一直用的2.0 其实也没你说的这么不好用。
2.0的我改了一下接口。自己封装了一下，一直感觉还是很好用的。

3.0 还没好好用，过几天下来用。先不评价了

如果你使用Lucene的话，3.0的IKQueryParser，应该会让你觉得好用的

16 楼 linliangyi2007 2009-08-07

smilerain 写道

哈哈，任何一个版本，能对你有用就好了。根据自己的需要自由选择啊。

15 楼 smilerain 2009-08-07

14 楼 caiceclb 2009-08-07

一直没用到，不过还是要下了保存以便不时之需，希望lz有新版就更新啊

13 楼 ansjsun 2009-08-06

呵呵我来看你了..这么快啊..没听你说哈..加油哦...
我决定把我那个也发出来啦...

12 楼 linliangyi2007 2009-08-06

smilerain 写道

先赞一个,不过看了上边的分词,还是先用2.0的.

程序规划的是好了,数度是快了.
但是运行得到的结果.也很重要.

优化上希望能在一个好的分词结果上优化. 不然还是比较遗憾.

3.0是针对搜索优化的，2.0是好看不好用的，呵呵。

11 楼 01404421 2009-08-06

半年多了一直在学习和使用，感谢LZ这种精神，我们都该向你学习

10 楼 smilerain 2009-08-06

9 楼 linliangyi2007 2009-08-05

whaosoft 写道

你更新的比我学的还快了我忙的很在看看你这更新的那么快我那儿还是老版本的

有了svn和junit，可以自己做简单的每日构建了，而且项目不大，因此更新会简单些。

8 楼 whaosoft 2009-08-05

你更新的比我学的还快了我忙的很在看看你这更新的那么快我那儿还是老版本的

7 楼 andylau8250 2009-08-05

瞭解了!
謝謝樓主的回覆!

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论