精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2007-10-26
来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器。 1. 正向全切分算法,42万汉字字符/每秒的处理能力(IBM ThinkPad 酷睿I 1.6G 1G内存 WinXP) 2. 对数量词、地名、路名的优化处理 3. 对未知词汇采用自识别结合二元切分算法,确保搜索召回率正向全切分分词器:org.mira.lucene.analysis.IK_CAnalyzer(适合建索引时使用) 正向最大全切分分词器:org.mira.lucene.analysis.MIK_CAnalyzer(适合用户输入检索时使用)
这是我群里的一个人上传的附件介绍。 你可以就这个analyzer和你的比较下。。 link: http://lucene-group.group.iteye.com/topics/download/609d3434-e6bf-4d78-87e2-8dd15ad74524 你的我有空就会测试,,加油哦支持。 |
|
返回顶楼 | |
发表时间:2007-10-26
说了不一定相信,他是我兄弟,我们很经常在一起交流各种看法。
先谢谢支持。(然后开始严肃) 鼓励公开发帖/发向邮件列表提出对paoding或对其他人有益的质疑、疑问、球助、错误报告、建议(包括算法建议)。 其它的,比如:情绪类的(如顶,支持,谢谢,不看好之类的),私人信息类,询问的等与以上加粗标志的类别不大的 站内消息,或私人邮件沟通会更好。 javaeye不让发求zhu,以上特写为“球助”-- ![]() |
|
返回顶楼 | |
发表时间:2007-10-27
呵呵,我一般测试过了才会发表我自己看法。不会人云我亦云。
我也不会轻易加入邮件列表,我每天处理5-6个邮件列表。 我就看到他发了,还没做过测试,但他的数据看上去不错。所以复制过来。 |
|
返回顶楼 | |
发表时间:2007-11-11
特想了解下数据采集是怎么运作的!
|
|
返回顶楼 | |
发表时间:2008-03-10
不错,个人觉得比je好,支持
|
|
返回顶楼 | |