论坛首页 Java企业应用论坛

庖丁中文分词示例应用paoding.net已上线使用

浏览 8184 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2007-10-26  
来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器。 1. 正向全切分算法,42万汉字字符/每秒的处理能力(IBM ThinkPad 酷睿I 1.6G 1G内存 WinXP) 2. 对数量词、地名、路名的优化处理 3. 对未知词汇采用自识别结合二元切分算法,确保搜索召回率正向全切分分词器:org.mira.lucene.analysis.IK_CAnalyzer(适合建索引时使用) 正向最大全切分分词器:org.mira.lucene.analysis.MIK_CAnalyzer(适合用户输入检索时使用)


这是我群里的一个人上传的附件介绍。

你可以就这个analyzer和你的比较下。。


link: http://lucene-group.group.iteye.com/topics/download/609d3434-e6bf-4d78-87e2-8dd15ad74524


你的我有空就会测试,,加油哦支持。
0 请登录后投票
   发表时间:2007-10-26  
说了不一定相信,他是我兄弟,我们很经常在一起交流各种看法。

先谢谢支持。(然后开始严肃)

鼓励公开发帖/发向邮件列表提出对paoding或对其他人有益的质疑、疑问、球助、错误报告、建议(包括算法建议)
其它的,比如:情绪类的(如顶,支持,谢谢,不看好之类的),私人信息类,询问的等与以上加粗标志的类别不大的
站内消息,或私人邮件沟通会更好。


javaeye不让发求zhu,以上特写为“球助”--
0 请登录后投票
   发表时间:2007-10-27  
呵呵,我一般测试过了才会发表我自己看法。不会人云我亦云。

我也不会轻易加入邮件列表,我每天处理5-6个邮件列表。


我就看到他发了,还没做过测试,但他的数据看上去不错。所以复制过来。


0 请登录后投票
   发表时间:2007-11-11  
特想了解下数据采集是怎么运作的!
0 请登录后投票
   发表时间:2008-03-10  
不错,个人觉得比je好,支持
0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics