庖丁中文分词示例应用paoding.net已上线使用

全部 Hibernate Spring Struts iBATIS 企业应用 Lucene SOA Java综合 Tomcat 设计模式 OO JBoss

浏览 8194 次

锁定老帖子主题：庖丁中文分词示例应用paoding.net已上线使用精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者	正文
imjl 等级: 性别: 文章: 678 积分: 166 来自: 上海	发表时间：2007-10-26 来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器。 1. 正向全切分算法，42万汉字字符/每秒的处理能力（IBM ThinkPad 酷睿I 1.6G 1G内存 WinXP） 2. 对数量词、地名、路名的优化处理 3. 对未知词汇采用自识别结合二元切分算法，确保搜索召回率正向全切分分词器：org.mira.lucene.analysis.IK_CAnalyzer(适合建索引时使用) 正向最大全切分分词器：org.mira.lucene.analysis.MIK_CAnalyzer(适合用户输入检索时使用) 这是我群里的一个人上传的附件介绍。你可以就这个analyzer和你的比较下。。 link: http://lucene-group.group.iteye.com/topics/download/609d3434-e6bf-4d78-87e2-8dd15ad74524 你的我有空就会测试，，加油哦支持。
返回顶楼	回帖地址 0 0 请登录后投票

Qieqie 等级: 性别: 文章: 515 积分: 698 来自: 北京	发表时间：2007-10-26 说了不一定相信，他是我兄弟，我们很经常在一起交流各种看法。先谢谢支持。(然后开始严肃) 鼓励公开发帖/发向邮件列表提出对paoding或对其他人有益的质疑、疑问、球助、错误报告、建议(包括算法建议)。其它的，比如：情绪类的(如顶，支持，谢谢，不看好之类的)，私人信息类，询问的等与以上加粗标志的类别不大的站内消息，或私人邮件沟通会更好。 javaeye不让发求zhu，以上特写为“球助”--
返回顶楼	回帖地址 0 0 请登录后投票

imjl 等级: 性别: 文章: 678 积分: 166 来自: 上海	发表时间：2007-10-27 呵呵，我一般测试过了才会发表我自己看法。不会人云我亦云。我也不会轻易加入邮件列表，我每天处理5-6个邮件列表。我就看到他发了，还没做过测试，但他的数据看上去不错。所以复制过来。
返回顶楼	回帖地址 0 0 请登录后投票

bluepoint 等级: 初级会员性别: 文章: 17 积分: 30 来自: 上海	发表时间：2007-11-11 特想了解下数据采集是怎么运作的!
返回顶楼	回帖地址 0 0 请登录后投票

chenlb 等级: 性别: 文章: 140 积分: 143 来自: 杭州	发表时间：2008-03-10 不错,个人觉得比je好,支持
返回顶楼	回帖地址 0 0 请登录后投票

论坛首页 → Java企业应用版

跳转论坛: