论坛首页 Java企业应用论坛

应网友需求发布IKAnalyzer3.1.1GA2

浏览 14418 次
精华帖 (8) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2009-08-14  
IK3的词典真丰富,几乎包含了汉语中所有的词和习语,我有点好奇:楼主的词典应该不是自己一个一个写上去的,那从哪里得来的?
0 请登录后投票
   发表时间:2009-08-14  
rongxh7 写道
IK3的词典真丰富,几乎包含了汉语中所有的词和习语,我有点好奇:楼主的词典应该不是自己一个一个写上去的,那从哪里得来的?


词典的来源有n个地方,多是朋友从不同渠道搜集的,因此良莠不齐,需要整理的,而且相当的辛苦啊。整理起来比写分词器本身痛苦多了
0 请登录后投票
   发表时间:2009-08-15  
poppk 写道
linliangyi2007 写道
poppk 写道
目前带词性分析标注的只有中科院ictclas衍生出来的几个开源版本,java的只有ictclas4j,ictclas4j还是半拉子工程,bug很多,貌似作者也小一年不更新了。
楼主可以考虑把这个加入进来,就可以在目前几个主流的开源中文分词包中脱颖而出了。


老兄看了一直很关心分词啊,居然被你发现有一年没更新了,呵呵


最近在做搜索这块的工作,所以比较关心。 

很多场合需要对关键字进行词性分析,所以对这个功能点比较关注了。

否则你这个和庖丁有什么区别呢?  效率,速度,准确率?


要声明一下,IKAnalyzer是比paoding更早问世的一个中文分词器,因为它的存在不需要和paoding做比较吧,何况特性还是很明显的。
0 请登录后投票
   发表时间:2009-08-17  
楼主,有没有试过,把词典记录保存在数据库中,用读数据库来代码读文件,两者速度怎么样?
0 请登录后投票
   发表时间:2009-08-17  
rongxh7 写道
楼主,有没有试过,把词典记录保存在数据库中,用读数据库来代码读文件,两者速度怎么样?


没试过,不用应该不会太慢,再说了,在服务器启动时,花上10秒中读取词典,应该是能够忍受的问题
0 请登录后投票
   发表时间:2009-08-18  
楼主啊,包中没有说明,系统需求啊!
0 请登录后投票
   发表时间:2009-08-18  
xyf_84 写道
楼主啊,包中没有说明,系统需求啊!

系统需求? 没什么系统需求啊,你的服务器内存不至于小于64M吧
0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics