论坛首页 Java企业应用论坛

自己写的一个基于词库的lucene分词程序--ThesaurusAnalyzer

浏览 39900 次
该帖已经被评为精华帖
作者 正文
   发表时间:2007-03-11  
真强,希望看到源码,我一直在设想如何使分词系统能够加入统计功能
0 请登录后投票
   发表时间:2007-03-11  
jasongreen 写道
真强,希望看到源码,我一直在设想如何使分词系统能够加入统计功能


robbin 写道
分词效果很不错,不过貌似你的代码还没有放出来,很期待你的分词算法


谢谢两位,我最近在忙装修,现在心绪很乱,无法静心整理思路,以后详细介绍,
0 请登录后投票
   发表时间:2007-03-12  
caocao 写道
jasongreen 写道
真强,希望看到源码,我一直在设想如何使分词系统能够加入统计功能


robbin 写道
分词效果很不错,不过貌似你的代码还没有放出来,很期待你的分词算法


谢谢两位,我最近在忙装修,现在心绪很乱,无法静心整理思路,以后详细介绍,


感觉两位的分词算法的非常的棒!
前端时间在javaeye还有一个Paoding的分词算法,效果也不错!
不知在没有没人牵头做个分词算法的开源项目,大家也能够集思广益,把这个中文的分词算法做好!这个建议不知道robbin是不是感兴趣?
还有就是javaeye在国内是非常活跃的java社区,不知道到能不能做个java开源项目的宿主?
0 请登录后投票
   发表时间:2007-03-12  
wuyunlong 写道
caocao 写道
jasongreen 写道
真强,希望看到源码,我一直在设想如何使分词系统能够加入统计功能


robbin 写道
分词效果很不错,不过貌似你的代码还没有放出来,很期待你的分词算法


谢谢两位,我最近在忙装修,现在心绪很乱,无法静心整理思路,以后详细介绍,


感觉两位的分词算法的非常的棒!
前端时间在javaeye还有一个Paoding的分词算法,效果也不错!
不知在没有没人牵头做个分词算法的开源项目,大家也能够集思广益,把这个中文的分词算法做好!这个建议不知道robbin是不是感兴趣?
还有就是javaeye在国内是非常活跃的java社区,不知道到能不能做个java开源项目的宿主?


hosting的地方多的是,Google Code, Java.net,Sourceforge.net,......哪个不是功能强大,影响力广泛的OpenSource Hosting网站呢?JavaEye能集中有限的资源把社区做好就不错了。再说,一个项目源代码放在哪里有那么重要吗?就算把项目放在Google code,只要在JavaEye能够召集一群人一起做开发,宣传和推广,效果不是一样?

我接下来一两个月会投入时间学习全文检索和中文分词,不过我的目标是用ruby写一遍分词算法,给JavaEye3.0使用。所以没有多少精力组织Java开源分词算法项目。有兴趣的可以自己组织嘛。
0 请登录后投票
   发表时间:2007-03-12  
字库中每个词对应有一个相应的权重,这个做起来就要复杂点了。以前做的也只是根据词库来切分,对于一般的也够用了
0 请登录后投票
   发表时间:2007-03-14  
又多一个比较的方案了,我的个分词结果的是,整理好了发上来一起进步。

我/ 还/ 清晰/ 地/ 记得/ 我们/ 坐/ 在/ 江边/ 聊天/ 的/ 情境/
0 请登录后投票
   发表时间:2007-03-14  
我的分词做出来是:我还 清晰 地 记得 我们 坐在 江边 聊天 的 情境
使用lucene可以把地和的过滤。
0 请登录后投票
   发表时间:2007-03-16  
谢谢LZ的共享,有空了研究研究


robbin 写道
我接下来一两个月会投入时间学习全文检索和中文分词,不过我的目标是用ruby写一遍分词算法,给JavaEye3.0使用。所以没有多少精力组织Java开源分词算法项目。有兴趣的可以自己组织嘛。


我本来在项目里想用ferret的,但发现它不支持中文分词,自己又没工夫去写,所以用lucene做了一个搜索引擎,用rjb在rails里对java做的引擎进行调用.
0 请登录后投票
   发表时间:2007-03-18  
good
0 请登录后投票
   发表时间:2007-03-19  
谢谢了!
0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics