该帖已经被评为精华帖
|
|
---|---|
作者 | 正文 |
发表时间:2007-03-11
真强,希望看到源码,我一直在设想如何使分词系统能够加入统计功能
|
|
返回顶楼 | |
发表时间:2007-03-11
jasongreen 写道 真强,希望看到源码,我一直在设想如何使分词系统能够加入统计功能
robbin 写道 分词效果很不错,不过貌似你的代码还没有放出来,很期待你的分词算法
谢谢两位,我最近在忙装修,现在心绪很乱,无法静心整理思路,以后详细介绍, |
|
返回顶楼 | |
发表时间:2007-03-12
caocao 写道 jasongreen 写道 真强,希望看到源码,我一直在设想如何使分词系统能够加入统计功能
robbin 写道 分词效果很不错,不过貌似你的代码还没有放出来,很期待你的分词算法
谢谢两位,我最近在忙装修,现在心绪很乱,无法静心整理思路,以后详细介绍, 感觉两位的分词算法的非常的棒! 前端时间在javaeye还有一个Paoding的分词算法,效果也不错! 不知在没有没人牵头做个分词算法的开源项目,大家也能够集思广益,把这个中文的分词算法做好!这个建议不知道robbin是不是感兴趣? 还有就是javaeye在国内是非常活跃的java社区,不知道到能不能做个java开源项目的宿主? |
|
返回顶楼 | |
发表时间:2007-03-12
wuyunlong 写道 caocao 写道 jasongreen 写道 真强,希望看到源码,我一直在设想如何使分词系统能够加入统计功能
robbin 写道 分词效果很不错,不过貌似你的代码还没有放出来,很期待你的分词算法
谢谢两位,我最近在忙装修,现在心绪很乱,无法静心整理思路,以后详细介绍, 感觉两位的分词算法的非常的棒! 前端时间在javaeye还有一个Paoding的分词算法,效果也不错! 不知在没有没人牵头做个分词算法的开源项目,大家也能够集思广益,把这个中文的分词算法做好!这个建议不知道robbin是不是感兴趣? 还有就是javaeye在国内是非常活跃的java社区,不知道到能不能做个java开源项目的宿主? hosting的地方多的是,Google Code, Java.net,Sourceforge.net,......哪个不是功能强大,影响力广泛的OpenSource Hosting网站呢?JavaEye能集中有限的资源把社区做好就不错了。再说,一个项目源代码放在哪里有那么重要吗?就算把项目放在Google code,只要在JavaEye能够召集一群人一起做开发,宣传和推广,效果不是一样? 我接下来一两个月会投入时间学习全文检索和中文分词,不过我的目标是用ruby写一遍分词算法,给JavaEye3.0使用。所以没有多少精力组织Java开源分词算法项目。有兴趣的可以自己组织嘛。 |
|
返回顶楼 | |
发表时间:2007-03-12
字库中每个词对应有一个相应的权重,这个做起来就要复杂点了。以前做的也只是根据词库来切分,对于一般的也够用了
|
|
返回顶楼 | |
发表时间:2007-03-14
又多一个比较的方案了,我的个分词结果的是,整理好了发上来一起进步。
我/ 还/ 清晰/ 地/ 记得/ 我们/ 坐/ 在/ 江边/ 聊天/ 的/ 情境/ |
|
返回顶楼 | |
发表时间:2007-03-14
我的分词做出来是:我还 清晰 地 记得 我们 坐在 江边 聊天 的 情境
使用lucene可以把地和的过滤。 |
|
返回顶楼 | |
发表时间:2007-03-16
谢谢LZ的共享,有空了研究研究
robbin 写道 我接下来一两个月会投入时间学习全文检索和中文分词,不过我的目标是用ruby写一遍分词算法,给JavaEye3.0使用。所以没有多少精力组织Java开源分词算法项目。有兴趣的可以自己组织嘛。
我本来在项目里想用ferret的,但发现它不支持中文分词,自己又没工夫去写,所以用lucene做了一个搜索引擎,用rjb在rails里对java做的引擎进行调用. |
|
返回顶楼 | |
发表时间:2007-03-18
good
|
|
返回顶楼 | |
发表时间:2007-03-19
谢谢了!
|
|
返回顶楼 | |