论坛首页 Java企业应用论坛

全文检索中近义词、关联词的解决方案

浏览 22843 次
该帖已经被评为良好帖
作者 正文
   发表时间:2008-12-24   最后修改:2008-12-24
确实,中文分词,不是那么简单的,这个和社会发展对语言的认识也有关系。不过,一般够用就行
0 请登录后投票
   发表时间:2008-12-24  

支持3

 

0 请登录后投票
   发表时间:2008-12-25  
支持你 不过做这个真的很麻烦~
0 请登录后投票
   发表时间:2008-12-25  
sdh5724 写道
楼上的回答很精确。
关于trie, 你去看我的blog吧。 paoding的算法完全可以通过我提供的的代码取代掉。  算法密集的应用, 如果仅仅是访问不高的网站, 其实lucence就足够了。lucence做个比较大规模的论坛还是没有问题的, 但是中文分词,相关性比较困难。

不知道你的网站的访问量高不高, 如果很多高的话, 你的办法还真是行不通。



感谢你的分享,其实我所说的三种方式解决方案是针对一般的全文检索应用得出的,由于不是做特别专业的检索,大数据量的情况还没有考虑到。我现在采用的是第3种法做关键词提示,我觉得一般的应用这种方式应该能够支持
0 请登录后投票
   发表时间:2008-12-25  
可以看看wordnet
斯坦福搞的
0 请登录后投票
   发表时间:2008-12-27  
可参考trie, btree。 我们做的应用, 对上百万的热门搜索词语中,毫秒级的时间内给出前缀关联词。
0 请登录后投票
   发表时间:2008-12-28  
euler13 写道
可参考trie, btree。 我们做的应用, 对上百万的热门搜索词语中,毫秒级的时间内给出前缀关联词。


如果是trie实现的, 应该跟词汇的数量关系不大。
0 请登录后投票
   发表时间:2009-01-16  
为什么不用lucene?
0 请登录后投票
   发表时间:2009-01-22  
mikel 写道
为什么不用lucene?


你在说什么?
0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics