锁定老帖子 主题:全文检索中近义词、关联词的解决方案
该帖已经被评为良好帖
|
|
---|---|
作者 | 正文 |
发表时间:2008-12-24
最后修改:2008-12-24
确实,中文分词,不是那么简单的,这个和社会发展对语言的认识也有关系。不过,一般够用就行
|
|
返回顶楼 | |
发表时间:2008-12-24
支持3
|
|
返回顶楼 | |
发表时间:2008-12-25
支持你 不过做这个真的很麻烦~
|
|
返回顶楼 | |
发表时间:2008-12-25
sdh5724 写道 楼上的回答很精确。
关于trie, 你去看我的blog吧。 paoding的算法完全可以通过我提供的的代码取代掉。 算法密集的应用, 如果仅仅是访问不高的网站, 其实lucence就足够了。lucence做个比较大规模的论坛还是没有问题的, 但是中文分词,相关性比较困难。 不知道你的网站的访问量高不高, 如果很多高的话, 你的办法还真是行不通。 感谢你的分享,其实我所说的三种方式解决方案是针对一般的全文检索应用得出的,由于不是做特别专业的检索,大数据量的情况还没有考虑到。我现在采用的是第3种法做关键词提示,我觉得一般的应用这种方式应该能够支持 |
|
返回顶楼 | |
发表时间:2008-12-25
可以看看wordnet
斯坦福搞的 |
|
返回顶楼 | |
发表时间:2008-12-27
可参考trie, btree。 我们做的应用, 对上百万的热门搜索词语中,毫秒级的时间内给出前缀关联词。
|
|
返回顶楼 | |
发表时间:2008-12-28
euler13 写道 可参考trie, btree。 我们做的应用, 对上百万的热门搜索词语中,毫秒级的时间内给出前缀关联词。
如果是trie实现的, 应该跟词汇的数量关系不大。 |
|
返回顶楼 | |
发表时间:2009-01-16
为什么不用lucene?
|
|
返回顶楼 | |
发表时间:2009-01-22
mikel 写道 为什么不用lucene?
你在说什么? |
|
返回顶楼 | |