模糊查询算法 - 面试秘籍

阅读 12733 次

主题：模糊查询算法
yiihsia	发表时间：2010-10-10 jiangduxi 写道是1亿条数据。个人觉得用算法不好想的话，直接用lucene来实现。 lucene里面难道就没有算法？光拿来用的时候最好想想里面的内部机制
抛出异常的爱	发表时间：2010-10-10 yiihsia 写道 jiangduxi 写道是1亿条数据。个人觉得用算法不好想的话，直接用lucene来实现。 lucene里面难道就没有算法？光拿来用的时候最好想想里面的内部机制倒排索引: 先进行分词再把词与词所在行数，开头所在的列数存成二维数组。词可以全遍历匹配。正则的核心算法是KMP？
phz50	发表时间：2010-10-10 这个使用lucene好像不太好吧。个人感觉分词难以实现，像楼主提出的aa，或ac本身好像不是英语单词或其他语言单词，这个Analyzer难以实现，如果人工构建词库，好像也没什么规律，如果就是a、b、c...感觉有点大材小用了。
抛出异常的爱	发表时间：2010-10-11 phz50 写道这个使用lucene好像不太好吧。个人感觉分词难以实现，像楼主提出的aa，或ac本身好像不是英语单词或其他语言单词，这个Analyzer难以实现，如果人工构建词库，好像也没什么规律，如果就是a、b、c...感觉有点大材小用了。 / . ? = &都是可以作为分词标志的
ouchxp	发表时间：2010-10-11 学习了. 分词多了的话还是比较麻烦.其中还包含很多中文之类的字符. 而且输入查询条件的多半不是包含语义的单词
diunei	发表时间：2010-10-11 ouchxp 写道学习了. 分词多了的话还是比较麻烦.其中还包含很多中文之类的字符. 而且输入查询条件的多半不是包含语义的单词我也觉得分词比较麻烦，比如hh的博客blog.sina.com.cn/twocold, 在ff中如果输入cold也可以找到，之前说要建立索引，好像还要结合后缀树来处理才行，有没有高人有想法的再指教下