论坛首页 招聘求职论坛

模糊查询算法

浏览 12735 次
精华帖 (0) :: 良好帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2010-10-10  
jiangduxi 写道
是1亿条数据。个人觉得用算法不好想的话,直接用lucene来实现。

lucene里面难道就没有算法?

光拿来用的时候最好想想里面的内部机制
0 请登录后投票
   发表时间:2010-10-10   最后修改:2010-10-10
yiihsia 写道
jiangduxi 写道
是1亿条数据。个人觉得用算法不好想的话,直接用lucene来实现。

lucene里面难道就没有算法?

光拿来用的时候最好想想里面的内部机制

倒排索引:

先进行分词

再把词与词所在行数,开头所在的列数 存成二维数组。
词可以全遍历匹配。

正则的核心算法是KMP?
0 请登录后投票
   发表时间:2010-10-10  
这个使用lucene好像不太好吧。

个人感觉分词难以实现,像楼主提出的aa,或ac本身好像不是英语单词或其他语言单词,这个Analyzer难以实现,如果人工构建词库,好像也没什么规律,如果就是a、b、c...感觉有点大材小用了。
0 请登录后投票
   发表时间:2010-10-11  
phz50 写道
这个使用lucene好像不太好吧。

个人感觉分词难以实现,像楼主提出的aa,或ac本身好像不是英语单词或其他语言单词,这个Analyzer难以实现,如果人工构建词库,好像也没什么规律,如果就是a、b、c...感觉有点大材小用了。

/ . ? = &都是可以作为分词标志的
0 请登录后投票
   发表时间:2010-10-11  
学习了.
分词多了的话还是比较麻烦.其中还包含很多中文之类的字符.
而且输入查询条件的多半不是包含语义的单词
0 请登录后投票
   发表时间:2010-10-11  
ouchxp 写道
学习了.
分词多了的话还是比较麻烦.其中还包含很多中文之类的字符.
而且输入查询条件的多半不是包含语义的单词


我也觉得分词比较麻烦,比如hh的博客blog.sina.com.cn/twocold, 在ff中如果输入cold也可以找到, 之前说要建立索引,好像还要结合后缀树来处理才行,有没有高人有想法的再指教下
0 请登录后投票
论坛首页 招聘求职版

跳转论坛:
Global site tag (gtag.js) - Google Analytics