阅读 12733 次
发表时间:2010-10-10
jiangduxi 写道
是1亿条数据。个人觉得用算法不好想的话,直接用lucene来实现。

lucene里面难道就没有算法?

光拿来用的时候最好想想里面的内部机制
发表时间:2010-10-10
yiihsia 写道
jiangduxi 写道
是1亿条数据。个人觉得用算法不好想的话,直接用lucene来实现。

lucene里面难道就没有算法?

光拿来用的时候最好想想里面的内部机制

倒排索引:

先进行分词

再把词与词所在行数,开头所在的列数 存成二维数组。
词可以全遍历匹配。

正则的核心算法是KMP?
发表时间:2010-10-10
这个使用lucene好像不太好吧。

个人感觉分词难以实现,像楼主提出的aa,或ac本身好像不是英语单词或其他语言单词,这个Analyzer难以实现,如果人工构建词库,好像也没什么规律,如果就是a、b、c...感觉有点大材小用了。
发表时间:2010-10-11
phz50 写道
这个使用lucene好像不太好吧。

个人感觉分词难以实现,像楼主提出的aa,或ac本身好像不是英语单词或其他语言单词,这个Analyzer难以实现,如果人工构建词库,好像也没什么规律,如果就是a、b、c...感觉有点大材小用了。

/ . ? = &都是可以作为分词标志的
发表时间:2010-10-11
学习了.
分词多了的话还是比较麻烦.其中还包含很多中文之类的字符.
而且输入查询条件的多半不是包含语义的单词
发表时间:2010-10-11
ouchxp 写道
学习了.
分词多了的话还是比较麻烦.其中还包含很多中文之类的字符.
而且输入查询条件的多半不是包含语义的单词


我也觉得分词比较麻烦,比如hh的博客blog.sina.com.cn/twocold, 在ff中如果输入cold也可以找到, 之前说要建立索引,好像还要结合后缀树来处理才行,有没有高人有想法的再指教下
Global site tag (gtag.js) - Google Analytics