发表时间:2010-10-10
jiangduxi 写道 是1亿条数据。个人觉得用算法不好想的话,直接用lucene来实现。
lucene里面难道就没有算法? 光拿来用的时候最好想想里面的内部机制 |
|
发表时间:2010-10-10
yiihsia 写道 jiangduxi 写道 是1亿条数据。个人觉得用算法不好想的话,直接用lucene来实现。
lucene里面难道就没有算法? 光拿来用的时候最好想想里面的内部机制 倒排索引: 先进行分词 再把词与词所在行数,开头所在的列数 存成二维数组。 词可以全遍历匹配。 正则的核心算法是KMP? |
|
发表时间:2010-10-10
这个使用lucene好像不太好吧。
个人感觉分词难以实现,像楼主提出的aa,或ac本身好像不是英语单词或其他语言单词,这个Analyzer难以实现,如果人工构建词库,好像也没什么规律,如果就是a、b、c...感觉有点大材小用了。 |
|
发表时间:2010-10-11
phz50 写道 这个使用lucene好像不太好吧。
个人感觉分词难以实现,像楼主提出的aa,或ac本身好像不是英语单词或其他语言单词,这个Analyzer难以实现,如果人工构建词库,好像也没什么规律,如果就是a、b、c...感觉有点大材小用了。 / . ? = &都是可以作为分词标志的 |
|
发表时间:2010-10-11
学习了.
分词多了的话还是比较麻烦.其中还包含很多中文之类的字符. 而且输入查询条件的多半不是包含语义的单词 |
|
发表时间:2010-10-11
ouchxp 写道 学习了.
分词多了的话还是比较麻烦.其中还包含很多中文之类的字符. 而且输入查询条件的多半不是包含语义的单词 我也觉得分词比较麻烦,比如hh的博客blog.sina.com.cn/twocold, 在ff中如果输入cold也可以找到, 之前说要建立索引,好像还要结合后缀树来处理才行,有没有高人有想法的再指教下 |