论坛首页 综合技术论坛

基于文本比较的搜索是否可行?

浏览 2779 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2009-08-19  

基于文本比较是相对于现在基于分词索引的搜索而说的,使用文本比较算法对要搜索的内容和关键字进行比较,找出最大匹配率,根据最大匹配进行排序。返回一个结果列表。中间避免了分词的过程。可能的问题:

1、性能问题。在内容数量非常庞大的时候,文本比较算法消耗的时间可能比较多。我所想到的解决方案是利用分布式计算,将内容分布在不同的地方同时进行计算。所以剩下的就是比较算法瓶颈的问题,就是内容有多大的时候才需要分布。相对于分词索引的搜索算法的性能,我认为这个是差不多的。分词索引在索引非常庞大的时候也需要分布吧,具体本人没有处理过非常大的数据量。只使用比较算法处理过10W的级别的词库,每个词为3-50个字左右。关键字为2-6个字,此时比较起来大约只花费了15-40毫秒。

2、准确率的问题。准确率取决于最大匹配率的算法十分正确,如果正确则与此相关的应该都能找出来,而分词索引则取决于分词算法的准确率。我认为比较算法的准确率还是比分词的准确率高的。

 

如还有其他问题希望大家补充。大家讨论下这个算法的可行性,欢迎拍砖。

   发表时间:2009-08-19  
三年前毕设题目是中文搜索引擎,纯粹理论派,程序和算法太烂没法实践。

0 请登录后投票
   发表时间:2009-08-19  
好像可以,
据说是叫hash一派?
0 请登录后投票
   发表时间:2009-08-19  
mikeandmore 写道
好像可以,
据说是叫hash一派?

哦?可以提供资料看下吗?谢谢
0 请登录后投票
   发表时间:2009-08-21  
phyeas 写道
mikeandmore 写道
好像可以,
据说是叫hash一派?

哦?可以提供资料看下吗?谢谢

我只听过一个讲座这么说的。
说会给一些文本做hash,hash成图像,然后利用图像算法的相似度来表明文章的相似度。
当然这种hashfunc很难找。

可以看看www阿。。。这种东西应该都在www上的。。。
0 请登录后投票
   发表时间:2009-09-14  
LZ做这个最高级别是研究一下Suffix Tree的东西。

我之前在学校时帮老师做这个研究的,基本上很多搜索引擎都是引入这个东西。
0 请登录后投票
   发表时间:2010-05-10  
对于海量数据而言,可行性不大。查询关键字需要对每篇文档进行比较,这就需要把所有文档常驻内存,这需要多大的内存资源呀。相比之下,倒排索引表就小的多了。
0 请登录后投票
   发表时间:2010-05-11  
分词是很大的目的是为了减少内存使用。 如果按字符倒排, 也能出不错的结果的。 可是难以对付庞大的内存, 全文比较, 基本不科学。
0 请登录后投票
   发表时间:2010-05-11  
1.文本比较如何处理多关键字搜索?难道也文本比较。如果文本过多,效率恐怕会有问题。如果只是玩玩到没什么。
2.准确率 这个问题,如果是搜索引擎 我个人觉得不十分准确要好于十分准确。

所以如果这个算法 如果是做一个家庭作业感觉还过得去。
一般应用可能行不通。
0 请登录后投票
论坛首页 综合技术版

跳转论坛:
Global site tag (gtag.js) - Google Analytics