基于文本比较的搜索是否可行？

phyeas

浏览: 164940 次
性别:
来自: 珠海

最近访客更多访客>>

phoenixpj

ynsluhan

黑人红花侠

david_way

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

日常杂记

搜索引擎算法

基于文本比较是相对于现在基于分词索引的搜索而说的，使用文本比较算法对要搜索的内容和关键字进行比较，找出最大匹配率，根据最大匹配进行排序。返回一个结果列表。中间避免了分词的过程。可能的问题：

1、性能问题。在内容数量非常庞大的时候，文本比较算法消耗的时间可能比较多。我所想到的解决方案是利用分布式计算，将内容分布在不同的地方同时进行计算。所以剩下的就是比较算法瓶颈的问题，就是内容有多大的时候才需要分布。相对于分词索引的搜索算法的性能，我认为这个是差不多的。分词索引在索引非常庞大的时候也需要分布吧，具体本人没有处理过非常大的数据量。只使用比较算法处理过10W的级别的词库，每个词为3－50个字左右。关键字为2-6个字，此时比较起来大约只花费了15－40毫秒。

2、准确率的问题。准确率取决于最大匹配率的算法十分正确，如果正确则与此相关的应该都能找出来，而分词索引则取决于分词算法的准确率。我认为比较算法的准确率还是比分词的准确率高的。

如还有其他问题希望大家补充。大家讨论下这个算法的可行性，欢迎拍砖。

分享到：

基于文本比较的搜索－ C语言实现(有注释 ... | 文件版本管理-文件合并

2009-08-19 13:00
浏览 1696
评论(9)
论坛回复 / 浏览 (8 / 2784)
分类:编程语言
查看更多

9 楼 zhangdp_neu 2010-05-11

1.文本比较如何处理多关键字搜索？难道也文本比较。如果文本过多，效率恐怕会有问题。如果只是玩玩到没什么。
2.准确率这个问题，如果是搜索引擎我个人觉得不十分准确要好于十分准确。

所以如果这个算法如果是做一个家庭作业感觉还过得去。
一般应用可能行不通。

8 楼 sdh5724 2010-05-11

分词是很大的目的是为了减少内存使用。如果按字符倒排，也能出不错的结果的。可是难以对付庞大的内存，全文比较，基本不科学。

7 楼 Heart.X.Raid 2010-05-10

对于海量数据而言，可行性不大。查询关键字需要对每篇文档进行比较，这就需要把所有文档常驻内存，这需要多大的内存资源呀。相比之下，倒排索引表就小的多了。

6 楼 lonelybug 2009-09-14

LZ做这个最高级别是研究一下Suffix Tree的东西。

我之前在学校时帮老师做这个研究的，基本上很多搜索引擎都是引入这个东西。

5 楼 mikeandmore 2009-08-21

phyeas 写道

mikeandmore 写道

好像可以，
据说是叫hash一派？

哦？可以提供资料看下吗？谢谢

我只听过一个讲座这么说的。
说会给一些文本做hash，hash成图像，然后利用图像算法的相似度来表明文章的相似度。
当然这种hashfunc很难找。

可以看看www阿。。。这种东西应该都在www上的。。。

4 楼 phyeas 2009-08-19

mikeandmore 写道

好像可以，
据说是叫hash一派？

哦？可以提供资料看下吗？谢谢

3 楼 mikeandmore 2009-08-19

好像可以，
据说是叫hash一派？

2 楼 lw223 2009-08-19

三年前毕设题目是中文搜索引擎，纯粹理论派，程序和算法太烂没法实践。

1 楼 lw223 2009-08-19

拍一板儿砖，闪人

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论