基于文本比较的搜索是否可行？

全部 Linux 数据库敏捷编程数据结构软件测试项目管理 Oracle 编程综合互联网 Erlang MySQL

浏览 2785 次

锁定老帖子主题：基于文本比较的搜索是否可行？精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者	正文
phyeas 等级: 性别: 文章: 145 积分: 220 来自: 珠海	发表时间：2009-08-19 相关推荐: 一种基于BloomFilter的改进型加密文本模糊搜索机制研究基于文本和语音的双模态情感分析 CRNN-基于序列的（端到端）图像文本识别论文研究-基于GA优化QPSO算法的文本聚类.pdf 评论文本信息对推荐真的有用吗？SIGIR20论文告诉你答案更多相关推荐数据结构基于文本比较是相对于现在基于分词索引的搜索而说的，使用文本比较算法对要搜索的内容和关键字进行比较，找出最大匹配率，根据最大匹配进行排序。返回一个结果列表。中间避免了分词的过程。可能的问题： 1、性能问题。在内容数量非常庞大的时候，文本比较算法消耗的时间可能比较多。我所想到的解决方案是利用分布式计算，将内容分布在不同的地方同时进行计算。所以剩下的就是比较算法瓶颈的问题，就是内容有多大的时候才需要分布。相对于分词索引的搜索算法的性能，我认为这个是差不多的。分词索引在索引非常庞大的时候也需要分布吧，具体本人没有处理过非常大的数据量。只使用比较算法处理过10W的级别的词库，每个词为3－50个字左右。关键字为2-6个字，此时比较起来大约只花费了15－40毫秒。 2、准确率的问题。准确率取决于最大匹配率的算法十分正确，如果正确则与此相关的应该都能找出来，而分词索引则取决于分词算法的准确率。我认为比较算法的准确率还是比分词的准确率高的。如还有其他问题希望大家补充。大家讨论下这个算法的可行性，欢迎拍砖。声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

lw223 等级: 初级会员性别: 文章: 1176 积分: 60 来自: 北京	发表时间：2009-08-19 三年前毕设题目是中文搜索引擎，纯粹理论派，程序和算法太烂没法实践。
返回顶楼	回帖地址 0 0 请登录后投票

mikeandmore 等级: 初级会员性别: 文章: 589 积分: 0 来自: 沈阳	发表时间：2009-08-19 好像可以，据说是叫hash一派？
返回顶楼	回帖地址 0 0 请登录后投票

phyeas 等级: 性别: 文章: 145 积分: 220 来自: 珠海	发表时间：2009-08-19 mikeandmore 写道好像可以，据说是叫hash一派？哦？可以提供资料看下吗？谢谢
返回顶楼	回帖地址 0 0 请登录后投票

mikeandmore 等级: 初级会员性别: 文章: 589 积分: 0 来自: 沈阳	发表时间：2009-08-21 phyeas 写道 mikeandmore 写道好像可以，据说是叫hash一派？哦？可以提供资料看下吗？谢谢我只听过一个讲座这么说的。说会给一些文本做hash，hash成图像，然后利用图像算法的相似度来表明文章的相似度。当然这种hashfunc很难找。可以看看www阿。。。这种东西应该都在www上的。。。
返回顶楼	回帖地址 0 0 请登录后投票

lonelybug 等级: 初级会员性别: 文章: 271 积分: 60	发表时间：2009-09-14 LZ做这个最高级别是研究一下Suffix Tree的东西。我之前在学校时帮老师做这个研究的，基本上很多搜索引擎都是引入这个东西。
返回顶楼	回帖地址 0 0 请登录后投票

Heart.X.Raid 等级: 性别: 文章: 72 积分: 530 来自: 武汉	发表时间：2010-05-10 对于海量数据而言，可行性不大。查询关键字需要对每篇文档进行比较，这就需要把所有文档常驻内存，这需要多大的内存资源呀。相比之下，倒排索引表就小的多了。
返回顶楼	回帖地址 0 0 请登录后投票

sdh5724 等级: 性别: 文章: 1273 积分: 970 来自: 杭州	发表时间：2010-05-11 分词是很大的目的是为了减少内存使用。如果按字符倒排，也能出不错的结果的。可是难以对付庞大的内存，全文比较，基本不科学。
返回顶楼	回帖地址 0 0 请登录后投票

zhangdp_neu 等级: 初级会员性别: 文章: 43 积分: 30 来自: 大连	发表时间：2010-05-11 1.文本比较如何处理多关键字搜索？难道也文本比较。如果文本过多，效率恐怕会有问题。如果只是玩玩到没什么。 2.准确率这个问题，如果是搜索引擎我个人觉得不十分准确要好于十分准确。所以如果这个算法如果是做一个家庭作业感觉还过得去。一般应用可能行不通。
返回顶楼	回帖地址 0 0 请登录后投票

论坛首页 → 综合技术版

跳转论坛: