`
phyeas
  • 浏览: 164673 次
  • 性别: Icon_minigender_1
  • 来自: 珠海
社区版块
存档分类
最新评论

基于文本比较的搜索是否可行?

阅读更多

基于文本比较是相对于现在基于分词索引的搜索而说的,使用文本比较算法对要搜索的内容和关键字进行比较,找出最大匹配率,根据最大匹配进行排序。返回一个结果列表。中间避免了分词的过程。可能的问题:

1、性能问题。在内容数量非常庞大的时候,文本比较算法消耗的时间可能比较多。我所想到的解决方案是利用分布式计算,将内容分布在不同的地方同时进行计算。所以剩下的就是比较算法瓶颈的问题,就是内容有多大的时候才需要分布。相对于分词索引的搜索算法的性能,我认为这个是差不多的。分词索引在索引非常庞大的时候也需要分布吧,具体本人没有处理过非常大的数据量。只使用比较算法处理过10W的级别的词库,每个词为3-50个字左右。关键字为2-6个字,此时比较起来大约只花费了15-40毫秒。

2、准确率的问题。准确率取决于最大匹配率的算法十分正确,如果正确则与此相关的应该都能找出来,而分词索引则取决于分词算法的准确率。我认为比较算法的准确率还是比分词的准确率高的。

 

如还有其他问题希望大家补充。大家讨论下这个算法的可行性,欢迎拍砖。

分享到:
评论
9 楼 zhangdp_neu 2010-05-11  
1.文本比较如何处理多关键字搜索?难道也文本比较。如果文本过多,效率恐怕会有问题。如果只是玩玩到没什么。
2.准确率 这个问题,如果是搜索引擎 我个人觉得不十分准确要好于十分准确。

所以如果这个算法 如果是做一个家庭作业感觉还过得去。
一般应用可能行不通。
8 楼 sdh5724 2010-05-11  
分词是很大的目的是为了减少内存使用。 如果按字符倒排, 也能出不错的结果的。 可是难以对付庞大的内存, 全文比较, 基本不科学。
7 楼 Heart.X.Raid 2010-05-10  
对于海量数据而言,可行性不大。查询关键字需要对每篇文档进行比较,这就需要把所有文档常驻内存,这需要多大的内存资源呀。相比之下,倒排索引表就小的多了。
6 楼 lonelybug 2009-09-14  
LZ做这个最高级别是研究一下Suffix Tree的东西。

我之前在学校时帮老师做这个研究的,基本上很多搜索引擎都是引入这个东西。
5 楼 mikeandmore 2009-08-21  
phyeas 写道
mikeandmore 写道
好像可以,
据说是叫hash一派?

哦?可以提供资料看下吗?谢谢

我只听过一个讲座这么说的。
说会给一些文本做hash,hash成图像,然后利用图像算法的相似度来表明文章的相似度。
当然这种hashfunc很难找。

可以看看www阿。。。这种东西应该都在www上的。。。
4 楼 phyeas 2009-08-19  
mikeandmore 写道
好像可以,
据说是叫hash一派?

哦?可以提供资料看下吗?谢谢
3 楼 mikeandmore 2009-08-19  
好像可以,
据说是叫hash一派?
2 楼 lw223 2009-08-19  
三年前毕设题目是中文搜索引擎,纯粹理论派,程序和算法太烂没法实践。

1 楼 lw223 2009-08-19  
拍一板儿砖,闪人

相关推荐

    HTML5可行性调研

    新的结构性和语义性标记提升了页面的可读性和搜索引擎优化。比如,`<header>`, `<footer>`, `<article>`等元素增加了页面结构的清晰度。语义性内联元素如`<mark>`, `<time>`增强了内容的表述。内嵌媒体元素如`...

    基于Lucene的搜索引擎的研究与应用

    基于Lucene的搜索引擎为特定领域,例如新闻检索,提供了一种可行的解决方案。通过对Lucene API的深入分析与应用,并结合开源网络爬虫技术,可以构建出在特定领域性能优越的搜索引擎。这种搜索引擎的开发和应用,不仅...

    基于STC的中文文本聚类算法

    ### 基于STC的中文文本聚类算法 #### 摘要 本文提出了一种新型的中文文本聚类方法,旨在优化用户的检索体验。该方法针对用户搜索结果中的相似文档进行聚类,形成目录结构,从而帮助用户更有效地浏览和定位所需信息...

    文本实时模糊搜索

    传统的文本搜索方法通常基于倒排索引,这是一种预先对文本进行分词,然后为每个词汇项建立一个索引,指向包含该词汇项的文档或位置。这种方法在精确匹配和大规模数据集上表现出色,但不适用于模糊搜索。模糊搜索允许...

    论文研究-基于GA优化QPSO算法的文本聚类.pdf

    针对量子行为粒子群优化算法中粒子搜索的...通过在Reuter-21578真实的文本数据集上实验,该算法在Fmeasure评价标准上获得了较高的查准率和查全率,从而验证了该聚类算法的有效性和可行性,可以在文本聚类领域推广应用。

    基于英语文本遥控的采摘集群机器人系统设计.pdf

    测试结果表明,基于英语文本的编程方法可以成功实现采摘机器人集群控制算法,使机器人集群能够有效躲避障碍物,并搜索到最佳的采摘路径。这种集群控制方法为采摘机器人的控制提供了一种新的思路和方法。 综上所述,...

    一种基于BloomFilter的改进型加密文本模糊搜索机制研究

    为此,提出一种改进的密文数据多关键字检索机制,一方面,基于BloomFilter数据结构设计一种新的关键字转换方法,能够在保持模糊搜索功能及识别率的同时,有效降低数据索引规模;另一方面,基于动态混淆参数调节的思路改进...

    论文研究-基于统计机器学习的互联网暗链检测方法.pdf

    为了维护公平的搜索引擎排名机制,保证搜索结果质量,针对暗链这种作弊手段,提出了一种基于机器学习的互联网暗链检测方法,该方法结合网页源码锚文本的特征检测暗链。给出了相关性能分析,在真实的网络环境下的实验...

    实现基于PHP和JSP的网上书店系统设计可行性分析报告.pdf

    【PHP和JSP网上书店系统设计的可行性分析】 在当今数字化时代,网上书店已经成为人们获取书籍的重要途径。本文主要探讨了基于PHP和JSP技术实现的网上书店系统的设计与实施,旨在提供一个高效、便捷的在线购书平台,...

    LDA文本分类研究

    这种基于类的特征提取方法与传统基于文档的特征提取方法有所不同,能够更好地捕捉到每个类别特有的特征,并且在分类过程中能够有效提升分类性能。 文章接着进行了两个实验,分别验证了改进的TFIDF算法的有效性和...

    高职教育专业教学资源库评审指标表.docx

    - **资源可搜索性**:各类用户是否可通过主流搜索引擎查找库内资源? - **社会学习者使用情况**:社会学习者应用资源库学习频度、累计学习时间如何? - **品牌影响力**:是否形成了服务学习型社会建设的品牌影响力?...

    斯坦福- ChatGPT用于生成式搜索引擎的可行性

    在“斯坦福- ChatGPT用于生成式搜索引擎的可行性”这个主题中,我们将探讨如何将ChatGPT的技术应用于搜索引擎,以及这一创新可能带来的变革。 一、ChatGPT简介 ChatGPT是一种预训练语言模型,它通过学习大量的文本...

    基于Web的网络爬虫的设计与实现

    目前,尽管基于多媒体信息的搜索引擎技术成为了新的研究热点,但基于Web的全文搜索引擎依然是使用最广泛的一种形式。 #### 二、基于Web的全文搜索引擎系统架构 基于Web的全文搜索引擎通常包含三个主要组成部分:...

    可行点标记求最佳匹配算法

    在给定的文本中,我们可以插入一些额外的内容来扩展文本长度,同时保留原始的关键思想。 以下是一些关于可行点标记求最佳匹配算法的matlab程序代码的详细说明: 该算法是用于解决最佳匹配问题的一种方法。它的目标...

    区块链上基于B 树索引结构的密文排序搜索方案.pdf

    通过该模型,可以对加密方案的适应性不可区分性进行分析,即在不知道解密密钥的情况下,区分加密数据和随机数据是不可行的。 8. 效率对比分析:在提出新的技术方案或改进现有的技术方案时,需要对比分析其与现有...

    论文研究-基于数据挖掘的新词发现.pdf

    这篇论文研究的主题是基于数据挖掘技术的新词发现方法,特别是为专门的搜索领域建立一个专业词汇库。文中介绍了一种基于主题式搜索引擎的新关键词挖掘方法,并详细描述了通过关联规则挖掘来扩展专业词汇库的过程。 ...

Global site tag (gtag.js) - Google Analytics