`
isiqi
  • 浏览: 16852611 次
  • 性别: Icon_minigender_1
  • 来自: 济南
社区版块
存档分类
最新评论

搜索引擎早期重要论文推荐系列【2】

阅读更多

《challenge in web search engine》MR Henzinger, R Motwani, C Silverstein - ACM SIGIR Forum, 2002

推荐理由:

工程价值 4星

学术价值 2星

可读性 5星

本文例举了搜索引擎面对的主要难题,每一个难题都可以设一个单独的小组来完成。

让我们来看看都有哪些?

Spam(),反是搜索引擎主要难点,也是命门,搜索引擎的公信度是最重要的产品品质的体现,为了获得流量,搜索引擎不断花样翻新,防不慎防。

Content Quality(内容质量),早期的搜索引擎不成功主要是因为内容质量缺少可行方法,google早期很大程度上得益于PageRank的成功,包括技术上和宣传上的成功,虽然Pagerank也在被不断地利用,从而降低了排名的权重,但其思路确影响深远,例如BBS的link,Toolbar的link,用户点击的行为都被看做是网页内容评判的标准,前不久据说google对facebook中引用的站点和网页给与较高的权重。

Duplicate Host(多域名),这主要是搜索引擎的去重,目前基本采用bloom filter或改进方法来做早期抓取排重,后期做库排重,检索结构排重均采用一些简单有效的方法,因此这个问题目前并不算难题。

Vaguely-Stuctured Data(网页的弱结构化),这主要是信息抽取的问题,由于网页的弱结构,不同网站千姿百态,信息抽取要做到适应全部网站非常困难,以至于无数的规则的累积。

详细内容可以参见:

http://ce.sharif.ac.ir/courses/84-85/1/ce324/resources/root/Useful%20Resources/Challenges%20in%20Web%20Search%20Engines.pdf

如果说目前还有那些难题,我想可以补充这样几点

Ranking(排序),这可能是最困难,也是目前解决的最不好的一项,如何把握用户输入的query的意图,给出最佳答案,也许是永无止境的工作。

Efficience(效率),一次搜索不仅要越快越好,同时也需要节省费用,将每一次搜索的成本降低,且保证优越的用户体验,也是非常困难的。这需要在各个部分进行不断地优化,前端,索引,分词,无不例外。

Stability(稳定性),保证持续稳定的运营,错误用户无感知或弱感知,也是非常困难的。

Ad(广告),搜索广告的准确性,有效性,消耗的控制,这也是目前搜索引擎亟待解决的问题

分享到:
评论

相关推荐

    中小企业营销型网站搜索引擎优化策略学位论文.doc

    对于企业网站初期阶段,论文着重强调了内部优化的重要性,指出通过关键字优化、Meta标签优化、内容优化等措施,能够有效提高网站对搜索引擎的友好度,从而在搜索引擎结果中获得更好的排名。此外,内容的原创性和高...

    人工智能:常见搜索引擎机制

    此外,还有一些特殊类型的搜索引擎,如学术搜索引擎Google Scholar,用于查找学术论文和研究成果;或者图片搜索引擎,如Google Images,专门搜索和展示图片内容。 总结来说,搜索引擎是人工智能在信息检索领域的...

    几种常见的搜索引擎的性能比较与分析2.doc

    搜索引擎的发展历程可追溯到早期的Archie和Gopher等工具,随着Web的普及,Google、Bing、Yahoo! 和百度等现代搜索引擎应运而生。这些搜索引擎的核心在于其复杂的索引机制,如Google的PageRank算法,它通过分析网页...

    单元学习Google搜索引擎及其实现技术.pdf

    综合上述信息,我们可以看出Google搜索引擎是如何通过一系列复杂的算法和数据结构来处理和索引网页,以及如何通过查询解析和页面排名机制来提供高效的搜索结果的。文档中的内容虽然在数字化过程中存在一些识别错误,...

    谷歌论文经典中文版

    谷歌论文经典中文版介绍了谷歌公司在数据处理、存储和分布式系统设计方面的几篇重要论文,这些论文不仅阐述了谷歌当时的核心技术,同时也催生了后来开源大数据处理系统的发展。下面将详细介绍每篇论文及其对应的技术...

    acm Multimedia论文.rar

    华先胜可能提出了新的算法或模型,用于解决视频内容理解和注解的复杂性,提升视频分析的准确性,这对于视频搜索引擎和智能监控系统的开发具有重要意义。 2008年的论文集同样涵盖了一系列多媒体技术的研究,可能涉及...

    网络爬虫设计与实现毕业设计论文.pdf

    8. 历史发展概述:文档提到了早期的网络爬虫技术及其发展,如1990年代的Archie,是第一个使用索引的网络搜索引擎;而Lycos、Yahoo和Google等名字代表了网络爬虫和搜索引擎技术的发展里程碑,显示了网络爬虫技术从...

    论文研究-基于潜在语义索引的超链接分析模型 .pdf

    2. 超链接分析模型:超链接分析是搜索引擎排名算法中的一项重要技术,它通过分析网页之间的链接关系来评价页面的重要性。在超链接分析中,PageRank算法是其中的佼佼者,它由Google创始人拉里·佩奇和谢尔盖·布林...

    藏文信息技术识别等论文

    为了有效地管理和检索大量的藏文文献,需要建立高效的数据库系统和搜索引擎。这些系统通常基于特定的索引策略和查询算法,使用户能够快速定位到所需的信息。同时,考虑到藏文的独特语法和词汇,信息检索系统还需要...

    网络爬虫设计与实现毕业设计论文(20210809122719).pdf

    例如,Archie是最早的文件搜索系统之一,而Lycos和Yahoo则是在搜索引擎领域较早期的重要参与者。 最后,文档中出现的日期、数字序列和关键词,如1.5814.***.**.**.*.**.*.**.**.**.**.*.**.*.**.**.**.**.**.**.**....

    The Anatomy of a Large Scale Hypertextual Web Search Engine 中文版

    综上所述,《大规模超文本网络搜索引擎解析》这篇论文深入探讨了Google搜索引擎的设计理念和技术实现。通过对网页抓取、索引建立、超链接分析及查询处理等多个方面的详细介绍,展示了Google如何克服传统搜索引擎存在...

    ASP某小型数字图书馆的设计与实现(源代码+论文).zip

    4. **图书分类与检索**:系统应具备高效的图书分类和检索功能,可能需要利用全文搜索引擎或者自定义的索引算法。 5. **借阅与归还流程**:系统需要跟踪图书的借阅状态,提醒用户归还日期,并处理续借和逾期罚款等...

    [毕业设计]ASP.NET技术在电子产品销售网站中的应用与实现(源代码+论文).zip

    在网站开发的整个过程中,还需要考虑到网站的搜索引擎优化(),提升网站在搜索引擎中的排名,吸引更多潜在客户。ASP.NET提供了多种优化工具和技术,如URL重写、元数据标签设置等,帮助开发者提升网站的可见度。 ...

    The PageRank Citation Ranking.rar

    总之,PageRank算法是搜索引擎优化中的一个重要概念,它通过链接分析赋予网页一个相对的重要性分数。在文献检索领域,PageRank可以提供一种衡量论文影响力的有效方法。然而,随着网络环境的变化,算法也需要不断演进...

    互联网营销价格策略论文_1.docx

    互联网使得消费者能轻松搜索和比较产品,搜索引擎和在线社区提供了丰富的信息来源,降低了消费者的搜索成本。消费者通过比较价格、功能和价值,变得更加精明,对价格敏感度提高,促使商家提供更具竞争力的定价。同时...

    Google_三大论文中文版

    《Bigtable:一个分布式的结构化数据存储系统》是Google公司发表的一篇重要论文,介绍了Bigtable这一分布式存储系统的设计原理和技术特点。该系统旨在解决大规模数据存储与访问的问题,特别是在PB级别数据量的应用...

    服装网络营销毕业论文正稿.pdf

    服装网络营销策略包括但不限于搜索引擎优化(SEO)、社交媒体营销、内容营销、电子邮件营销、联盟营销和付费广告等。企业需要根据自身的资源、产品特性和市场定位选择适合的网络营销策略。例如,对于新品牌或者小...

    performance of compressed inverted list caching

    为了应对这种高负载的需求,搜索引擎采用了一系列优化技术,其中包括索引压缩、缓存机制以及早期终止策略等。 本文主要关注两个重要的技术:倒排索引压缩和索引缓存。这两项技术在提高搜索引擎及其他高性能信息检索...

Global site tag (gtag.js) - Google Analytics