`
shake863
  • 浏览: 661519 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

搜索引擎技术资源篇-2(转载)

阅读更多

搜索引擎的策略都是采用服务器群集和分布式计算技术。(搜索引擎技术资源篇-1)

经典文章:  google早期论文 The Anatomy of a Large-Scale Hypertextual Web Search Engine

<script type="text/javascript"> if (window.showTocToggle) { var tocShowText = "显示"; var tocHideText = "隐藏"; showTocToggle(); } </script>

搜索原理

主要做三个步骤:从互联网上抓取网页 → 建立索引数据库 → 在索引数据库中搜索排序。

从互联网上抓取网页——利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。建立索引数据库——由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。在索引数据库中搜索排序——当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。

搜索市场

据业内分析,今后以百度、Google和雅虎为主的水平搜索的增长将趋缓,而垂直搜索(手机移动搜索)、论坛搜索、本地搜索等未来新兴搜索引擎市场将以30%左右的速度增长,到2010年规模将达到78亿元。

也就是说,水平搜索风光不再,而垂直搜索则方兴未艾,垂直搜索是搜索市场新的“蓝海”。据市场研究机构Kelsey Group预测,在未来5年内,仅美国国内地区搜索市场规模将达34亿美元。

搜索历史

搜索引擎

List of search engines

开源项目

C,C++

Java

PHP

Perl

中文资源

相关文章

相关链接

 
分享到:
评论

相关推荐

    新站怎样15天做到百度排名首页及文章秒收.docx

    - **内容更新**:保证每日至少发布一篇高质量的原创内容(通常超过1000字,并配以高清图片),其余时间视情况更新1-2篇较短的文章。 - **外链建设**:每日自然增加新外链,其中至少包含3-5个锚文本链接,保证链接的...

    网站推广方式

    - **避免欺骗行为**:不建议采用任何试图误导搜索引擎的技术手段,如过度优化、隐藏文本等。 #### 5. 搜索引擎登录:全面覆盖主流平台 - **全面登录**:主动向各大搜索引擎提交网站信息,包括Google、百度、搜狗等...

    行业分类-设备装置-基于云平台的消除近似重复网页方法.zip

    在当前的互联网环境中,大量的网页数据充斥着网络空间,其中包含许多近似重复的内容,这不仅影响了用户的浏览体验,也对搜索引擎的索引效率带来了挑战。基于云平台的消除近似重复网页方法正是为了解决这一问题而提出...

    如何在CSDN中获得积分

    - **积分规则**:每发布一篇转载文章,可获得2分。 - **策略建议**: - **选择热门话题**:挑选当前热点话题进行转载,可以提高文章的吸引力。 - **注明原文链接**:尊重原创作者,确保注明来源链接,避免侵权...

    大规模网页快速去重算法

    这一突破性成果有望显著提升搜索引擎的效率和用户体验,减少冗余信息,节约存储资源,提高检索精度和响应速度,为互联网信息管理开辟了新的路径。 综上所述,哈尔滨工业大学信息检索研究室提出的大规模网页快速去重...

    从百度百科看网站SEO优化的技巧.docx

    这表明现代搜索引擎更加注重内容质量和用户体验,而非依赖特定的技术标签。因此,优化策略应当侧重于创作高质量、有价值的内容。 ### 三、文章结构清晰有条理 良好的文章结构有助于提升用户体验,同时也利于搜索...

    基于特征串的大规模中文网页快速去重算法研究

    此外,搜索引擎在建立索引时也会消耗更多的计算资源来处理这些冗余信息,从而降低了索引的构建速度和效率。 #### 解决方案:基于特征串的去重算法 针对上述问题,研究人员提出了一种基于特征串的大规模中文网页...

    彼岸花,抑或篝火

    而学术论文的发表和检索,则涉及到电子图书馆、学术搜索引擎、引文索引系统等信息检索技术,它们能够帮助研究者发现、获取和引用相关的学术成果。 4. 教育信息化与网络资源:文档中提到袁爱国老师曾经执教观摩课或...

    各大论坛收集的网站设计文章集合

    网站设计是一门涵盖众多领域的综合性学科,涉及到美学...这个压缩包文件“各大论坛收集的网站设计文章集合”很可能是包含多篇文章,详细讲解了以上各个方面的知识,对于想要提升网站设计技能的人来说是一份宝贵的资源。

    wordpress articles protection插件

    通过对文章内容进行一定的修改处理(如替换同义词、调整语序等),使得搜索引擎认为这些经过处理的文章是原创的。这样不仅能够避免因内容重复而被搜索引擎降权的风险,还能在一定程度上保护原始内容不被轻易复制。 ...

    A5站长网 全部织梦采集规则 仿站必备

    对于许多依赖高质量内容来吸引用户和提高搜索引擎排名的站点来说,有效的信息采集手段至关重要。本文将详细介绍“A5站长网全部织梦采集规则”,这些规则可以帮助网站管理员实现对A5站长网内容的精准复制,进而提升...

    最好的asp CMS系统科讯CMSV7.0全功能SQL商业版,KesionCMS V7.0最新商业全能版-免费下载

    44、文章页有上一篇,下一篇,长文章可以自动分页,信息量大,适合搜索引擎收录。 45、下载系统采用服务器管理方案,支持Web迅雷,FlashGet联盟等的专用下载,帮助用户轻松建立专业下载网站。 46、全新引入...

Global site tag (gtag.js) - Google Analytics