`

图解搜索引擎工作原理

    博客分类:
  • seo
 
阅读更多

做SEO的,如果不懂搜索引擎的工作原理是很难恰当开展工作的。前几天给学生讲SEO课程中的搜索引擎工作原理时,很多同学表示不太懂。后来我画了搜索引擎主要工作流程的示意图给大家,很多同学表示“懂了”。

  我们先来看搜索引擎的主要工作:页面收录、页面分析、页面排序及关键字查询。搜索引擎的工作流程是:页面收录——页面分析——页面排序——关键字查询。

  一、搜索引擎工作原理——页面收录

  

搜索引擎工作原理-页面收录

 

  搜索引擎工作原理示意图——页面收录流程

  页面收录的最终目的是将网站上的内容加入到URL列表,积累URL资源。

  第一步:搜索引擎的爬行程序(俗称蜘蛛)发现网站,来到网站上。也就是说网站首先要存在,且能够被蜘蛛发现。比如济南seo肖玉强的博客如果要被搜索引擎收录,首先要存在而且要有内容。

  第二步:蜘蛛开始对入口页面进行抓取,并存储入口的原始页面,包含页面的抓取时间、URL、最后修改时间等。存储原始页面的目的是为了下次到来比对页面是否有更新,蜘蛛喜欢经常更新的网站。

  第三步:提取URL,提取URl包含两个两个内容:域名URL和内部URL。域名URL即网站首页地址,如www.***.com;内部URL即网站内部各页面的地址,如http://www.***.com/151.html。蜘蛛所提取到的URL资源会持续添加到URL列表。

  二、搜索引擎工作原理——页面分析

  在页面收录中,搜索引擎已经抓取到了网站上的URL,接下来,搜索引擎会对所抓取到的页面内容进行分析。

  

搜索引擎工作原理-页面分析

 

  搜索引擎工作原理示意图-页面分析流程

  在这个过程中,我们看到了两个“网页”。第一个“网页”指的是刚才搜索引擎已经收录的URL资源。好,搜索引擎对页面的分析正式开始。

  第一步:提取正文信息。这里所提取的正文信息除了包含页面内容外,也包含页面的头部标签信息(title\keywords\descrption)等。

  第二步:提取完信息后,搜索引擎按照机械分词法和统计分词法,将正文信息切分为若干关键词,这些关键词组成了关键词列表。我们大家在搜索引擎里查找内容时往往会输入关键词查找,这里搜索引擎的工作就是按照一定的规则将内容划分为词,以便以后大家搜索。

  第三步:上一步搜索引擎已经将正文内容切分为了若干关键词,这些关键词出现的位置、频率等是不同的,在第三步,搜索引擎会将关键词逐一记录、归类、建立索引。比如,关键词出现的频率我们建议2%——8%是最为合理的,那么搜索引擎在给关键词归类时,会认为符合2%——8%的关键词是网页的主关键词,从而在接下来的页面排序时给予照顾。

  第四步:搜索引擎为页面关键词建立索引后,再将这些关键词重新组合,以关键词的形式重新组建一个新的网页,这个网页上的关键词是唯一的,全部不重复。比如,我们刚才在第三步时,A关键词出现了三次,在第四步,我们只记录A关键词1次,在重组后的网页后,A关键词再无重复。

  至此,搜索引擎对页面的分析完成,在这一环节,搜索引擎完成了对页面正文信息的提取、关键词的切分、关键词的索引、以及搜索引擎角度上的网页重组。

  三、搜索引擎工作原理——页面排序

  在上面一个环节,搜索引擎完成了对页面的分析,将页面以唯一关键词的形式进行了重新组合。接下来开始进入到页面排序的环节。页面排序的环节,实际上是由用户配合来完成的。当用户在搜索引擎输入关键词进行查询时,搜索引擎便开始了页面排序的的工作。我们知道,任意输入一个关键词就可以在搜索引擎中找到很多网页,这些网页的先后顺序是怎样产生的?影响页面排序的因素有哪些?

  实际上,决定页面排序的因素很多,如关键词、页面相关性、链接权重及用户行为。

  1、先来看关键词。

  a、 关键词匹配度。我们注意到在全文搜索引擎中,一般情况下搜索引擎列表中都会包含我们所输入的关键词。当我们输入关键词进行查询时,搜索引擎首先会去检查网页中是否有该关键词,这是基础条件。

  b、 接下来,搜索引擎会去比对页面中关键词出现的频率,过高或者过低都不好,最恰当的频率一般认为是2%——8%左右。

  C、关键词分布。即关键字在页面中出现的位置也会影响页面的排序。一般认为页面权重的递减顺序是左上>右上>左>右>左下>右下。

  d、关键词的权重标签。权重,可以理解为重要性。权重标签如< b >、< i >、< em >、< h1 >—< h6 >等等这些标签使得标签内文字不同于其他文字,搜索引擎会给予相应权重提升。

  2、链接权重

  内部链接。网站内部页面之间的链接关系,一般首页的权重最高。在同等情况下,如果有两个网站的首页和内页进行比较,一般首页会排在内页前面。

  外部链接。网站与站外页面之间的链接关系,通俗的说法叫做“外链”。外链的数量、质量、相关性都会影响页面排序。在页面相关性上,google比baidu更为严格,比如,你的网站是做IT的,结果你去链接了很多机械化工类的网站,这时候搜索引擎会很不喜欢,甚至会认为你恶意添加外部链接。

  默认权重分配。搜索引擎将页面被抓取的日期作为一个参考因素,页面在单位时间内获得链接的数量越多,质量越高,则该页面的质量也相对更高。

  3、用户行为

  用户对搜索结果的点击行为是衡量页面相关性的因素之一,是完善排序结果、提高排序结果质量的重要补充。

  四、搜索引擎工作原理——关键词查询

  

搜索引擎工作原理-关键词查询

 

  搜索引擎工作原理——关键词查询

  第一步:用户输入关键词进行查询。

  第二步:搜索引擎接到用户关键词指令,将用户的关键词再次切分。有同学问为什么还要切分呢?这是因为用户所输入的关键词可能会和搜索引擎词典里的关键词不符合,这时候搜索引擎会将用户的词再次切分,尤其是长尾关键词。如用户搜索:肖玉强的博客。这个词搜索引擎词典里是没有的,那么这个词会被切分为“肖玉强”“的”“博客”三个词之后再去网页资源中进行匹配。

  第三步:搜索引擎将关键词切分后,进入网页资源中进行匹配,查询合适内容,即“关键词反向索引表”。如果网页资源中有对应关键词,则进行页面分析,按照页面权重进行网页排序。如果没有对应关键词,则返回给客户一个“空列表”。比如“很抱歉,没有找到你要查询的内容”。

  整个搜索引擎的工作过程,我们可以以做饭举例。比如我们现在要做西红柿炒鸡蛋,接下来开始。

  第一步,西红柿和鸡蛋,以及配料要有,这里对应页面收录;

  第二步,有了西红柿、鸡蛋、配料,接下来我们要分析一下做菜的顺序,是先放油呢还是先放鸡蛋再放油呢?还是放了西红柿鸡蛋再放油呢?对这个项目进行分析,即搜索引擎工作的第二步:页面分析;

  第三步页面排序,分析好了这个菜怎么做,接下来要动手了,先刷锅热锅,再放油,再继续……这是个合理的顺序,先做什么,后做什么。

  第四步:菜做好了,上桌了,你可能会选择先吃鸡蛋,也可能会先吃西红柿,哈哈,这就对应了关键词查询。如果你要在西红柿鸡蛋里找块肉吃,抱歉,没有,这就是关键词的空列表了。

  对于例子,请酌情参考。明白了搜索引擎的工作原理就好了。

分享到:
评论

相关推荐

    WEB搜索引擎分析设计与实现.doc

    本文还提供了搜索引擎的实现代码和图解,力图使读者更好地理解搜索引擎的工作原理和实现方法。 搜索引擎是互联网时代的必备工具,随着互联网的高速发展,信息在海量增长,用户想要寻找到一些有用的知识非常困难,...

    电子商务 SEO 推广 图解

    1. **搜索引擎工作原理**:搜索引擎如百度、谷歌,通过爬虫抓取网页内容,建立索引,然后根据用户搜索的关键词提供最相关的页面。理解这一过程有助于优化网页内容以符合搜索引擎的排名规则。 2. **关键词研究**:...

    javascript图解

    15. **性能优化**:了解V8引擎的工作原理可以帮助优化代码,例如减少全局变量的使用,利用局部变量,避免不必要的类型转换等。 这些只是JavaScript众多知识点的一部分,JavaScript图解可能会通过直观的图表来展示...

    图解网站分析

    4. 搜索引擎优化(SEO)分析:网站的搜索引擎排名对流量有直接影响,因此SEO分析对于提升网站可见性非常重要。分析的关键因素包括关键词选择、内容质量、网站结构、反向链接等。 5. 内容分析:内容是吸引和留住用户...

    语音识别:原理与应用-课件pdf_202101.rar

    3. 语音搜索:在搜索引擎中输入语音查询,提高效率。 4. 车载语音导航:在驾驶过程中安全操作导航系统。 5. 语音翻译:实时翻译不同语言的语音对话。 六、挑战与未来趋势 1. 多语言识别:支持多种语言的快速切换和...

    ES核心知识篇part2

    本知识篇主要涵盖了Elasticsearch(简称ES)的核心概念和技术,包括分布式文档系统、搜索引擎原理、Java API的使用、索引管理和内核优化等方面,旨在帮助读者深入理解并掌握ES在实际应用中的关键技能。 **1. 分布式...

    图解数据结构二分法查找法

    - **搜索引擎**:在搜索引擎中快速定位文档位置。 - **编译器符号表管理**:在编译器中查找变量和函数定义。 - **统计分析**:在大数据分析中快速处理和查找数据。 #### 七、总结 通过上述分析和代码示例可以看出,...

    SQL2000 全文索引完全图解

    总结,SQL Server 2000的全文索引是提升数据库搜索效率的关键工具,通过理解其工作原理和正确配置,可以在海量文本数据中实现高效、智能的搜索。无论是对数据库管理员还是开发人员来说,掌握全文索引技术都是提升...

    算法图解笔记以及代码文件.zip

    9. **字符串处理**:如KMP算法、Rabin-Karp算法,用于高效地进行模式匹配,对文本处理和搜索引擎设计至关重要。 10. **图论与网络流**:如最大流最小割问题,可以应用于网络调度、资源分配等问题。 压缩包中的笔记...

    BIOS设置图解教程.doc

    学习如何查阅资料,利用搜索引擎如百度和Google解决问题,是提升技能的有效途径。遇到错误提示时,不要立即关闭或依赖他人,而是记录错误信息并自行寻找答案,这将有助于理解计算机的工作原理和解决问题的能力。 ...

    图解Spark核心技术与案例实战&&elasticsearch;-the-definitive-guide&&JVM;高级特性与最佳实践(最新第二版)

    3. **Elasticsearch - The Definitive Guide**:这是一部关于Elasticsearch的权威指南,Elasticsearch是一款流行的分布式全文搜索引擎,常用于实时数据分析和日志聚合。书中会涵盖Elasticsearch的基本概念,如倒排...

    es快速入门笔记,自我整理,共75节

    Elasticsearch是一个基于Lucene的开源搜索引擎,提供了分布式搜索、索引、数据分析等功能。 * Elasticsearch的功能:分布式搜索引擎和数据分析引擎,全文检索、结构化检索、数据分析等。 * Elasticsearch的适用场景...

    《算法图解》学习笔记一:二分查找

    二分查找在实际应用中广泛用于数据库系统、搜索引擎优化、数据分析等领域。它的效率和对有序数据的依赖使得它成为解决特定类型搜索问题的理想选择。然而,如果数据不是有序的,或者插入和删除操作频繁,那么使用二分...

    网络营销 google adwords(pdf)

    其中,Google AdWords是网络营销中的关键工具,尤其在搜索引擎营销(SEM)领域扮演着重要角色。本PDF图解详细介绍了Google AdWords的原理、操作方法以及如何利用它来提升在线广告效果。 Google AdWords是一种付费...

    王红梅版数据结构C++版(光盘)

    光盘中的实例可能涵盖各种实际问题的解决方案,如搜索引擎的索引构建、数据库查询优化、游戏中的路径规划等,这些例子能帮助读者将所学知识与实际工作相结合。 5. **C++编程技巧**:在C++中实现数据结构时,会涉及...

    零基础学习算法第三版

    例如,第一章可能会介绍排序算法,如冒泡排序、选择排序、插入排序和快速排序等,通过实例和图解帮助读者理解它们的工作原理和效率差异。在讲解过程中,作者会强调如何分析算法的时间复杂度和空间复杂度,以培养读者...

    传智播客Javaweb课件大全ppt 第二部分

    首先,我们看到一个关于`lucene总结.chm`的文件,这可能是关于Apache Lucene的教程,Lucene是一个高性能、全文本搜索库,常用于构建搜索引擎。这个文件可能包含了Lucene的基本概念、索引创建、查询处理以及优化策略...

    快速排序 快速排序例子

    ### 快速排序知识点解析 #### 一、快速排序简介 ...- 搜索引擎结果的排序。 - 编译器优化中的排序操作。 总之,快速排序是一种非常实用且高效的排序算法,掌握其原理及实现方式对于程序员来说非常重要。

    理光C2030,2050彩色复印机维修手册

    总之,《理光C2030,2050彩色复印机维修手册》是一份全面的技术参考资料,它不仅为技术人员提供了故障排查和设备维护的实用工具,也为用户了解复印机的工作原理提供了宝贵资料。对于任何使用或维修理光C2030和C2050...

Global site tag (gtag.js) - Google Analytics