`

搜索引擎如何抓取互联网页面

 
阅读更多
先说说搜索引擎的原理吧。搜索引擎是把互联网上的网页内容存在自己的服务器上,当用户搜索某个词的时候,搜索引擎就会在自己的服务器上找相关的内容,这样就是说,只有保存在搜索引擎服务器上的网页才会被搜索到。哪些网页才能被保存到搜索引擎的服务器上呢?只有搜索引擎的网页抓取程序抓到的网页才会保存到搜索引擎的服务器上,这个网页抓取程序就是搜索引擎的蜘蛛.整个过程分为爬行和抓取。

  一、 蜘蛛

  搜索引擎用来爬行和访问网站页面的程序被称为蜘蛛,也可称之为机器人。蜘蛛访问浏览器,就和我们平时上网一个样子,蜘蛛同样会申请访问,得到允许后才可以浏览,可是有一点,搜索引擎为了提高质量和速度,它会放很多蜘蛛一起去爬行和抓取。

  蜘蛛访问任何一个网站时,都会先去访问网站根目录下的robots.txt文件。如果robots.txt文件禁止搜索引擎抓取某些文件或目录,蜘蛛将遵守协议,不抓取被禁止的网址。

  和浏览器一样,搜索引擎蜘蛛也有表明自己身份的代理名称,站长可以在日志文件中看到搜索引擎的特定代理名称,从而辨识搜索引擎蜘蛛。

  二、 跟踪链接

  为了抓取网上尽量多的页面,搜索引擎蜘蛛会跟踪页面上的链接,从一个页面爬到下一个页面,就好像蜘蛛在蜘蛛网上爬行一样。

  整个互联网是有相互链接的网站及页面组成的。当然,由于网站及页面链接结构异常复杂,蜘蛛需要采取一定的爬行策略才能遍历网上所有页面。

  最简单的爬行的策略有:深度优先和广度优先。

  1、 深度链接

  深度优先指当蜘蛛发现一个链接时,它就会顺着这个链接指出的路一直向前爬行,直到前面再也没其他链接,这时就会返回第一个页面,然后会继续链接再一直往前爬行。

  2、 广度链接

  从seo角度讲链接广度优先的意思是讲的蜘蛛在一个页面发现多个链接的时候,不是跟着一个链接一直向前,而是把页面上所有第一层链接都爬一遍,然后再沿着第二层页面上发现的链接爬向第三层页面。

  从理论上说,无论是深度优先还是广度优先,只要给蜘蛛足够的时间,都能爬完整个互联网。在实际工作中,没有什么东西是无限的,蜘蛛的带宽资源和蜘蛛的时间也是一样都是有限的,也不可能爬完所有页面。实际上最大的搜索引擎也只是爬行和收录了互联网的一小部分。

  3.吸引蜘蛛

  蜘蛛式不可能抓取所有的页面的,它只会抓取重要的页面,那么哪些页面被认为比较重要呢?有以下几点:

  (1) 网站和页面权重

  (2) 页面更新度

  (3) 导入链接

  (4) 与首页点击距离

  4.地址库

  搜索引擎会建立一个地址库,这么做可以很好的避免出现过多抓取或者反复抓取的现象,记录已经被发现还没有抓取的页面,以及已经被抓取的页面。

  地址库中的URL有以下几个来源:

  (1) 人工录入的种子网站。

  (2) 蜘蛛抓取页面后,从HTML中解析出新的链接URL,与地址库中的数据进行对比,如果是地址库中没有的网址,就存入待访问地址库。

  (3) 搜索引擎自带的一种表格提供站长,方便站长提交网址。

分享到:
评论

相关推荐

    ASP搜索引擎抓取ASP搜索引擎抓取

    ASP搜索引擎抓取是网站优化(SEO)中的一个重要环节,它涉及到如何使基于ASP技术构建的网站更容易被搜索引擎发现、理解和索引。在这个过程中,我们主要关注以下几个关键知识点: 1. **搜索引擎工作原理**:搜索引擎...

    搜索引擎-网站结构对搜索引擎抓取的影响.pdf

    网站结构对搜索引擎抓取的重要性 在互联网海量信息的背景下,搜索引擎成为了用户获取信息的主要途径。一个网站的结构设计直接影响到搜索引擎对其内容的抓取效率和质量,进而影响网站的可见性和排名。本篇讨论的重点...

    ASP搜索引擎抓取.rar

    ASP搜索引擎抓取技术是Web开发中的一个重要应用,它主要用于从互联网上抓取并索引信息,以便用户能够通过自定义的搜索接口进行查询。在这个"ASP搜索引擎抓取.rar"压缩包中,包含的核心文件名为"searchcode",这很...

    搜索引擎的小测试关于抓取网址的

    本篇将深入探讨搜索引擎如何抓取网址(也称为网页地址或URL),以及这一过程中的关键知识点。 首先,搜索引擎的工作流程主要包括三个主要步骤:爬行、索引和排名。爬行是整个流程的起点,搜索引擎通过一组被称为...

    爬虫搜索,简单的搜索引擎,java爬虫,搜索引擎例子,爬虫demo,java实现互联网内容抓取,搜索引擎大揭密

    爬虫负责抓取互联网上的网页,索引器则将抓取的数据进行结构化处理,创建便于搜索的索引,而检索系统则根据用户的查询从索引中快速找出相关的网页。 在这个"搜索引擎大揭密"中,我们将关注如何用Java实现互联网内容...

    抓取Bing 搜索引擎的搜索结果的python 脚本

    本篇文章将深入探讨如何使用Python编写一个脚本来抓取Bing搜索引擎的搜索结果,这涉及到网络爬虫的基本原理、Python的相关库以及如何处理抓取的数据。 首先,我们需要了解Python中的网络请求库,如`requests`。`...

    西南交大互联网搜索引擎课设

    1. **网页抓取**:这是搜索引擎的第一步,通过网络爬虫程序遍历互联网上的网页。学生需要学习如何编写爬虫,设置爬取策略,如深度优先或广度优先,以及如何处理URL队列和避免重复抓取。 2. **网页预处理**:预处理...

    电信设备-一种搜索引擎抓取网页开放式摘要信息的方法及装置.zip

    本文主要探讨的是"电信设备-一种搜索引擎抓取网页开放式摘要信息的方法及装置"的相关知识点,该主题聚焦于如何提高搜索引擎在抓取网页信息时的效率和准确性。 首先,搜索引擎的工作流程主要包括爬取、索引和检索三...

    西南交通大学 西南交大 互联网搜索引擎 作业\课设\项目

    1. **搜索引擎基础**:了解搜索引擎的基本结构,包括爬虫(用于抓取网页)、索引器(构建索引)、查询处理器(处理用户查询)和检索器(返回相关结果)等组成部分。 2. **网络爬虫技术**:学习如何编写爬虫程序,以...

    Delphi模拟搜索引擎蜘蛛抓取网页内容.rar

    在IT领域,搜索引擎蜘蛛(也称为网络爬虫)是用于自动遍历互联网并抓取网页内容的程序。这个"Delphi模拟搜索引擎蜘蛛抓取网页内容.rar"文件提供了一个使用Delphi编程语言实现的简单示例,帮助我们理解搜索引擎蜘蛛的...

    搜索引擎系统中网页抓取模块研究

    1. 网页抓取模块:这是搜索引擎工作的起点,通过网络蜘蛛(Web Crawler)自动遍历互联网上的网页。蜘蛛从预设的种子URL集合开始,按照链接关系抓取网页。抓取过程中,蜘蛛维护三个关键集合:已访问、待访问和拒绝...

    综合搜索引擎与垂直搜索引擎的比较研究

    这些搜索引擎通常采用复杂的算法,抓取互联网上的大量网页,建立索引数据库,并使用网页排名技术向用户展示搜索结果。综合搜索引擎的信息处理能力较强,能够适应用户多样化的信息检索需求,但其劣势在于,由于覆盖面...

    垂直搜索引擎抓取数据的采集系统

    综上所述,这个垂直搜索引擎的采集系统通过多线程、智能界面控制和灵活的数据库配置,实现了高效且易用的数据抓取。结合HTML解析、JavaScript处理和数据库集成,确保了数据的准确性和完整性。系统还考虑到了异常处理...

    搜索引擎,spider抓取

    爬虫是一个自动遍历互联网页面的程序,它从一个或若干个初始网页开始,按照网页中的超链接不断发现新的页面,这个过程称为爬行。在爬行过程中,爬虫会抓取网页的内容,通常包括HTML代码、图片、视频等资源。这些数据...

    [搜索链接]无极搜索引擎 v1.0_gss.zip

    2. **页面抓取与预处理**:抓取到的网页需要进行一系列预处理,如HTML去噪、链接解析、文本提取等,以便后续分析。这一步骤确保了搜索引擎处理的是纯净且有意义的文本内容。 3. **索引构建**:搜索引擎的核心是索引...

    搜索引擎基本工作原理.pdf

    搜索引擎是互联网上获取信息的关键工具,其基本工作原理主要包括三个主要步骤:抓取网页、处理网页和提供检索服务。搜索引擎的爬虫程序(Spider)通过网络中的超链接不断抓取网页,形成网页快照。抓取过程中,搜索...

    各大搜索引擎提交入口

    5. 除了提交入口,还可以通过Sitemap(网站地图)提交、RSS订阅等方式辅助搜索引擎抓取。 总之,了解并正确使用各大搜索引擎的提交入口是网站推广和SEO工作的重要一环,它有助于网站更快地融入互联网的大环境中,...

    搜索引擎以及网上免费学术资源的检索

    搜索引擎是一种帮助用户在网上快速、方便、准确地找到所需信息的工具,它通过一定的策略在互联网中发现、搜集信息,加工整理和组织存储后,为用户提供检索服务。搜索引擎主要以网页索引数据库为基础,对搜集到的信息...

Global site tag (gtag.js) - Google Analytics