`
longgangbai
  • 浏览: 7339903 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

搜索引擎蜘蛛工作原理

阅读更多

网站能在搜索引擎被搜到,归功于搜索引擎蜘蛛抓取的功劳,权重高,更新快的网站,搜索引擎蜘蛛会经常爬行,抓取网站最新数据,经过搜索引擎数据整理后,在搜索引擎上就能搜索到网站的网页,为了更好的SEO优化网站,了解搜索引擎蜘蛛爬行规则也是相当重要的,怎么才能知道搜索引擎蜘蛛在爬行网站时间、爬行网页、爬行反映呢,就要查看网站iis日志文件, iis默认的日志文件在C:\WINDOWS\system32\LogFiles中

,从查看日志中,就可以了解搜索引擎蜘蛛爬行经过,如:

2008-08-19 00:09:12 W3SVC962713505 203.171.226.111 GET /index.html - 80 - 61.135.168.39 Baiduspider+

(+http://www.baidu.com/search/spider.htm) 200 0 64

1、203.171.226.111就是搜索引擎蜘蛛防问的网站ip,
2、61.135.168.39 Baiduspider代表,百度搜索引擎蜘蛛的ip是61.135.168.39,
3、代码中的/index.html 就代表搜索引擎蜘蛛防问的网页
4、2008-08-19 00:09:12代表搜索引擎蜘蛛爬行的日期与时间
5、代码中的200就代表搜索引擎蜘蛛爬行后返回代码代表,代码中可以了解蜘蛛爬行后的反映,代码如下:
6、W3SVC962713505代表网站日志所在的文件夹

2xx 成功

200 正常;请求已完成。

201 正常;紧接 POST 命令。

202 正常;已接受用于处理,但处理尚未完成。

203 正常;部分信息 — 返回的信息只是一部分。

204 正常;无响应 — 已接收请求,但不存在要回送的信息。

3xx 重定向

301 已移动 — 请求的数据具有新的位置且更改是永久的。

302 已找到 — 请求的数据临时具有不同 URI。

303 请参阅其它 — 可在另一 URI 下找到对请求的响应,且应使用 GET 方法检索此响应。

304 未修改 — 未按预期修改文档。

305 使用代理 — 必须通过位置字段中提供的代理来访问请求的资源。

306 未使用 — 不再使用;保留此代码以便将来使用。

4xx 客户机中出现的错误

400 错误请求 — 请求中有语法问题,或不能满足请求。

401 未授权 — 未授权客户机访问数据。

402 需要付款 — 表示计费系统已有效。

403 禁止 — 即使有授权也不需要访问。

404 找不到 — 服务器找不到给定的资源;文档不存在。

407 代理认证请求 — 客户机首先必须使用代理认证自身。

410 请求的网页不存在(永久);

415 介质类型不受支持 — 服务器拒绝服务请求,因为不支持请求实体的格式。

5xx 服务器中出现的错误

500 内部错误 — 因为意外情况,服务器不能完成请求。

501 未执行 — 服务器不支持请求的工具。

502 错误网关 — 服务器接收到来自上游服务器的无效响应。

503 无法获得服务 — 由于临时过载或维护,服务器无法处理请求。

分享到:
评论

相关推荐

    搜索引擎蜘蛛机器人工作原理.pdf

    本文将深入探讨搜索引擎蜘蛛机器人的工作原理及其重要策略。 首先,搜索引擎蜘蛛机器人的概念源自早期的Archie系统,它是一个在FTP主机中搜索文件的工具。随着World Wide Web的兴起,这类工具逐渐演变为能够索引和...

    2020年引擎蜘蛛工作原理.pdf

    聚焦爬虫作为搜索引擎蜘蛛的重要分支,它的工作原理和关键技术与传统爬虫有所区别。聚焦爬虫更加注重主题的针对性,它从初始的URL集合开始,采用不同的算法选择与主题紧密相关的链接进行抓取,同时不断对新抓取的URL...

    搜索引擎基本工作原理

    搜索引擎基本工作原理 搜索引擎基本工作原理是我们日常搜索应用和网站提交推广的关键所在。了解搜索引擎的工作原理可以帮助我们更好地理解搜索引擎的运作机制,从而提高我们的搜索应用和网站推广效果。 搜索引擎的...

    搜索引擎蜘蛛访问记录器

    首先,我们需要理解搜索引擎蜘蛛的工作原理。搜索引擎蜘蛛会定期抓取网页内容,跟踪页面上的链接,并将这些信息存储在搜索引擎的数据库中。它们对网页的抓取频率取决于多种因素,包括网站更新频率、页面权重以及爬虫...

    LUCENE搜索引擎基本工作原理

    **LUCENE搜索引擎基本工作原理** Lucene是一个开源的全文搜索引擎库,被广泛应用于构建复杂的搜索引擎系统。它的设计目标是高效、灵活且可扩展。理解Lucene的工作原理有助于开发人员更好地利用这一强大的工具。 **...

    泊君多功能搜索引擎蜘蛛模拟器

    总之,泊君多功能搜索引擎蜘蛛模拟器是一款强大的SEO工具,它能帮助网站管理员和SEO专家深入理解搜索引擎的工作原理,找出网站的优化潜力,并采取相应的措施提高搜索引擎的友好度,最终提升网站在搜索结果中的表现。...

    搜索引擎网络蜘蛛

    在本项目中,我们拥有一个完整的搜索引擎源码,该源码包含网络爬虫功能,以及数据库和用户界面的源代码,这为我们提供了深入理解搜索引擎工作原理的机会。 首先,让我们详细了解网络爬虫的工作流程。网络爬虫通常从...

    最新仿百度搜索引擎,带蜘蛛

    本文将深入探讨“最新仿百度搜索引擎,带蜘蛛”这一主题,包括搜索引擎的基本原理、蜘蛛爬虫的工作方式,以及与百度搜索引擎的相似之处。 首先,搜索引擎的核心功能是为用户提供信息检索服务。它通过抓取、索引和...

    ASP搜索引擎蜘蛛爬行日志生成程序

    ASP搜索引擎蜘蛛爬行日志生成程序是一个用于记录搜索引擎爬虫活动的应用程序,它主要针对使用ASP(Active Server Pages)技术构建的网站。该程序能够帮助网站管理员了解搜索引擎如何索引和抓取他们的网页,从而优化...

    分析一下SEO优化中的搜索引擎蜘蛛技术[总结].pdf

    一、搜索引擎蜘蛛的工作原理 搜索引擎蜘蛛从一个初始链接开始,抓取网页内容,并收集网页内的其他链接,形成一个连续的抓取过程。这一过程会持续到达到预设的停止条件,如时间限制、抓取数量限制或链接层数限制。...

    Delphi模拟搜索引擎蜘蛛抓取网页内容.rar

    这个"Delphi模拟搜索引擎蜘蛛抓取网页内容.rar"文件提供了一个使用Delphi编程语言实现的简单示例,帮助我们理解搜索引擎蜘蛛的工作原理。Delphi是一款流行的面向对象的编程环境,尤其适合开发桌面应用程序。 首先,...

    蜘蛛爬虫搜索引擎

    **蜘蛛爬虫搜索引擎** 在互联网世界中,搜索引擎是获取信息的关键工具,而“蜘蛛爬虫”(也称为网络爬虫或网页爬虫)是搜索引擎背后的重要技术之一。它通过自动地遍历和抓取互联网上的网页,为搜索引擎提供丰富的...

    中文搜索引擎技术揭密:网络蜘蛛.

    中文搜索引擎技术揭密:网络蜘蛛 网络蜘蛛是搜索引擎的核心组件之一,对互联网上的网页进行抓取、索引和搜索。网络蜘蛛的基本原理是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的...

    测试可用蜘蛛源码,可建搜索引擎

    对于初学者或者想要深入研究搜索引擎工作原理的人来说,这样的源码是一份很好的学习资料。 标签“搜索引擎,蜘蛛源码,可用。”进一步强调了这些关键点,暗示我们可以从以下几个方面深入学习: - **搜索引擎架构**...

    (整理)搜索引擎基本工作原理.pdf

    搜索引擎的工作原理主要分为全文搜索引擎和目录索引两种类型。 全文搜索引擎是通过自动化程序,即“蜘蛛”或“爬虫”,来抓取互联网上的网页信息。有两种抓取方式:定期搜索和提交网站搜索。定期搜索是指搜索引擎...

    网络蜘蛛及搜索引擎原理

    高性能网络机器人是新一代Web智能搜索引擎的核心,网络机器人是否高效直接影响搜索引擎的效能的发挥。对开发高性能网络机器人所涉及的关键技术和算法进行了详细地分析。最后,给出了程序的关键类,有助于工程的实际...

    搜索引擎强引蜘蛛程序易语言

    标题中的“搜索引擎强引蜘蛛程序易语言”表明这是一个关于利用易语言编程实现搜索引擎优化(SEO)的技巧,尤其是针对搜索引擎爬虫(也称蜘蛛程序)的引导策略。易语言是一种中文编程语言,它以直观的汉字编程语法为...

    JAVA搜索引擎之模仿百度蜘蛛

    在这个主题中,我们将探讨如何使用JAVA来创建一个类似于百度蜘蛛的搜索引擎。首先,我们需要理解百度蜘蛛(也称为网络爬虫)的工作原理。 百度蜘蛛是百度搜索引擎的重要组成部分,它的主要任务是遍历互联网上的网页...

Global site tag (gtag.js) - Google Analytics