`
lzj0470
  • 浏览: 1272623 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

网络爬虫资料筹备中

阅读更多
网页发布时间就是某个具体URL诞生的日子,这个很好理解。有些网页上会有标明,也可以通过安装浏览器插件看到,或者通过Google高级搜索也可以看到(但是后两个方法获得的时间不一定准确)。

Google爬虫访问页面的时间,是指Google爬虫光顾过页面的时间,不表示Google收录该页面。爬虫访问时间在apache日志里面可以查看到。Google爬虫会不定期的访问某个页面,其中最近的访问时间就是Google快照里的缓存时间(Cache)。

网页被Google收录的时间是指Google将网页收录到数据库里的时间。目前我们在Google里搜索的时候,会看到某些结果旁边有标记时间,譬如下图。
[url]
http://www.websbook.com/upimg/allimg/090526/1327450.gif
[/url]

对于新页面来说,这个页面是初次被收录的时间——很多时候这个页面与新网页的发布时间比较近,因为Google现在技术很NB;对于老页面而言,这个页面是Google数据库对该页面的最新更新时间——老页面只有在被发现有重大更新的时候,Google才会重新下载页面内容并做相关更新,比如搜索结果里面的更新时间显示、Cache页面更新等等。

如果Google的爬虫在访问某个页面的时候,收到304回应,那GG就不会重新下载页面的内容,因为304代码表示页面未有变动。但如果是非 304反馈的时候,GG就会下载页面内容,与数据库里的旧版本比较后决定是否采取对应行动,因为页面上的改动有些是非常微小不重要,是不需要GG采取任何更新动作的。所以页面的更新时间意义不大,也不是每次修改页面内容都会对搜索引擎有影响作用。
分享到:
评论

相关推荐

    网络爬虫文档资料

    本文档资料将深入探讨如何利用Java语言来构建有效的网络爬虫。 一、基础概念 1. HTTP协议:网络爬虫主要基于HTTP或HTTPS协议与服务器进行交互,获取网页内容。理解HTTP请求方法(GET、POST等)以及响应状态码是至...

    网络爬虫资料,全套Java写的

    - JSON与XML:数据交换格式,用于在网络爬虫中传递和解析数据。 - 文件存储:CSV、TXT等文件格式用于批量保存数据。 8. **实战项目** - 简单网页抓取:从静态网站抓取新闻、评论等数据。 - 动态内容爬取:使用...

    网络爬虫作业练习_爬虫_python学习_网络爬虫_python_

    在IT领域,网络爬虫是一项重要的技术,尤其对于数据挖掘、数据分析和自动化信息获取来说更是不可或缺。本主题围绕“网络爬虫作业练习”,主要涉及Python编程语言和相关的爬虫技术,我们将深入探讨这些知识点。 首先...

    解析Python网络爬虫:核心技术、Scrapy框架、分布式爬虫全套教学资料

    Python网络爬虫是一种用于自动化网页数据抓取的技术,它能够高效地从互联网上获取大量信息。本套教学资料深入解析了Python爬虫的核心技术、Scrapy框架以及分布式爬虫的实现,旨在帮助学习者掌握这一领域的核心技能。...

    python网络爬虫学习教程资料 简明易懂

    python网络爬虫学习教程资料 简明易懂python网络爬虫学习教程资料 简明易懂python网络爬虫学习教程资料 简明易懂python网络爬虫学习教程资料 简明易懂python网络爬虫学习教程资料 简明易懂python网络爬虫学习教程...

    网络爬虫论文资料

    10. **学术研究**:压缩包中的论文资料可能涵盖了爬虫算法优化、反反爬策略研究、爬虫性能评估、数据质量保证等方面,对于深入理解网络爬虫的理论和实践具有重要价值。 这些只是网络爬虫领域的一部分核心概念和知识...

    网络爬虫和搜索引擎的资料

    本文将深入探讨这两个主题,并结合提供的文件名称“自己动手写搜索引擎.pdf”、“自己动手写网络爬虫.pdf”以及可能包含的“网络爬虫资料”,解析相关知识点。 **网络爬虫** 网络爬虫,又称网页蜘蛛或网络机器人,...

    网络爬虫.论文答辩PPT

    在网络爬虫的论文答辩PPT中,主要涉及以下几个知识点: 1. **网络爬虫的基本原理**:网络爬虫通常由以下几个部分组成:URL管理器、下载器、解析器和数据库。URL管理器负责跟踪要访问的网页列表,下载器获取网页内容...

    Python网络爬虫技术_习题答案.rar

    本资源“Python网络爬虫技术_习题答案.rar”看似是一个教学资料,包含了一些图像文件和章节内容,我们可以从这些信息中推测出相关的知识点。 首先,从标题我们可以知道这是一个关于Python网络爬虫技术的习题解答集...

    Python网络爬虫实战.pdf

    本书从Python的安装开始,详细讲解了Python从简单程序延伸到Python网络爬虫的全过程。本书从实战出发,根据不同的需求选取不同的爬虫,有针对性地讲解了几种Python网络爬虫。本书共8章,涵盖的内容有Python语言的...

    网络爬虫技术 爬虫技术

    网络爬虫技术 爬虫技术网络爬虫技术 爬虫技术网络爬虫技术 爬虫技术网络爬虫技术 爬虫技术网络爬虫技术 爬虫技术网络爬虫技术 爬虫技术网络爬虫技术 爬虫技术网络爬虫技术 爬虫技术网络爬虫技术 爬虫技术网络爬虫...

    解析Python网络爬虫_复习大纲.docx

    解析Python网络爬虫_复习大纲.docx 本文档是关于Python网络爬虫的复习大纲,涵盖了爬虫的基本概念、实现原理、技术、网页请求原理、抓取网页数据、数据解析、并发下载、抓取动态内容、图像识别与文字处理、存储爬虫...

    网络爬虫论文答辩PPT课件

    网络爬虫论文答辩,网络爬虫论文答辩课件,网络爬虫论文答辩PPT

    Python写网络爬虫经典资料

    《Python写网络爬虫经典资料》是一本专为Python爱好者和爬虫开发者量身打造的指南,涵盖了Python网络爬虫的各个方面。这本书以其详尽的解释和丰富的示例,为读者提供了一条深入理解网络爬虫开发的清晰路径。下面,...

    Python网络爬虫代码

    在网络爬虫中,正则表达式常用于清洗和提取数据。 4. **网页解析**:在爬取网页时,需要理解HTML和CSS的工作原理,以便正确定位和提取数据。这包括识别HTML标签、类名和ID,以及理解相对和绝对URL的概念。 5. **...

    网络爬虫需求分析.docx

    网络爬虫需求分析需要参考以下资料: * 网络爬虫技术的发展现状 * 网络爬虫系统的应用场景 * 网络爬虫系统的技术架构 * 网络爬虫系统的开发和实施 2. 任务概述 2.1 目标 网络爬虫需求分析的目标是对网络爬虫系统...

    Python网络爬虫实习报告.pdf

    在本实习报告中,我们将深入探讨Python网络爬虫的相关知识,并通过实例演示如何使用Python爬虫框架来爬取豆瓣网上的电影数据。 首先,我们要理解爬虫的基本原理。网络爬虫通常分为三个步骤:请求网页、解析网页和...

    Python入门网络爬虫之精华版

    本篇文章《Python入门网络爬虫之精华版》主要介绍了Python网络爬虫的基础知识,从抓取、分析到存储的三个主要方面,以及如何应对一些常见的反爬虫机制。此外,还提及了Scrapy这一流行的爬虫框架,并提供了一个参考...

Global site tag (gtag.js) - Google Analytics