按奈不住激动你横眉冷对怒发冲冠:百度你是吃屎的吗?该发布的发布了,该提交的提交了,现在都半月过去了,还毫无动静!谷歌?还好了,已经过百了,可一个IP都没有啊!真不明白它们到底干什么去了,反映这么慢。还让不让老子干了?
对了,我网站是不是有问题?你帮我看看……于是,另一番歇斯底里的好戏上场了。在我看来,百度并没有吃屎,恰恰于此相反,他是靠吃我们站长长大的。抛开那些牢骚不说,当我们开始对工作有疑问时,为什么不尝试自己去解决呢?
实际上,当我们开始牢骚时,暗流正在涌动,白纸黑字已经隐藏在日志里了。本文将和大家一起,通过分析网站日志,初步把握百度谷歌等搜索引擎和我们网站的交互情况。特别是网站建立初期,对我们正确评估网站,有着比较重要的指导意义。
认识几个搜索引擎爬虫
Googlebot
谷歌搜索引擎爬虫,当它第一次出现在你网站日志时,谷歌和网站的漫长交往正式开始。Googlebot 是 Google
的网页抓取机器人(有时称为“信息采集软件”)。抓取是 Googlebot 发现新网页和更新的网页以将这些网页添加到 Google 索引中的过程。
Baiduspider
百度蜘蛛,大多数中文网站辛辛苦苦,就是为了有朝一日能和这个蜘蛛搞对眼,对眼了小站也就有油水了。Baiduspider 是百度搜索引擎的一个自动程序,它的作用是访问互联网上的网页,建立索引数据库,使用户能在百度搜索引擎中搜索到您网站上的网页。
Sogou+web+spider
:sogou spider是搜狗搜索引擎的一个自动程序。它的作用是访问互联网上的网页,存储到本地数据库中,并从中发现新的链接,走访互联网,使用户能在搜狗搜索引擎中搜索到您网站的网页。
ia_archiver
:这个是Alexa的蜘蛛爬虫,和Googlebot、Baiduspider一样,为收集用户数据而存在。
Sosospider+、HuaweiSymantecSpider、MJ12bot、+bingbot、ichiro等等不一而足。我们要对它们来访表现出热情与好客,有朋自远方来,要不亦乐乎?
搜索引擎爬虫第一次到你的网站都干什么?
就如同拜访您的朋友,到你家门口都会礼貌的敲门,吃一两次闭门羹或许尚可忍受,吃多了闭门羹,从此和你一刀两断,能否挽回交情那自要下另一番功夫了,咱们不去讨论。这里看看蜘蛛爬虫第一次到我们网站,它们会先干什么呢?用分析数据说话。
2011-10-12 14:53:22 *** GET http://www.1ju.org//robots.txt *;+Googlebot/2.1;* 404
2011-10-13 02:16:58 *** GET http://www.1ju.org//robots.txt * Baiduspider * 404
2011-10-13 11:12:00 *** GET http://www.1ju.org//robots.txt * Sosospider+ * 404
2011-10-17 01:46:56 GET http://www.1ju.org//robots.txt *;+Googlebot/2.1;* 200
上面的时间是GMT时间,我们是在东八区,加上8小时就是北京时间了。从上面可知,谷歌百度搜搜先后来本站请求robots.txt文件返回404错误,页面无法找到。17日早6点我写了一个robots.txt文件,谷歌第一时间请求该文件,返回200成功状态码。
2011-10-12 15:44:53 *** GET http://www.1ju.org//index.asp *+Googlebot/2.1; * 200
2011-10-12 22:01:23 *** GET http://www.1ju.org//index.asp * Sogou+web+spider/4.0 * 200
2011-10-13 01:22:19 *** GET http://www.1ju.org//index.asp *;+Baiduspider/2.0; * 200
2011-10-14 12:17:47 *** GET http://www.1ju.org//index2.asp *;+Googlebot/2.1;* 200
12日晚上21点左右,谷歌爬虫率先请求了我的首页,网站积极响应返回200状态码,搜狗百度紧跟其后。14日为线上测试需要,把默认首页改成index2.asp,并在上面写上蛋蛋的蛋,谷歌不负众望很快收录,三日之后还给我放了出来,让我哭笑不得。
请注意红色标记Baiduspider和+Baiduspider/2.0,前面是个先头兵?从上面结果来看,百度貌似跟着谷歌屁股走抓取反映慢半拍。我认为不然,我喜欢用Firefox编辑测试,Firefox有谷歌工具条,并习惯于登录状态。
搜索引擎爬虫在不遗余力抓取页面
制作了比较全面的站点地图索引和站点地图,向百度和谷歌示好,并作了提交工作。一只(一个IP)谷歌爬虫开始慢个悠悠请求着页面,18日早晨稳定在七百左右的数量级,到此博文发布位置谷歌爬虫一直再爬却不见收录。
googlebot在请求XML站点地图
百度于18日晚,放出五条以上爬虫开始大规模践踏行动,因为我发现至少五个不同颜色的标着IP的Baiduspider在迅速行动,此时谷歌在大量日志中不时蹦出一条显然处于弱势了;中间穿插的搜狗、搜搜像戏剧里的丑角,偶尔露个脸跑个场就匆匆走下舞台。
关于蜘蛛爬虫的一些后话
对于一个新站,任何爬虫都会主动积极的去接触。百度15天才放站那是它玩游戏的习惯做事的法则。我们不可要求百度像谷歌那样怎样,也不能要求谷歌想百度如何,毕竟他们有各自不同的特点。
我们在抱怨百度或谷歌的“不作为”,大体是因为没有看到这些爬虫的辛勤劳动。这是我想起了领导隔三差五让我优化关键字,我一直努力在做,可领导一直不满意。或许这里面有着相同的存在。
手工查看日志,在网站初期是件有意思的事。因为在没有人知道你网站之前,只有蜘蛛和你在访问你的小站。慢慢的经过你的精心照顾和蜘蛛爬虫的努力工作,小站才有展露头角的机会,这过程仔细想想蕴含着一种感动。
此刻已是凌晨,抛开那些让我们省时省力的工具,喝杯咖啡紧盯屏幕看这些无聊繁杂的日志,对我来说似乎成习惯成瘾了。
分享到:
相关推荐
本文将详细探讨服务器Web日志分析软件的相关知识点,以及如何利用这样的工具进行有效的数据挖掘。 首先,我们要理解什么是Web日志。Web日志是Web服务器在处理HTTP请求时记录的一系列事件,包括但不限于用户访问、...
总结来说,基于Hadoop的Web日志分析是利用大数据技术解决实际问题的典型应用,它能够帮助我们从海量的Web日志数据中挖掘有价值的信息,为企业决策提供数据支持。通过不断学习和实践,我们可以更好地掌握Hadoop及相关...
高页面延迟可能影响用户留存率和搜索引擎排名,因此,通过"apache-response-time"工具识别并减少页面延迟是提升网站整体性能的关键。 总结起来,"apache-response-time"项目利用Perl语言处理Apache服务器访问日志,...
Elasticsearch是一个强大的分布式搜索引擎,能够处理海量非结构化数据,与Go的集成非常成熟,是处理日志数据的理想选择。 在系统架构上,Poseidon可能会采用分层设计,包括数据采集层、数据存储层、数据处理层和...
Apache Solr是一款广泛使用的开源搜索引擎,它基于Apache Lucene项目。Solr提供了高性能、可扩展和容错的搜索功能,广泛应用于全文搜索、数据挖掘、电子商务以及企业级应用中。Java开发人员经常利用Solr的全文检索...
3. **搜索引擎优化(SEO)分析**:可以追踪搜索引擎带来的流量,分析关键词排名,帮助改进网站的搜索引擎可见性。 4. **错误检测**:发现404错误(未找到页面)、500错误(服务器内部错误)等,及时修复,提升用户...
这项技术广泛应用于数据抓取、搜索引擎优化、网络监控、市场研究等多个场景。下面我们将详细探讨这个主题。 首先,我们需要理解HTTP协议。HTTP(超文本传输协议)是互联网上应用最广泛的一种网络协议,用于从万维网...
首先,大数据搜索技术的核心在于搜索引擎,它通常由数据采集、预处理、索引建立、查询处理和结果展示等几个主要部分组成。数据采集阶段,系统需要从各种Web源获取数据,如网页、社交媒体、日志文件等。预处理则涉及...
它最初是为了支持搜索引擎的海量数据处理需求而诞生的。Hadoop的核心是HDFS(Hadoop Distributed File System)和MapReduce。HDFS是一种分布式文件系统,可以将文件分布存储在多个节点上,提高数据处理的效率和容错...
这种技术通常用于数据挖掘、市场分析、搜索引擎索引等目的。 在Java中,构建Web爬虫通常涉及到以下几个核心组件: 1. **网络请求库**:Java提供了如Apache HttpClient、OkHttp和HttpURLConnection等库,用于发起...
4. **详细报告**:提供丰富的图形和表格报告,包括访问者数量、页面浏览量、搜索引擎来源、最常访问页面、浏览器和操作系统分布等。 5. **安全防护**:通过识别和过滤机器人、蜘蛛和恶意 IP,保护网站免受无效或有害...
- 访问日志收集:介绍如何通过Nginx、Apache等Web服务器收集访问日志。 - 数据清洗与整理:对原始日志数据进行清洗和格式化处理。 - 流量趋势分析:利用Elasticsearch提供的统计功能,分析网站流量变化趋势,发现...
此外,为了快速查询,可能还会使用Elasticsearch这样的搜索引擎进行索引。 4. **数据分析模块**:通过对日志数据进行聚合、统计和挖掘,可以发现系统的运行模式和异常行为。这里可能用到Spark、Flink等流处理框架,...
Elasticsearch(简称 ES)是一款开源的、基于 Lucene 的搜索引擎,它提供了分布式的多用户能力的全文搜索引擎,基于 RESTful Web 接口。ES 采用 Java 开发,并作为 Apache 许可条款下的开放源码发布,是当前非常流行...
这本书将介绍如何利用HBase(一个开源的非关系型分布式数据库),Hive(一种数据仓库基础设施),Pig(一个高层次的数据流语言和执行框架),Mahout(一个可扩展的机器学习库),和Nutch(一个开源的Web搜索引擎)来...
7. **robots.txt**:这是一个文本文件,告诉搜索引擎哪些页面可以抓取,哪些禁止抓取,对于网站的SEO策略有一定影响。 8. **新手必读.url**:可能是指向一个新手教程或者指南的链接,帮助初次使用此模板的开发者...
常见的日志采集工具有Hadoop的Chukwa、Apache Flume、Facebook的Scribe以及LinkedIn的Kafka等。其中,Flume是一个高可靠性的分布式系统,用于收集、聚合和传输数据。它支持自定义数据源,能够处理各种数据并将其写入...
2. **日志系统**:结合Logstash,Elasticsearch能够收集、聚合和分析日志数据,帮助企业挖掘潜在价值信息。 3. **价格提醒平台**:通过Elasticsearch的反向搜索(Percolator)功能,实时监控价格变动,及时推送提醒。 ...
5. **统计功能**:PHPStat的主要功能包括页面浏览量统计、独立访客统计、访问路径分析、搜索引擎关键词分析、用户地理位置识别等。了解这些功能的工作原理和实现方式,有助于更好地利用系统。 6. **安全与优化**:...