`
eimhee
  • 浏览: 2159305 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

利用APACHE WEB日志挖掘搜索引擎

阅读更多

按奈不住激动你横眉冷对怒发冲冠:百度你是吃屎的吗?该发布的发布了,该提交的提交了,现在都半月过去了,还毫无动静!谷歌?还好了,已经过百了,可一个IP都没有啊!真不明白它们到底干什么去了,反映这么慢。还让不让老子干了?

对了,我网站是不是有问题?你帮我看看……于是,另一番歇斯底里的好戏上场了。在我看来,百度并没有吃屎,恰恰于此相反,他是靠吃我们站长长大的。抛开那些牢骚不说,当我们开始对工作有疑问时,为什么不尝试自己去解决呢?

实际上,当我们开始牢骚时,暗流正在涌动,白纸黑字已经隐藏在日志里了。本文将和大家一起,通过分析网站日志,初步把握百度谷歌等搜索引擎和我们网站的交互情况。特别是网站建立初期,对我们正确评估网站,有着比较重要的指导意义。

认识几个搜索引擎爬虫


Googlebot
谷歌搜索引擎爬虫,当它第一次出现在你网站日志时,谷歌和网站的漫长交往正式开始。Googlebot 是 Google 
的网页抓取机器人(有时称为“信息采集软件”)。抓取是 Googlebot 发现新网页和更新的网页以将这些网页添加到 Google 索引中的过程。

Baiduspider
百度蜘蛛,大多数中文网站辛辛苦苦,就是为了有朝一日能和这个蜘蛛搞对眼,对眼了小站也就有油水了。Baiduspider  是百度搜索引擎的一个自动程序,它的作用是访问互联网上的网页,建立索引数据库,使用户能在百度搜索引擎中搜索到您网站上的网页。

Sogou+web+spider
:sogou  spider是搜狗搜索引擎的一个自动程序。它的作用是访问互联网上的网页,存储到本地数据库中,并从中发现新的链接,走访互联网,使用户能在搜狗搜索引擎中搜索到您网站的网页。

ia_archiver
:这个是Alexa的蜘蛛爬虫,和Googlebot、Baiduspider一样,为收集用户数据而存在。

Sosospider+、HuaweiSymantecSpider、MJ12bot、+bingbot、ichiro等等不一而足。我们要对它们来访表现出热情与好客,有朋自远方来,要不亦乐乎?

搜索引擎爬虫第一次到你的网站都干什么?


就如同拜访您的朋友,到你家门口都会礼貌的敲门,吃一两次闭门羹或许尚可忍受,吃多了闭门羹,从此和你一刀两断,能否挽回交情那自要下另一番功夫了,咱们不去讨论。这里看看蜘蛛爬虫第一次到我们网站,它们会先干什么呢?用分析数据说话。

 

    2011-10-12 14:53:22 *** GET http://www.1ju.org//robots.txt *;+Googlebot/2.1;* 404

    2011-10-13 02:16:58 *** GET http://www.1ju.org//robots.txt * Baiduspider * 404

    2011-10-13 11:12:00 *** GET http://www.1ju.org//robots.txt * Sosospider+ * 404

    2011-10-17 01:46:56 GET http://www.1ju.org//robots.txt *;+Googlebot/2.1;* 200


 

上面的时间是GMT时间,我们是在东八区,加上8小时就是北京时间了。从上面可知,谷歌百度搜搜先后来本站请求robots.txt文件返回404错误,页面无法找到。17日早6点我写了一个robots.txt文件,谷歌第一时间请求该文件,返回200成功状态码。

    2011-10-12 15:44:53 *** GET http://www.1ju.org//index.asp *+Googlebot/2.1; * 200

    2011-10-12 22:01:23 *** GET http://www.1ju.org//index.asp * Sogou+web+spider/4.0 * 200

    2011-10-13 01:22:19 *** GET http://www.1ju.org//index.asp *;+Baiduspider/2.0; * 200

    2011-10-14 12:17:47 *** GET http://www.1ju.org//index2.asp *;+Googlebot/2.1;* 200

 

12日晚上21点左右,谷歌爬虫率先请求了我的首页,网站积极响应返回200状态码,搜狗百度紧跟其后。14日为线上测试需要,把默认首页改成index2.asp,并在上面写上蛋蛋的蛋,谷歌不负众望很快收录,三日之后还给我放了出来,让我哭笑不得。

请注意红色标记Baiduspider和+Baiduspider/2.0,前面是个先头兵?从上面结果来看,百度貌似跟着谷歌屁股走抓取反映慢半拍。我认为不然,我喜欢用Firefox编辑测试,Firefox有谷歌工具条,并习惯于登录状态。

 

搜索引擎爬虫在不遗余力抓取页面

制作了比较全面的站点地图索引和站点地图,向百度和谷歌示好,并作了提交工作。一只(一个IP)谷歌爬虫开始慢个悠悠请求着页面,18日早晨稳定在七百左右的数量级,到此博文发布位置谷歌爬虫一直再爬却不见收录。

 

 

googlebot在请求XML站点地图

百度于18日晚,放出五条以上爬虫开始大规模践踏行动,因为我发现至少五个不同颜色的标着IP的Baiduspider在迅速行动,此时谷歌在大量日志中不时蹦出一条显然处于弱势了;中间穿插的搜狗、搜搜像戏剧里的丑角,偶尔露个脸跑个场就匆匆走下舞台。

 

 

关于蜘蛛爬虫的一些后话

对于一个新站,任何爬虫都会主动积极的去接触。百度15天才放站那是它玩游戏的习惯做事的法则。我们不可要求百度像谷歌那样怎样,也不能要求谷歌想百度如何,毕竟他们有各自不同的特点。

我们在抱怨百度或谷歌的“不作为”,大体是因为没有看到这些爬虫的辛勤劳动。这是我想起了领导隔三差五让我优化关键字,我一直努力在做,可领导一直不满意。或许这里面有着相同的存在。

手工查看日志,在网站初期是件有意思的事。因为在没有人知道你网站之前,只有蜘蛛和你在访问你的小站。慢慢的经过你的精心照顾和蜘蛛爬虫的努力工作,小站才有展露头角的机会,这过程仔细想想蕴含着一种感动。

此刻已是凌晨,抛开那些让我们省时省力的工具,喝杯咖啡紧盯屏幕看这些无聊繁杂的日志,对我来说似乎成习惯成瘾了。

 

1
0
分享到:
评论

相关推荐

    服务器web日志分析软件

    本文将详细探讨服务器Web日志分析软件的相关知识点,以及如何利用这样的工具进行有效的数据挖掘。 首先,我们要理解什么是Web日志。Web日志是Web服务器在处理HTTP请求时记录的一系列事件,包括但不限于用户访问、...

    基于Hadoop的Web日志分析.zip

    总结来说,基于Hadoop的Web日志分析是利用大数据技术解决实际问题的典型应用,它能够帮助我们从海量的Web日志数据中挖掘有价值的信息,为企业决策提供数据支持。通过不断学习和实践,我们可以更好地掌握Hadoop及相关...

    apache-response-time:针对apache Web服务器访问日志的性能分析,重点是响应时间

    高页面延迟可能影响用户留存率和搜索引擎排名,因此,通过"apache-response-time"工具识别并减少页面延迟是提升网站整体性能的关键。 总结起来,"apache-response-time"项目利用Perl语言处理Apache服务器访问日志,...

    Go-Poseidon360出品的日志搜索平台

    Elasticsearch是一个强大的分布式搜索引擎,能够处理海量非结构化数据,与Go的集成非常成熟,是处理日志数据的理想选择。 在系统架构上,Poseidon可能会采用分层设计,包括数据采集层、数据存储层、数据处理层和...

    apache-solr-ref-guide

    Apache Solr是一款广泛使用的开源搜索引擎,它基于Apache Lucene项目。Solr提供了高性能、可扩展和容错的搜索功能,广泛应用于全文搜索、数据挖掘、电子商务以及企业级应用中。Java开发人员经常利用Solr的全文检索...

    日志分析工具

    3. **搜索引擎优化(SEO)分析**:可以追踪搜索引擎带来的流量,分析关键词排名,帮助改进网站的搜索引擎可见性。 4. **错误检测**:发现404错误(未找到页面)、500错误(服务器内部错误)等,及时修复,提升用户...

    http web parse

    这项技术广泛应用于数据抓取、搜索引擎优化、网络监控、市场研究等多个场景。下面我们将详细探讨这个主题。 首先,我们需要理解HTTP协议。HTTP(超文本传输协议)是互联网上应用最广泛的一种网络协议,用于从万维网...

    基于Web系统的大数据搜索技术的实现和优化.zip

    首先,大数据搜索技术的核心在于搜索引擎,它通常由数据采集、预处理、索引建立、查询处理和结果展示等几个主要部分组成。数据采集阶段,系统需要从各种Web源获取数据,如网页、社交媒体、日志文件等。预处理则涉及...

    基于Hadoop的校园网站日志系统的 设计与实现

    它最初是为了支持搜索引擎的海量数据处理需求而诞生的。Hadoop的核心是HDFS(Hadoop Distributed File System)和MapReduce。HDFS是一种分布式文件系统,可以将文件分布存储在多个节点上,提高数据处理的效率和容错...

    Open Source Web Crawler for Java.zip

    这种技术通常用于数据挖掘、市场分析、搜索引擎索引等目的。 在Java中,构建Web爬虫通常涉及到以下几个核心组件: 1. **网络请求库**:Java提供了如Apache HttpClient、OkHttp和HttpURLConnection等库,用于发起...

    awstats-7.3

    4. **详细报告**:提供丰富的图形和表格报告,包括访问者数量、页面浏览量、搜索引擎来源、最常访问页面、浏览器和操作系统分布等。 5. **安全防护**:通过识别和过滤机器人、蜘蛛和恶意 IP,保护网站免受无效或有害...

    elasticsearch进阶教程,elasticsearch开发教程

    - 访问日志收集:介绍如何通过Nginx、Apache等Web服务器收集访问日志。 - 数据清洗与整理:对原始日志数据进行清洗和格式化处理。 - 流量趋势分析:利用Elasticsearch提供的统计功能,分析网站流量变化趋势,发现...

    开源项目-buguang01-LogService.zip

    此外,为了快速查询,可能还会使用Elasticsearch这样的搜索引擎进行索引。 4. **数据分析模块**:通过对日志数据进行聚合、统计和挖掘,可以发现系统的运行模式和异常行为。这里可能用到Spark、Flink等流处理框架,...

    Elasticsearch 的分享

    Elasticsearch(简称 ES)是一款开源的、基于 Lucene 的搜索引擎,它提供了分布式的多用户能力的全文搜索引擎,基于 RESTful Web 接口。ES 采用 Java 开发,并作为 Apache 许可条款下的开放源码发布,是当前非常流行...

    Hadoop MapReduce Cookbook

    这本书将介绍如何利用HBase(一个开源的非关系型分布式数据库),Hive(一种数据仓库基础设施),Pig(一个高层次的数据流语言和执行框架),Mahout(一个可扩展的机器学习库),和Nutch(一个开源的Web搜索引擎)来...

    Thinkphp高端Thinkphp工程机械推土挖掘机类网站模板商务汽车租赁公司网站模板

    7. **robots.txt**:这是一个文本文件,告诉搜索引擎哪些页面可以抓取,哪些禁止抓取,对于网站的SEO策略有一定影响。 8. **新手必读.url**:可能是指向一个新手教程或者指南的链接,帮助初次使用此模板的开发者...

    大数据中数据采集的几种方式.pdf

    常见的日志采集工具有Hadoop的Chukwa、Apache Flume、Facebook的Scribe以及LinkedIn的Kafka等。其中,Flume是一个高可靠性的分布式系统,用于收集、聚合和传输数据。它支持自定义数据源,能够处理各种数据并将其写入...

    ElasticSearch.docx

    2. **日志系统**:结合Logstash,Elasticsearch能够收集、聚合和分析日志数据,帮助企业挖掘潜在价值信息。 3. **价格提醒平台**:通过Elasticsearch的反向搜索(Percolator)功能,实时监控价格变动,及时推送提醒。 ...

    PHPStat网站流量统计系统.7z

    5. **统计功能**:PHPStat的主要功能包括页面浏览量统计、独立访客统计、访问路径分析、搜索引擎关键词分析、用户地理位置识别等。了解这些功能的工作原理和实现方式,有助于更好地利用系统。 6. **安全与优化**:...

Global site tag (gtag.js) - Google Analytics