`

通过网站日志做网络爬虫和恶意访问分析

阅读更多

http://www.sunnyu.com/?p=4

 

今天公司网站系统发生短暂的访问中断,虽然临时性的通过重启网站服务达到正常运作的目的,但是后续的分析工作还是要做的。

首先使用命令

  1. cat www.access.log | grep spider -c

  1. cat www.access.log | wc

分别查看有爬虫标志的访问次数和合计的总页面访问次数,发现还有爬虫标志的访问次数超过总访问次数的 10%, 访问显得有些不正常。

使用

  1. cat www.access.log | grep spider| awk '{print $1}' | sort -n| uniq -c| sort -nr

命令查看爬虫来ip地址来源,发现主要来至于 124.115.4.*和124.115.0.* 这两个地址段。

在防火墙上对其地址做限制。

/etc/sysconfig/iptables 中添加规则

-A RH-Firewall-1-INPUT -m state –state NEW -m tcp -p tcp –dport 80 -s 124.115.0.1/24 -j REJECT
-A RH-Firewall-1-INPUT -m state –state NEW -m tcp -p tcp –dport 80 -s 124.115.4.1/24 -j REJECT

service iptables restart 使限制生效

一些已知的爬虫可以在 http://www.wangzhongyuan.com/archives/367.html 看到。可以针对自己的情况做一下分析处理,有选择性的让一些爬虫来访问。当然这个地址列出的都是一些比较有名的爬虫,如Googlebot, Baiduspider,Sogo,Yahoo等都是比较上规矩的,对他们可以通过robots.txt进行爬虫访问规则的设置,而那些较稀奇的比如这里 列出的 Sosospider等就没有被列出,所以更多的小爬虫和恶意的访问还是要自己来具体分析处理的。

从网站日志文件中找出爬虫和恶意访问

一般可以对网站访问日志做分析,通过分析单位时间里面某个ip访问服务器的次数等信息来找出爬虫的来源地址和恶意访问的来源地址,比如通过

  1. cat www.access.log | awk '{print $1 " " substr($4,14,5)}' | sort -n| uniq -c| sort -nr| head -20

这么一个命令就可以列出在一分钟内访问网站次数最多的前20位ip地址。

而通过

  1. cat www.access.log | grep 60.190 .128 .6 | awk '{print $1 " " substr($4,14,5)}' | sort -n| uniq -c| sort -nr| head -20

这个命令则可以查看一天中某个ip地址对网站服务器的访问时间分段情况。

对这些命令中表现出的数量比较突出的一些ip地址,一般来说就是有问题的ip了,在配合

  1. cat www.access.log | grep ip地址

可以看看这些高强度的地址访问都在干些什么。是不是正常访问,如果不是就要考虑是否要做限制了。

 

分享到:
评论

相关推荐

    网站日志分析工具 IIS日志分析 WEB日志分析 | chexian100.com

    本文将深入探讨IIS日志分析和WEB日志分析的相关知识点,以及如何利用工具进行有效的分析。 首先,让我们了解一下IIS日志。IIS(Internet Information Services)是微软公司开发的一款Web服务器,它生成的日志文件...

    逆火网站日志分析器

    逆火网站日志分析器是一款专门用于处理和解析网站服务器日志的工具,它能够帮助网络管理员、开发者以及SEO专家深入了解网站的运行状况,优化性能,查找潜在问题。日志分析是网站管理的重要环节,通过分析日志,我们...

    光年日志分析工具(网站日志分析软件)

    光年日志分析工具是一款专为网站管理员设计的高效、便捷的日志分析软件,它能够处理IIS(Internet Information Services)和Apache等不同服务器产生的日志文件,为网站运营提供宝贵的洞察力。作为一款强大的分析工具...

    亮析网站日志分析工具

    6. **安全防护**:通过分析日志,可以发现潜在的恶意攻击或爬虫行为,提高网站安全性。 除了上述功能,"亮析网站日志分析工具2.1标准版"还提供了更新功能(Update.exe),确保软件始终保持最新,获取最新的算法和...

    光年日志分析工具.zip

    网站日志分析是网络运维和优化过程中的关键步骤,因为它提供了网站运行状态的第一手数据。光年日志分析工具主要关注以下几个方面的知识: 1. **日志文件格式**:网站服务器通常记录HTTP交互的详细信息,这些信息以...

    python网络爬虫_pgc.zip

    在网络技术日益发展的今天,网络爬虫已经成为数据获取的重要手段。网络爬虫,顾名思义,就是一种自动获取网页内容的程序,...通过分析和学习这些代码,可以帮助开发者更好地掌握如何使用Python语言开发高效的网络爬虫。

    服务器web日志分析软件

    3. **安全分析**:识别恶意访问和攻击,例如SQL注入、DDoS攻击等。通过对异常访问模式的分析,可以提高网站的安全性。 4. **用户行为分析**:了解用户访问路径、停留时间,有助于优化网站设计,提高转化率。 5. **...

    网站日志分析器

    网站日志分析器是一款专为站长和网站管理员设计的实用工具,主要用于解析和理解网站的日志文件(通常命名为.log)。这些日志文件记录了网站服务器与客户端之间交互的所有细节,对于监控网站性能、识别问题、优化用户...

    网站日志分析器.rar

    通过收集和分析日志中的IP地址,我们可以绘制用户分布图,识别异常访问模式,以提升网络安全性和用户体验。 "秋式网站日志分析器.exe"很可能是一个可执行文件,用户在Windows操作系统环境下运行,即可启动这个工具...

    光年日志分析工具

    总结来说,光年日志分析工具是一款强大的网站运维辅助工具,它通过对IIS和Apache日志的深度解析,为网站管理员提供了宝贵的洞察力,帮助提升网站性能、用户体验,并确保网站安全稳定运行。无论你是个人站长还是企业...

    网络爬虫源代码Java版本

    网络爬虫,也被称为网页蜘蛛或自动索引器,是一种自动化程序,用于遍历互联网上的网页,抓取其中的信息,并可以按照预设规则进行存储和分析。在Java中实现网络爬虫,通常会涉及到以下几个核心知识点: 1. **HTTP...

    日志分析工具

    在IT行业中,日志分析是一项至关重要的...总的来说,日志分析工具是网站管理和优化的利器,通过深入挖掘日志数据,我们可以对网站做出针对性的改进,提升其在搜索引擎中的表现,同时也能确保用户获得更优质的浏览体验。

    站长必备:光年日志分析软件

    通过光年日志分析软件,站长可以了解搜索引擎爬虫的抓取频率、抓取深度、抓取错误等问题,从而调整网站结构和内容,提高搜索引擎对网站的友好度,提升网站在搜索结果中的排名。 其次,该软件能够帮助检测和预防安全...

    windows日志分析#linux日志分析#web日志分析#windows入侵排查#linux入侵排查

    在IT安全领域,日志分析和入侵排查是至关重要的任务,尤其对于系统管理员和网络安全专家而言。本篇文章将深入探讨Windows、Linux以及Web日志分析和相关入侵排查的知识点。 首先,我们来看Windows日志分析。Windows...

    Apache访问日志分析(含源代码)

    Apache访问日志是记录Web服务器...总的来说,这个基于C#的Apache访问日志分析工具为管理和优化网站提供了宝贵的洞察,是Web运维不可或缺的辅助工具。通过深入学习和使用,我们可以更有效地管理和提升网站的服务质量。

    分析iis日志了解蜘蛛爬行抓取网站习性

    此外,对于那些频繁访问但并不带来实际价值的蜘蛛(比如消耗大量服务器资源的恶意爬虫),可以通过分析日志找出它们的特征,并在服务器配置中设置相应的规则进行屏蔽,以减少不必要的资源浪费。 #### 二、如何下载...

    一款基于机器学习的Web日志统计分析与异常检测命令行工具.zip

    标题中的“一款基于机器学习的Web日志统计分析与异常检测命令行工具”指的是一个专门设计用于处理Web服务器日志的软件,它利用了机器学习技术来实现对日志数据的统计分析和异常检测。这样的工具对于网络安全和网站...

    IIS日志分析器

    8. **性能优化**:通过对日志的深入分析,可以发现导致服务器性能下降的问题,比如高并发访问的热点资源,从而优化服务器配置和网站性能。 9. **安全审计**:通过对异常访问模式的分析,可以及时发现潜在的安全风险...

    web日志安全分析工具 V2.0

    - **网站运营分析**:通过检测异常访问模式,分析用户行为,提升网站用户体验,同时防止非法爬虫对网站内容的滥用。 - **网络取证**:在发生安全事件后,工具提供的详细报告可以帮助进行事后分析,追踪攻击源头,为...

Global site tag (gtag.js) - Google Analytics