`
desert3
  • 浏览: 2159317 次
  • 性别: Icon_minigender_1
  • 来自: 合肥
社区版块
存档分类
最新评论

用python分析nginx的access日志

阅读更多
项目正式发布后,有需求要分析下nginx的access日志内容,于是写了如下脚本:

#! /usr/bin/env python 
# -*- coding: utf-8 -*- 
#@author zcwang3@gmail.com
#@version 2011-04-12 16:34
#Nginx日志分析,初始做成 

import os
import fileinput
import re

#日志的位置
dir_log  = r"D:\python cmd\nginxlog"

#使用的nginx默认日志格式$remote_addr - $remote_user [$time_local] "$request" $status $body_bytes_sent "$http_referer" "$http_user_agent" "$http_x_forwarded_for"'
#日志分析正则表达式

#203.208.60.230 
ipP = r"?P<ip>[\d.]*";

#[21/Jan/2011:15:04:41 +0800]
timeP = r"""?P<time>\[           #以[开始
            [^\[\]]* #除[]以外的任意字符  防止匹配上下个[]项目(也可以使用非贪婪匹配*?)  不在中括号里的.可以匹配换行外的任意字符  *这样地重复是"贪婪的“ 表达式引擎会试着重复尽可能多的次数。
            \]           #以]结束
        """

#"GET /EntpShop.do?method=view&shop_id=391796 HTTP/1.1"
requestP = r"""?P<request>\"          #以"开始
            [^\"]* #除双引号以外的任意字符 防止匹配上下个""项目(也可以使用非贪婪匹配*?)
            \"          #以"结束
            """

statusP = r"?P<status>\d+"

bodyBytesSentP = r"?P<bodyByteSent>\d+"

#"http://test.myweb.com/myAction.do?method=view&mod_id=&id=1346"
referP = r"""?P<refer>\"          #以"开始
            [^\"]* #除双引号以外的任意字符 防止匹配上下个""项目(也可以使用非贪婪匹配*?)
            \"          #以"结束
        """

#"Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"'
userAgentP = r"""?P<userAgent>\"              #以"开始
        [^\"]* #除双引号以外的任意字符 防止匹配上下个""项目(也可以使用非贪婪匹配*?)
        \"              #以"结束
            """

#原理:主要通过空格和-来区分各不同项目,各项目内部写各自的匹配表达式
nginxLogPattern = re.compile(r"(%s)\ -\ -\ (%s)\ (%s)\ (%s)\ (%s)\ (%s)\ (%s)" %(ipP, timeP, requestP, statusP, bodyBytesSentP, referP, userAgentP), re.VERBOSE)

def processDir(dir_proc):
    for file in os.listdir(dir_proc):
        if os.path.isdir(os.path.join(dir_proc, file)):
            print "WARN:%s is a directory" %(file)
            processDir(os.path.join(dir_proc, file))
            continue

        if not file.endswith(".log"):
            print "WARN:%s is not a log file" %(file)
            continue

        print "INFO:process file %s" %(file)
        for line in fileinput.input(os.path.join(dir_proc, file)):
            matchs = nginxLogPattern.match(line)
            if matchs!=None:
                allGroups = matchs.groups()
                ip = allGroups[0]
                time = allGroups[1]
                request = allGroups[2]
                status =  allGroups[3]
                bodyBytesSent = allGroups[4]
                refer = allGroups[5]
#                userAgent = allGroups[6]
                userAgent = matchs.group("userAgent")
                print userAgent
                
                #统计HTTP状态码的数量
                GetResponseStatusCount(userAgent)
                #在这里补充其他任何需要的分析代码
            else:
                raise Exception
                
        fileinput.close()

allStatusDict = {}
#统计HTTP状态码的数量
def GetResponseStatusCount(status):
    if allStatusDict.has_key(status):
        allStatusDict[status] += 1;
    else:
        allStatusDict[status] = 1;
    
        
if __name__ == "__main__":
    processDir(dir_log)
    print allStatusDict
    #根据值进行排序(倒序)
    print sorted(allStatusDict.items(), key=lambda d:d[1], reverse=True)
    print "done, python is great!"


得到的HTTP状态码的数量如下:
{'200': 287559, '302': 6743, '304': 4074, '404': 152918, '499': 887, '400': 14, '504': 93, '502': 300, '503': 5, '500': 88353}


各IP访问网站的次数如下(前10的IP):
[('220.178.14.98', 323230), ('220.181.94.225', 120870), ('203.208.60.230', 14342), ('61.135.249.220', 6479), ('203.208.60.88', 5426), ('61.135.249.216', 4867), ('123.125.71.94', 1290), ('123.125.71.104', 1282), ('123.125.71.108', 1280), ('123.125.71.110', 1278),  余下不显示]

从原始信息中提取IP后可以做一些额外的分析工作:如访问量前10的IP等 数据量大时采用hashIp后取模再统计
0
0
分享到:
评论
1 楼 dacoolbaby 2016-10-31  
非常棒的正则表达式,非常适用。
万分感谢。

相关推荐

    Python 分析Nginx访问日志并保存到MySQL数据库实例

    使用Python 分析Nginx access 日志,根据Nginx日志格式进行分割并存入MySQL数据库。一、Nginx access日志格式如下:复制代码 代码如下:$remote_addr – $remote_user [$time_local] “$request” $status $body_...

    python实现的分析并统计nginx日志数据功能示例

    本文实例讲述了python实现的分析并统计nginx日志数据功能。分享给大家供大家参考,具体如下: 利用python脚本分析nginx日志内容,默认统计ip、访问url、状态,可以通过修改脚本统计分析其他字段。 一、脚本运行方式 ...

    Python-NginxApacheIIS日志分析自动生成Excel报表

    标题 "Python-NginxApacheIIS日志分析自动生成Excel报表" 暗示了这个项目是关于使用Python解析和分析Nginx、Apache及IIS服务器的日志,并且能够生成详细的Excel报告。Nginx、Apache和IIS是三种常见的Web服务器,它们...

    nginx-log-analysis:用于分析 nginx 日志文件的很棒的 linux shell 命令的精选列表

    最后,如果你想要进行更深度的分析或自动化处理,可以考虑使用脚本语言(如Python或Perl)编写更复杂的工具,或者使用专门的日志分析软件,如Logstash、ELK Stack(Elasticsearch、Logstash、Kibana)等。...

    浅析python 定时拆分备份 nginx 日志的方法

    标题中的“浅析python 定时拆分备份 nginx 日志的方法”是指使用Python脚本来实现对Nginx服务器日志的自动按天备份和格式化处理。这个问题的背景是因为Nginx的日志默认不会自动按照日期进行分割备份,且日志中的时间...

    access.log数据、用户日志分析数据

    为了高效地分析access.log,我们可以使用各种工具,如AWStats、Log analyzers、Web Log Expert等,或者编写自定义脚本利用Python、Perl等编程语言进行处理。数据分析的结果可以帮助我们调整网站架构,改善SEO策略,...

    python实现分析apache和nginx日志文件并输出访客ip列表的方法

    在Python编程语言中,分析日志文件是一种常见的任务,特别是在Web服务器管理中,如Apache和Nginx。这些服务器产生的日志文件包含了丰富的信息,包括访问者的IP地址、请求时间、HTTP状态码等。本实例将详细介绍如何...

    详解Nginx服务器中的日志相关配置

    在Nginx的配置中,日志管理是非常重要的一环,它帮助管理员监控服务器的运行状况、追踪错误以及进行性能分析。本文将详细讲解Nginx服务器中的日志相关配置。 首先,Nginx的日志相关指令主要包括两个:`log_format` ...

    Ubuntu系统Daphne + Nginx部署Python Django项目精讲【含代码说明】

    - 如果遇到问题,可以通过日志文件(如`/var/log/nginx/access.log`和`/var/log/supervisor/supervisord.log`)进行排查。 - 调整Daphne和Supervisor的配置以优化性能,例如增加进程数或调整内存限制。 通过以上...

    取证分析之日志分析.zip

    通过以上三个文件,我们可以深入学习如何使用编程语言(如Python)对日志数据进行有效分析,理解网络服务器日志的结构和用途,并掌握日志分析在取证和安全领域的应用。同时,了解数据分析的基本流程和方法,对提升...

    NginxAccess_AutoConfig:动态IPAddress进行Nginx访问配置(白名单)

    标题"**NginxAccess_AutoConfig:动态IPAddress进行Nginx访问配置(白名单)**"指出,我们将讨论如何自动配置Nginx以处理动态IP地址,并建立一个动态更新的白名单。在动态IP环境中,IP地址可能会频繁变化,因此自动...

    日志记录:分析您的NGINX访问日志并为人们访问您的服务的位置创建精美的地图

    分析您的NGINX访问日志并为人们访问您的服务的位置创建精美的地图。 如何使用 首先,请确保您已安装python3.x和geolite2 。 可以使用pip install maxminddb-geolite2 python-geoip-geolite2通过pip pip install ...

    2024年最新版nginx,windows版本

    Nginx的日志文件默认位于`logs`目录下,包括`access.log`(记录客户端请求信息)和`error.log`(记录错误信息)。可以通过分析日志数据进行性能监控、安全检查和故障排查。 **总结** 2024年最新版的Nginx为Windows...

    linux服务器log日志通过python统计生成图表(LOG日志统计一)

    例如,在描述中提到,可以使用`grep`过滤特定接口的日志,然后用`wc -l`计算这些接口出现的次数。具体命令如下: ```bash sed -n '/30\/Mar\/2020:09:16/, /30\/Mar\/2020:09:16/p' other_vhosts_access.log | grep...

    nginx-1.9.8.zip

    描述中提到解压后会得到"nginx-1.9.8.tar.gz",这是另一个压缩格式,通常用`tar -zxvf nginx-1.9.8.tar.gz`命令进一步解压。 3. **编译**:进入解压后的目录,运行`./configure`配置编译环境,然后执行`make`进行...

    Nginx完整配置说明

    然后,我们需要指定日志的格式,使用`log_format`指令,并指定访问日志的位置,使用`access_log`指令。最后,我们需要指定服务器的名称和端口,使用`server`指令,并指定服务器的根目录,使用`root`指令。 五、...

    Python实现获取nginx服务器ip及流量统计信息功能示例

    在本文中,我们将探讨如何使用Python来实现获取Nginx服务器的IP地址及其流量统计信息的功能。这涉及到对Nginx服务器日志文件的处理,从中提取出访问IP和对应的流量数据。 首先,我们需要了解Nginx的日志格式。通常...

    精通Nginx(第二版) PDF 非扫描件

    Nginx的错误日志和访问日志对于调试和监控至关重要,通过`error_log`和`access_log`指令可以自定义日志记录级别和位置。此外,Nginx的热部署能力使其在不中断服务的情况下完成配置更新,通过`reload`或`restart`命令...

    nginx-1.7.6 windows

    通过 `access_log` 和 `error_log` 指令,可以调整日志的输出格式和位置。 9. **限速与限流** 使用 `limit_rate` 和 `limit_conn` 指令,可以限制客户端的请求速率和并发连接数,防止 DDoS 攻击和恶意用户。 10. ...

Global site tag (gtag.js) - Google Analytics