常使用web服务器的朋友大都了解,一般的web server有两部分日志:
一是运行中的日志,它主要记录运行的一些信息,尤其是一些异常错误日志信息
二是访问日志信息,它记录的访问的时间,IP,访问的资料等相关信息。
现在我来和大家介绍一下利用tomcat产生的访问日志数据,我们能做哪些有效的分析数据?
首先是配置tomcat访问日志数据,默认情况下访问日志没有打开,配置的方式如下:
编辑 ${catalina}/conf/server.xml文件.注:${catalina}是tomcat的安装目录
把以下的注释(<!-- -->)去掉即可。
<!--
<Valve className="org.apache.catalina.valves.AccessLogValve"
directory="logs" prefix="localhost_access_log." suffix=".txt"
pattern="common" resolveHosts="false"/>
-->
其中 directory是产生的目录 tomcat安装${catalina}作为当前目录
pattern表示日志生产的格式,common是tomcat提供的一个标准设置格式。其具体的表达式为 %h %l %u %t "%r" %s %b
但本人建议采用以下具体的配置,因为标准配置有一些重要的日志数据无法生。
%h %l %u %t "%r" %s %b %T
具体的日志产生样式说明如下(从官方文档中摘录):
* %a - Remote IP address
* %A - Local IP address
* %b - Bytes sent, excluding HTTP headers, or '-' if zero
* %B - Bytes sent, excluding HTTP headers
* %h - Remote host name (or IP address if resolveHosts is false)
* %H - Request protocol
* %l - Remote logical username from identd (always returns '-')
* %m - Request method (GET, POST, etc.)
* %p - Local port on which this request was received
* %q - Query string (prepended with a '?' if it exists)
* %r - First line of the request (method and request URI)
* %s - HTTP status code of the response
* %S - User session ID
* %t - Date and time, in Common Log Format
* %u - Remote user that was authenticated (if any), else '-'
* %U - Requested URL path
* %v - Local server name
* %D - Time taken to process the request, in millis
* %T - Time taken to process the request, in seconds
There is also support to write information from the cookie, incoming header, the Session or something else in the ServletRequest. It is modeled after the apache syntax:
* %{xxx}i for incoming headers
* %{xxx}c for a specific cookie
* %{xxx}r xxx is an attribute in the ServletRequest
* %{xxx}s xxx is an attribute in the HttpSession
现在我们回头再来看一下下面这个配置 %h %l %u %t "%r" %s %b %T 生产的访问日志数据,我们可以做哪些事?
先看一下,我们能得到的数据有:
* %h 访问的用户IP地址
* %l 访问逻辑用户名,通常返回'-'
* %u 访问验证用户名,通常返回'-'
* %t 访问日时
* %r 访问的方式(post或者是get),访问的资源和使用的http协议版本
* %s 访问返回的http状态
* %b 访问资源返回的流量
* %T 访问所使用的时间
有了这些数据,我们可以根据时间段做以下的分析处理(图片使用jfreechart工具动态生成):
* 独立IP数统计
* 访问请求数统计
* 访问资料文件数统计
* 访问流量统计
* 访问处理响应时间统计
* 统计所有404错误页面
* 统计所有500错误的页面
* 统计访问最频繁页面
* 统计访问处理时间最久页面
* 统计并发访问频率最高的页面
文章出处:http://www.blogjava.net/xmatthew/archive/2008/04/14/192450.html
分享到:
相关推荐
"nginx网站访问日志可视化"是一个利用Python处理和展示Nginx服务器产生的访问日志的项目。这个项目的核心在于利用Python的强大功能,结合pyecharts库,将复杂的日志数据转化为直观的图表,以实现对网站访问行为的...
网站日志是服务器记录的关于网站活动的所有信息,包括用户访问请求、HTTP状态码、请求时间、IP地址、浏览器类型等。这些数据对于理解用户行为、识别潜在问题以及优化网站性能至关重要。 日志分析的核心在于提取这些...
搜索引擎蜘蛛访问日志查看器是一款专门用于分析搜索引擎爬虫活动的工具,对于网站优化和SEO策略的制定至关重要。它能够帮助网站管理员了解搜索引擎如何与他们的网站互动,揭示爬虫访问频率、抓取的页面以及可能遇到...
总的来说,理解和分析Web服务器访问日志对于理解用户行为、提升网站性能、保障系统安全以及优化大数据处理的KPIs都具有重要意义。通过有效的日志管理与分析,可以为企业的数字化运营提供强大的洞察力。
日志分析是网站管理的重要环节,通过分析日志,我们可以获取到如访问量、用户行为、错误信息、搜索引擎爬虫活动等大量有价值的数据。 首先,我们要理解什么是网站日志。网站日志是服务器记录的关于网站活动的详细...
通过分析这些日志,我们可以了解网站的流量来源、访问者行为、热门页面、错误页面以及可能的安全问题。 WEB日志分析则更广泛地涵盖了所有类型的Web服务器日志分析,不仅仅是IIS,还包括Apache、Nginx等其他服务器。...
"网站日志分析器"和"蜘蛛访问记录查看器"是iis日志分析工具的核心功能,它们可以帮助用户深入理解以下知识点: 1. 访问频率:分析哪些页面被访问最频繁,这有助于优化网站的热门内容和页面布局。 2. 爬虫行为:通过...
通过解析这些日志,我们可以获得用户访问频率、热门页面、访问路径、停留时间等关键指标,进一步帮助优化网站性能和用户体验。 Hadoop的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce。HDFS是一...
对于大型网站,日志数据量巨大,因此需要合理的日志管理策略,如定期归档、压缩和删除旧日志,以及选择合适的日志存储解决方案,如使用日志管理服务或自建日志库。 综上所述,网站日志.log文件是理解和改善网站...
web服务器的访问日志,可方便没有web服务器的学习使用
标题中的“在Tomcat的访问日志配置:awstats”涉及到的是Apache Tomcat服务器的访问日志管理和分析工具——AWStats。AWStats是一款开源的Web服务器统计分析软件,它可以实时或者定期分析服务器的访问日志,提供详细...
1. **搜索引擎爬虫行为分析**:通过分析网站日志,可以了解到各种搜索引擎如Googlebot、Bingbot等的爬虫何时访问网站,以及它们访问的频率。这些信息对于调整网站内容发布的时间和频率至关重要,有助于提高网页被...
与IIS日志格式不同,Apache日志分为两种主要类型:访问日志(access logs)和错误日志(error logs)。访问日志记录了每个成功和失败的HTTP请求,而错误日志则包含了服务器遇到的问题和警告。网站日志查看器能够适应...
首先,日志分析是网站运维中的基础环节,通过分析日志,我们可以了解网站的流量来源、访问量、访问者行为路径等。爱站网站日志分析工具能够提供这些关键指标,使管理员能够了解哪些页面最受欢迎,哪些时间段流量最高...
在Web服务器管理中,日志记录是至关重要的,它提供了关于服务器性能、用户访问行为以及可能出现的问题的详细信息。对于使用Internet Information Services (IIS) 的管理员来说,理解如何查看和分析这些日志文件是...
网站日志记录了用户访问网站的所有活动,包括页面浏览、点击行为、停留时间等,这些数据对于理解用户需求、优化网站性能、提升搜索引擎排名、防止恶意攻击等都有不可忽视的价值。"亮析网站日志分析工具2.1标准版...
至此,我们通过Python网络爬虫手段进行数据抓取,将我们网站数据(2013-05-30,2013-05-31)保存为两个日志文件,由于文件大小超出我们一般的分析工具处理的范围,故借助Hadoop来完成本次的实践。 使用python对原始...
它主要的功能是对网站服务器产生的日志文件进行深入解读,从而获取关于搜索引擎爬虫(如百度蜘蛛、谷歌Bot、雅虎Slurp等)的访问行为、网站性能、错误情况等一系列关键信息。这些数据对了解搜索引擎如何抓取和索引...