刚好自己最近也在学习分析IIS日志文件,有时候看的人都迷糊了,不知道该如何更好的查看IIS日志,看看这篇文章,又学了点。
如何用PHP脚本在后台获取蜘蛛的详细信息呀?如哪里的蜘蛛/何时来的/搜索了哪几个页面/哪些它喜欢哪些不喜欢等,和判断浏览器是不是用一样的技术?
网站服务器会把每一个访客来访时的一些信息自动记录下来,存在服务器原始日志文件中。
一般主机提供商会在控制面板提供给你下载这个文件,如果你的主机提供商不提供原始日志文件的话,你就该换地方了。
原始日志文件只是一个纯文字形式的文件,只要用文字编辑软件如WordPad或Notepad打开就可以了。
下面是我从上个月这个blog本身的日志文件中随机选取的一行,我们来看一下它包括哪些信息:
221.201.77.63 - - [02/Jul/2006:15:30:41 +0800] “GET /seoblog/2006/04/17/user-friendly-website/ HTTP/1.1″ 200 19031 “http://www.baidu.com/s?
wd=PRADA%B9%D9%B7%BD%CD%F8%D5%BE&cl=3″ “Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Alexa Toolbar)”
用户IP地址
221.201.77.63
这是访问人所使用的IP 地址,能够告诉你来访的人来自什么地理位置。如果你查一下这个IP地址所属位置,可以看到这位访客来自中国北京。
日期/时间
02/Jul/2006:15:30:41
这是某一个文件被访问的时间,和IP地址结合起来,你就可以跟踪某一个特定的用户,从一个网页到另一个网页的访问顺序。
时区
+0800
这个数字是相对格林威治时间的时区差多少。
服务器动作
GET /seoblog/2006/04/17/user-friendly-website/ HTTP/1.1
服务器要做的动作要么是GET,要么是POSP。除了一些CGI脚本外,通常都应该是GET,也就是从服务器上获取某个网页或图片文件。
例子里的这行意思就是按HTTP/1.1协议(protocol)获取文件/seoblog/2006/04/17/user-friendly-website/
返回状态码
200
下一行是服务器反应是否成功。200就是说成功获取了文件,如果是返回了404,就是文件没有找到。401是需要密码,403禁止查看,500服务器错误,当然还有其他很多代码。
文件大小
19031
这一行指的是所获取的文件大小,在我们的来自例子里是19031byte。
访客来源
http://www.baidu.com/s?wd=PRADA%B9%D9%B7%BD%CD%F8%D5%BE&cl=3
这一段是告诉我们访客是从哪里来到这一个网页。有可能是同一个网站的其他页,有可能是来自搜索引擎的搜索页。
例子里的是来自百度,搜索关键词是”PRADA官方网站”。
这段信息是非常重要的。
浏览器类型
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Alexa Toolbar)
这最后一段所表示的是浏览器和用户电脑的一些信息。
比如上面这一段所表示的是用户所使用的电脑是与Netscape兼容的Mozilla浏览器,Windows NT操作系统,浏览器是IE6.0,装有Alexa Toolbar。
在这一段如果用户使用的是其他类型电脑或浏览器,你还可能看到这些代码:
msnbot/1.0 (+http://search.msn.com/msnbot.htm)
Baiduspider+(+http://www.baidu.com/search/spider.htm)
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0; Maxthon; Alexa Toolbar)
http://www.gougou.com RSS Online Reader
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
意义不用解释,一看就知道了。
跟踪用户轨迹
这是很多网站运行者需要研究的地方。
从日志文件中剔除对图片的访问,剔除中间插进来的其他访客的信息,只把来自某一个IP地址的用户在一段时间内所看的网页列出来,我们就能看到这个用户在你的网站上都做了哪些行动,看了哪些网页。
用户行为信息给网站运行者提供很大的帮助。
分享到:
相关推荐
IIS日志分析工具通过解析这些日志文件,为企业运维人员提供了宝贵的数据,帮助他们了解网站性能、优化资源分配以及排查问题。 ASP.NET是.NET框架的一部分,它提供了一种用于构建动态Web应用的模型,包括页面生命...
6. **兼容性**:该工具可能使用了`Interop.MSUtil.dll`这样的组件来实现与不同版本的IIS日志文件的兼容,确保在不同环境下的正常使用。 7. **执行文件**:`loganalyze.exe`是主程序,用于运行和操作日志查看和搜索...
**IIS日志文件分析器**是一款专门针对IIS(Internet Information Services)服务器日志进行深入分析的工具。它能够帮助管理员快速理解网站的访问情况,优化网站性能,并且对搜索引擎爬虫的行为进行追踪和分析。 ###...
这时,一款高效、直观的IIS日志查看工具就显得尤为重要,HttpLogBrowser便是这样的工具,它为IIS日志分析带来了全新的体验。 HttpLogBrowser是一款专为IIS日志设计的软件,它的出现使得日志查看和分析工作变得更加...
这个命令会读取指定目录下的IIS日志文件,统计每个页面(UriStem)的访问次数(Hits),并按访问量降序排列结果。 总结一下,"iis日志分析工具"结合了LogParser的强大功能,使得系统管理员能够高效地对IIS日志进行...
IIS日志分析工具是专门设计用来解析和解读这些日志文件的应用程序。通过这些工具,管理员可以: 1. 监控网站流量:查看访问次数、独立访客数量、页面浏览量等。 2. 分析用户行为:了解用户最常访问的页面、停留时间...
然后,可以使用`pandas.read_csv`函数解析IIS日志文件,因为W3C日志格式类似于CSV。 ```python import pandas as pd def read_iis_logs(file_path): return pd.read_csv(file_path, sep=' ', header=None, names=...
1. **日志导入**:支持读取和导入不同格式的IIS日志文件,例如W3C扩展日志格式或NCSA公用日志格式。 2. **数据过滤与排序**:允许用户根据特定条件(如HTTP状态码、IP地址、URL等)筛选和排序日志条目,快速定位...
IIS日志分析软件,如标题所提的"iis日志分析(中文版)",旨在帮助用户高效地解读和解析这些日志文件。这类软件通常具备以下功能: 1. **数据可视化**:将日志数据转换成图表和图形,便于理解流量模式和用户行为。 2....
- **日志导入**:工具应该支持批量导入IIS日志文件,如`.log`格式。 - **数据筛选**:允许用户根据日期、状态代码、URL等条件过滤日志记录。 - **统计分析**:提供统计功能,如最常见的错误页面、访问最多的页面...
一、IIS日志文件的内容 IIS日志文件通常以文本格式存储,包含多行记录,每行代表一个HTTP事务。日志文件中的字段包括但不限于: 1. 时间戳:记录请求发生的时间。 2. 客户端IP地址:标识访问者来源的IP。 3. 用户名...
1. 数据导入:工具能够导入IIS日志文件,通常这些文件以.log格式存在,并遵循W3C扩展日志文件格式或NCSA公用日志文件格式。用户可以批量导入多份日志文件,以便一次性处理大量数据。 2. 日志解析:工具能自动解析...
随着时间的推移,这些日志文件会占用大量磁盘空间,因此需要定期清理以保持系统的高效运行。"清除IIS日志logcleaner"就是一个针对这个问题设计的工具,旨在自动化地帮助管理员有效地管理和清理IIS日志。 IIS日志...
1. **导入IIS日志文件**:LogParserLizard支持批量导入多个IIS日志文件,方便进行大规模的日志分析。 2. **预定义查询模板**:内置了多种常见的查询模板,如访问最多的URL、最频繁的IP、请求失败的记录等,点击即可...
2. **灵活性**:LogParser不仅适用于IIS日志,还可以处理其他类型的数据源,如文本文件、XML文件、注册表、ODBC数据源等。这使得它在处理各种系统日志时具有极高的灵活性。 3. **输出格式多样化**:分析结果可以...
用户可以选择单个IIS日志文件进行分析,或者通过“批量文件夹”功能选择整个站点的文件夹,这样可以一次性处理多个日志文件,大大提高了分析效率。 3. **日志列表与汇总统计** 选择文件或文件夹后,程序会自动...
1. **日志查看**:它可以快速加载并显示IIS生成的日志文件,这些文件通常以W3C扩展日志格式存储,包含诸如请求时间、客户端IP地址、请求方法、URL、状态代码、响应大小等信息。 2. **访问统计**:通过分析日志,...
IIS日志文件通常遵循W3C扩展日志文件格式,包含以下关键字段: 1. **日期和时间**:记录了请求的日期和时间。 2. **IP地址**:客户端的IP地址,用于追踪访问来源。 3. **用户名**:如果身份验证已启用,将显示用户...