if there is no gz file
find .|xargs zgrep -ri "{{search key word}}" -l
otherwise
zcat errors.20130515.log.1.gz
zgrep '{{search key words}}' errors.*.log.1.gz
在 /var/log/apache2/下面可以找到日志文件。access.log这个文件记录的应该是最近一天的日志情况。
1. 百度蜘蛛爬行的次数
cat access.log | grep Baiduspider+ | wc
最左面的数值显示的就是爬行次数。
2. 百度蜘蛛的详细记录(Ctrl+C可以终止)
cat access.log | grep Baiduspider+
也可以用下面的命令:
cat access.log | grep Baiduspider+ | tail -n 10
cat access.log | grep Baiduspider+ | head -n 10
只看最后10条或最前10条,这用就能知道这个日志文件的开始记录的时间和日期。
3. 百度蜘蛛抓取首页的详细记录
cat access.log | grep Baiduspider+ | grep “GET / HTTP”
百度蜘蛛好像对首页非常热爱每个钟头都来光顾,而谷歌和雅虎蜘蛛更喜欢内页。
4. 百度蜘蛛派性记录时间点分布
cat access.log | grep “Baiduspider+” | awk ‘{print $4}’
5. 百度蜘蛛爬行页面按次数降序列表
cat access.log | grep “Baiduspider+” | awk ‘{print $7}’ | sort | uniq -c | sort -r
文中的Baiduspider+改成Googlebot都可以查看谷歌的数据,鉴于大陆的特殊性,大家应该对百度的log更为关注。
附:(Mediapartners-Google)Google adsense蜘蛛的详细爬行记录
cat access.log | grep Mediapartners
Mediapartners- Google是什么呢?Google adsense广告之所以能与内容相关,因为每个包含着adsense的广告被访问后,很快就有个Mediapartners-Google蜘蛛来到这个 页面,所以几分钟后再刷新就能显示相关性广告了,真厉害啊!
都支持regular expression
1. find
-name 按名字查找
-perm 根据权限查找
-ctime –n +m 根据创建时间查找,-n n天内,+n n天之前
-mtime –n +n 最后修改时间
-exec command {} \; 对每条记录执行command
-ok command {}\;同上
例:find . –name “*.log” –exec ls –al {} \;
find /var -name "*.log" -mtime +10 -exec ls -l {} \;
2. grep
grep –c “sdf” *.txt 只返回匹配的行数
grep –n 输出行号
grep “2010-5-1[0-9]” myfile 10号到19号的
grep “^[^123]” myfile 不是以1,2,3大头的
grep “4\{2\}” myfile 连续2个4
grep “4\{2,\}” myfile 连续至少2个4
grep “4\{2,5\}” myfile 连续2到5个4
grep “^$” myfile 空行
grep “\^” myfile 查找^符号,用\过滤掉转义
3. wc
Wc用来计算文件字符数,字节数,行数等信息的
Wc –l <myfile 返回myfile的行数
4. awk(很好很强大)
awk ‘{print $0}’ myfile 显示myfile的所有域($0),分隔符为空格(默认)
awk –F “asdf” ‘{print $1}’ myfile 显示1域,分隔符asdf
awk -F ": " 'BEGIN {print "hire_date\n-------------------"}{print $1}' messages |head
//awk中的BEGIN {command} END{command} 结构,指定头和尾的操作,不同于一般的BEGIN END块结构
Awk中特殊元字符:+ , ? //+匹配所有,?匹配单个字符
匹配操作符:~ , !~ //~匹配,!~不匹配
head messages |awk '$0 ~ /21:59/' 匹配21:59的行,相当于grep功能了,不过awk可以更精确的控制具体域!
head messages |awk '$0 !~ /21:59/' 不匹配21:59的行(grep -i)
[mysql@node1 ~]$ head messages |awk '{if($3=="21:59:48") print $0}'
May 10 21:59:48 node1 dhclient: DHCPREQUEST on eth1 to 192.168.217.254 port 67
May 10 21:59:48 node1 dhclient: DHCPACK from 192.168.217.254
May 10 21:59:48 node1 dhclient: bound to 192.168.217.133 -- renewal in 843 seconds.
//AWK自己的控制流结构,相比一般shell语法似乎更接近于C
5. sed
sed 是一种在线编辑器,它一次处理一行内容。处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”(pattern space),接着用sed命令处理缓冲区中的内容,处理完成后,把缓冲区的内容送往屏幕。接着处理下一行,这样不断重复,直到文件末尾。文件内容并没有 改变。
-n 是打印不匹配的行,默认是打印所有
-e 后面跟脚本,直到新行或者遇到-e结束。如果不给-e,则第一个命令直到新行才结束
-f 后面跟脚本文件
基本编辑命令:
p 打印匹配行
= 显示行号
a\ 在定位行后添加信息(新行)
i\ 在定位行前插入信息(新行)
d 删除定位行
c\ 替换定位的行内容,注意是整行内容
s/re/string 用string替换正则表达式re。
g表示行内全面替换。
注意,pattern的内容都是正则表达式
sed ‘2p’ myfile 打印所有行
sed –n ‘2p’ myfile 答应第二行,-n是打印不匹配的行,默认是打印所有
sed –n ‘1,7p’ myfile 打印1到7行(1,$就是1到最后一行)
sed –n ‘/fuyar/p’ myfile 打印匹配fuyar的行,模式匹配方式
sed –n ‘2,/fuyar/p’ myfile 从第二行开始到匹配到fuyar结束。行号方式跟模式匹配方式的结合使用
=号:Print the current line number.
sed –n ‘/^$/=’ myfile 显示空行行号
sed –n –e ‘/^$/=’ –e ‘/^$/p’ myfile 显示空行行号并打印
sed -n 's/param/& hellow /p' yy.sh 在param后加上hellow
sed -n 's/param/ hellow &/p' yy.sh 在param前加hellow
6. sort
-c 检查文件是否已排序
-u unique的意思,排序后重复记录只显示一条
-r reverse,反序
-n 数字排序
-kn 按第n个域进行排序,相当于+ n-1 –n,现在推荐用-k
sort -t: -k3 messages | head 等同于sort -t: +2 -3 messages | head
7. uniq
从一个文本中去除或禁止重复行,这里的重复行指的是相邻的!可与sort结合使用。
-c 显示每条记录重复的行数
-u 只显示不重复的行,即-c为1的那些行
-d只显示记录重复的行,但每条只显示1次
8. split
分割文件,分割后的文件为:prefix[aa-zz],例如yyaa,yyab….yyzz
一般格式:split [options] infile outfile_prefix
[options]:
-b n 以大小为n(k,m)分割
-l n 每个文件的分割的行数n
-n 同-l n
几个命令结合使用可以编写一些简单的shell脚本。
例:监测磁盘使用情况,每分钟检测一次,如果快满了(使用超过90%)则给root发封邮件提醒。
[root@node1 ~]# cat space_oversee.sh
#!/bin/bash
#space_oversee.sh by fuyar(417226209).
#to oversee the space usage of all disks.
#oversee per minute.
while [ 1 -lt 2 ]
do
for DISK in `df | awk '{print $1}' | sed -n '2,/$/p'`
do
USED=`df | grep "$DISK" |awk '{print $5}'|sed -n 's/%//p'`
if [ $USED -ge 90 ]
then echo "`date`:$DISK is nearly full: ${USED}%."|mail root
fi
done
sleep 60
done
该脚本可放后台执行
相关推荐
Apache Log4j 是一个广泛使用的Java日志框架,它提供了灵活的日志记录功能,使得开发者可以在应用程序中方便地控制日志信息的输出。在给定的压缩包中,包含两个核心文件:`log4j-1.2.15.jar` 和 `apache-log4j-...
《深入理解Log4j:Apache日志框架的基石》 在Java编程领域,日志记录是不可或缺的一部分,它为开发者提供了程序运行时的详细信息,帮助调试和追踪问题。而Log4j,作为Apache软件基金会的一个项目,是Java平台上的一...
2. **Level(级别)**:Log4j定义了多种日志级别,包括DEBUG、INFO、WARN、ERROR和FATAL。这些级别按严重程度排序,允许开发者根据需要过滤不重要的日志信息。 3. **Appender(输出器)**:Appender负责将日志信息...
log4j.rootLogger=info, stdout, log, errorlog log4j.Logger=search,Test ###Console ### log4j.appender.stdout = org.apache.log4j.ConsoleAppender log4j.appender.stdout.Target = System.out log4j....
- **log4j.properties或log4j.xml**:配置文件定义了日志级别(DEBUG, INFO, WARN, ERROR等)、输出目的地(控制台、文件、网络等)以及日志格式。 - **定制化配置**:可以根据需求调整日志级别,例如在开发阶段设置...
- 结合 ELK Stack (Elasticsearch, Logstash, Kibana) 或 Graylog 等工具,可以实时监控和分析应用程序的日志数据。 - 配合邮件、短信等报警机制,当发生严重错误时及时通知开发者。 9. **安全性考虑** - 注意...
通过如Logstash、Fluentd等工具,可以将日志数据传输至ELK(Elasticsearch, Logstash, Kibana)或Graylog等日志分析平台,进行实时监控和问题排查。 4. **性能优化**: 由于日志记录会消耗一定的系统资源,因此在高...
在Java中,一个常见的Log库是Apache Commons Logging或Log4j,而这里的`Logger.java`可能就是实现这些功能的一个自定义类。这个类通常会提供设置Log等级的方法,比如`setLogLevel()`,这样我们就可以在不修改代码的...
log4j.appender.Console.layout=org.apache.log4j.PatternLayout log4j.appender.Console.layout.ConversionPattern=%d{ABSOLUTE} %5p %c{1}:%L - %m%n ``` 3. **创建Logger**: 在代码中,通过`Logger.getLogger...
- 使用工具如Logstash、ELK Stack(Elasticsearch, Logstash, Kibana)或Graylog进行日志收集和分析。 7. **安全性** - 考虑日志中可能包含敏感信息,如用户密码,需要在生产环境中进行适当的日志过滤或加密。 8...
Log4j是Apache组织提供的一款广泛使用的Java日志框架,以其灵活性和可配置性著称。本篇文章将深入探讨如何在Web项目中集成并使用Log4j,以便更好地管理和分析应用的日志。 首先,Log4j主要由三部分组成:配置文件...
2. **错误日志**(Error Log):记录Apache运行时产生的各种错误信息,这对于诊断问题非常有用。 #### 知识点四:查看Apache日志的方法 在日常运维工作中,经常会需要查看Apache的日志文件来分析问题或优化服务性能...
`log4php`是PHP中的一款日志记录框架,基于Apache的log4j项目理念设计,旨在提供一个灵活且强大的日志记录解决方案。它允许开发者以结构化的方式记录应用程序运行过程中的各种信息,便于后期问题排查和性能优化。 #...
log4net是Apache软件基金会的一个开源项目,它是基于.NET平台的日志记录工具,为.NET应用程序提供了灵活且可扩展的日志记录功能。本文将深入探讨log4net的核心概念、配置和实际应用。 **1. log4net的基本概念** ...
Log4j提供了丰富的日志级别(如DEBUG、INFO、WARN、ERROR等)和定制化的配置,使得我们可以在代码中方便地记录日志信息。通过引入KafkaAppender,我们可以将Log4j的日志输出直接发送到Kafka的特定主题。这样,所有...
Log4j是Apache组织开发的一款Java日志记录框架,它为Java应用程序提供了灵活且强大的日志记录功能。本文将深入探讨Log4j的基础知识、配置和使用实例,帮助初学者快速入门。 首先,理解Log4j的核心概念至关重要。Log...
- 使用工具如ELK Stack(Elasticsearch, Logstash, Kibana)或Graylog收集、分析和展示日志,有助于故障排查和性能优化。 总结,Log4j作为一个强大的日志工具,提供了灵活的配置和丰富的功能,可以帮助开发者更好...
log4j是Apache软件基金会的一个项目,它提供了一个强大的日志API,允许开发者根据需要调整日志级别,定制日志输出格式,以及将日志信息发送到不同的目的地,如控制台、文件、数据库等。这个框架的主要组件包括: 1....
Log4j不仅用于简单的日志记录,还可以与其他工具集成,如与Sentry或ELK(Elasticsearch、Logstash、Kibana)堆栈配合,实现日志的集中收集、存储和分析。 ### 7. 结论 Log4j作为Java开发中的重要工具,提供了灵活...
Apache Log4j是一款广泛使用的Java日志记录框架,它为应用程序提供了一种灵活且高效的日志记录机制。JaToo Log4j是针对这个框架的扩展和优化,旨在进一步简化开发者在使用Log4j时的工作流程,尤其对于开源软件项目而...