awk等命令处理文本日志[数据]工作记录两则

erricwang

浏览: 13070 次
性别:
来自: 深圳

最近访客更多访客>>

tomoya

xsfh0828

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

linux——小白继续学

工作 Linux SQL PHP 活动

刚才为了选全站分类，寻找了小分钟。想来静心写写工作笔记，发篇blog还是挺麻烦，尤其对我这个懒人。为了子文为了坚持，忍耐下吧。
下面的文字，是小申工作的笔记。处理文本log的两次记录，备忘以后方便查询。这块我是刚入门的同学，应用也比较简单，高手看到之后，多多指教。

1、处理一：

引用

数据文件一：log_1.txt
[2010-03-04 07:29:02] [30789][visit:g.php][use:1101]
[2010-03-04 07:29:02] [474330][visit:g.php][use:1001]
[2010-03-04 07:29:02] [57159][visit:g.php][use:10201]
……n+1条
[时间] [用户id][visit:g.php][use:访问时候的参数]

分别是要提取“用户id”和“访问时候的参数”，这两项。
处理：这里用 awkhttp://www.linux.gov.cn/shell/awk.htm来处理。
用到awk中（-F）这个参数：
a、单独提取用户id：

~$:awk -F' \\[' '{printf( int($2)"\n")}' log_1.txt>ret_1.txt
or：
~$:awk -F'[' '{printf( int($3)"\n")}' log_1.txt>ret_1.txt

解释：命令一使用' '空格加'['做分隔符号，在'['前加上两个'\\'转一下。
命令二直接使用'[',所以打印的时候，打印的是 $3,
b、单独提取用户携带的参数，用'use:'做参数就可以了。
c、同时提取，多次使用awk，如：

~$:awk -F'\\]\\[visit:get.php\\]\\[use:' '{printf($1" "int($2)"\n")}' log_1.txt|awk -F' \\[' '{printf($2"\n")}'|head

总结三点：
a、awk的 -F 参数，一些特殊符号，用两个'\\'转。
b、处理部分，'{printf($1" "int($2)"\n")}'，外面单引号，里面双引号。系统变量用单引号括起来，双引号被解释成是字符串。（不一定正确，但不会报错，哈哈），里面的内置函数 int()等，更多函数可以google awk 内置函数。
c、对于printf(),其实括号也可以不要的。里面的格式，用字符串拼凑：($1" "int($2)"\n"),也可以用c那种("%d\n",$2)。看怎么样方便。
2、处理二：

引用

log数据二：log_2.txt
10002 2010-01-09 15:08:16
10013 2010-01-21 11:55:34
10075 2010-01-28 16:22:54
……
格式：【用户id 年-月-日时-分-秒】

做什么呢，不急，这是用户参与A活动的数据，这里还有第二份数据——用户参与B活动的数据。但在orale里面，
要求对比出提取出先参与活动A在参与B，或者是先参与B在参与A的两分用户id数据（用户可以多次参与活动）。

to do：
a、从orale里面导出数据：

引用

~$:sqlplus 服务器/用户名@密码
sql: set heading off;
sql: set trimout on;
sql: set trimspool on;
sql: set feedback off;
spool 最终生成的文件;//这里我们得到 'log_3.txt'
说明可以看看这里 http://xsb.itpub.net/post/419/49511

在接下来的命令中输入sql语句，这里没有什么好注意的，orale中，几个用在sql中的函数很有用，比如，这里，我们有一个字段是时间的，在orale以内部时间来储存，我们要到处为固定格式，可以用to_char()函数，我们这里在数据库里面的时间字段为timestamp。那么

引用

sql：
select distinct uid,to_char( timestamp, 'YYYY-MM-DD HH24:MI:SS' ) from ……

这样，得到一份和log_2.txt一样的log文件。
b、对于，log_3.txt，有需要处理的部分，如，前面的sql语句和中间的空行，可以用下面的语句去除空行

~$:sed '/^$/d' file 
or_~$:awk '/./ {print}' file 
or_~$:grep -v '^$' file

c、对于 log_2.txt和log_3.txt 因为用户可以多次参与活动，我们要做的是排序去重。

~$:sort -d file|uniq>file_ret

d、现在文件，排好续了，用jion可以把两个文件重合的部分得出来。但如何比较时间呢。之前我的想法是把文件中时间按部分转化为时间戳。但尝试了下，有点麻烦，没有现成的函数。倒是awk中，在printf的时候，用 strftime("%Y%m%d",$n)把时间戳转化为格式化字符串，反过来有点麻烦，请有经验的同学，指导一下。最后的做法是直接对比时间那两个字符串，awk提供字符串直接对比。

引用

格式：【用户id 年-月-日时-分-秒】

因为时间中间用空格分开了，比较的时候有点麻烦，先awk一下，把两个字符段，连接起来。

~$:awk '{printf("%s %s_%s\n",$1,$2,$3)}' file

在jion就能得到这样的文件了

引用

2079 2010-02-02_12:14:55 2010-01-28_10:40:12
2090 2010-02-15_20:06:28 2010-02-01_20:50:32
2091 2010-03-05_16:38:59 2010-02-18_03:27:44

e、最后在执行比较的操作：

~$:awk '{if($2>$3)printf($0"\n")}' file>last_file

感觉没有什么好总结的了，记着备忘。
end.

0
顶

0
踩

分享到：

dom操作中select的动态创建 | php数组

2010-03-13 20:52
浏览 1722
评论(0)
分类:操作系统
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论