<wbr><wbr><span></span>现在经常要处理到一些日志数据,对这些数据进行分析处理,但首先要对日志数据进行etl处理,如果简单的数据格式处理,使用gawk是最理想不过了,下面我们就介绍如何使用gawk,对数据进行e(extract)处理。</wbr></wbr>
<wbr></wbr>
一.到网上下载一个gawk.exe程序(用于Windows上)。
二.gawk的基本语法.
<wbr></wbr>
1.gawk格式.
gawk [options] "[Begin{}][pattern]{action}[End{}]" InputFileName.
<wbr></wbr>
1.1. 命令选项[options]
-F fs or --field-separator fs
指定输入文件折分隔符,fs是一个字符串或者是一个正则表达式,如-F:。
-v var=value or --asign var=value
赋值一个用户定义变量。
-f scripfile or --file scriptfile
从脚本文件中读取awk命令。
-mf nnn and -mr nnn
对nnn值设置内在限制,-mf选项限制分配给nnn的最大块数目;-mr选项限制记录的最大数目。这两个功能是Bell实验室版awk的扩展功能,在标准awk中不适用。
-W compact or --compat, -W traditional or --traditional
在兼容模式下运行awk。所以gawk的行为和标准的awk完全一样,所有的awk扩展都被忽略。
-W copyleft or --copyleft, -W copyright or --copyright
打印简短的版权信息。
-W help or --help, -W usage or --usage
打印全部awk选项和每个选项的简短说明。
-W lint or --lint
打印不能向传统unix平台移植的结构的警告。
-W lint-old or --lint-old
打印关于不能向传统unix平台移植的结构的警告。
-W posix
打开兼容模式。但有以下限制,不识别:\x、函数关键字、func、换码序列以及当fs是一个空格时,将新行作为一个域分隔符;操作符**和**=不能代替^和^=;fflush无效。
-W re-interval or --re-inerval
允许间隔正则表达式的使用,参考(grep中的Posix字符类),如括号表达式[[:alpha:]]。
-W source program-text or --source program-text
使用program-text作为源代码,可与-f命令混用。
-W version or --version
打印bug报告信息的版本。
3. 模式和操作[pattern] And [action]
gawk脚本是由模式和操作组成的:
pattern {action} 如gawk .exe “/root/” <wbr>test.text,或gawk.exe <wbr>“$3 < 100” <wbr>test.text。<br><br>
两者是可选的,如果没有模式,则action应用到全部记录,如果没有action,则输出匹配全部记录。默认情况下,每一个输入行都是一条记录,但用户可通过RS变量指定不同的分隔符进行分隔。<br>
3.1. 模式<br><br>
模式可以是以下任意一个:<br><br>
*<br><br>
/正则表达式/:使用通配符的扩展集。<br>
*<br><br>
关系表达式:可以用下面运算符表中的关系运算符进行操作,可以是字符串或数字的比较,如$2>%1选择第二个字段比第一个字段长的行。<br>
*<br><br>
模式匹配表达式:用运算符~(匹配)和~!(不匹配)。<br>
*<br><br>
模式,模式:指定一个行的范围。该语法不能包括BEGIN和END模式。<br>
*<br><br>
BEGIN:让用户指定在第一条输入记录被处理之前所发生的动作,通常可在这里设置全局变量。<br>
*<br><br>
END:让用户在最后一条输入记录被读取之后发生的动作。<br><br>
3.2. 操作[action]<br><br>
操作由一人或多个命令、函数、表达式组成,之间由换行符或分号隔开,并位于大括号内。主要有四部份:<br>
*变量或数组赋值<br>
*输出命令<br>
*内置函数<br>
*控制流命令</wbr></wbr></wbr>
<wbr><wbr><span></span>gawk逐行读取InputFileName文件的内容,将符合pattern规则的行,再按照action指定的操作来执行,pattern相当于是条件,action相当于是执行动作。其中用[]中括号括起来的部分不是必须写的部分,接下来列举一个简单的例子.</wbr></wbr>
test.txt文件中的内容如下:
1111;aaaa;AAAA;
2222;bbbb;BBBB;
3333;cccc;dddd;
在命令窗口运行:gawk.exe "{print $0}" test.txt,则输出以下内容:
1111;aaaa;AAAA;
2222;bbbb;BBBB;
3333;cccc;dddd;
"{print $0}"表示完整的输出从test.txt文件中读取的每一行.$0表示当前读取的行,从这里我们应该知道gawk从test.txt读取一行之后开始执行action块的动作。为了验证这点,下面再举一个例子:
gawk.exe "{print """test"""}" test.txt 输出如下:
test
test
test
由于test.txt文件中有三行,所以action块部分执行了三次.
<wbr></wbr>
如果想以分号作为分隔符可以将test.txt分成四列,只输出前两列:
gawk.exe -F"\73"<wbr>"{print $1,$2}" test.txt 注意这里"\73"是分号的八进制Ascii码。输出如下:</wbr>
1111 aaaa
2222 bbbb
3333 cccc
我们发现输出的结果中每一列是用空格分隔的,现在我们自己定义分隔符,写法如下:
gawk.exe<wbr>-F"\73"<wbr>"BEGIN{OFS="""\t"""}{print $1,$2}" test.txt 输出结果中每一列是用制表符来分割的,这里面使用到了BEGIN{}块,和内建变量OFS,BEGIN块的作用就是在gawk开始读取test.txt第一行之前要执行的部分,一般在BEGIN块里面初始化变量,OFS是gawk内建变量,表示输出列的分割符是什么,这里使用的是制表符.</wbr></wbr>
分享到:
相关推荐
gawk 是 GNU 的 awk,具有很强的文本处理功能,简洁优美. awk 是一个程式语言,对于文本处理具有很强的功能。对於文字档里的资料做修改、比对、抽取等的处理,awk 能够以很短的程式 轻易地完成。 awk 能够依照使用...
然而,它同样可以在Windows系统上运行,通过提供的Windows版本——gawk for win,用户可以在Windows环境下享受其丰富的功能。Gawk是AWK编程语言的一个实现,由GNU项目开发,旨在处理和分析文本文件,提取有用的信息...
在Windows环境下使用`GAWK version 4.2.1`,用户可以享受到与Unix/Linux系统相同的文本处理能力,这对于Windows开发者和系统管理员来说是一个非常有用的工具。 `awk`的基本原理是基于模式匹配和动作执行。它可以在...
在Windows系统上,你可能需要通过命令提示符或者PowerShell来运行`gawk`命令,将`gawk-3.1.6-1-bin`添加到系统路径后,就可以像在Linux下一样方便地调用`gawk`了。 总的来说,`gawk-3.1.6-1-bin`为Windows用户提供...
《gawk使用手册》是为Linux和Cygwin环境下用户准备的一份详尽教程,它主要聚焦于gawk,这是一个强大的文本分析工具,基于AWK编程语言。gawk是GNU项目的一部分,它提供了标准AWK语言的实现,并添加了一些额外的功能和...
Gawk: pattern scanning and processing language Version 3.1.6 Description Several kinds of tasks occur repeatedly when working with text files. You might want to extract certain lines and discard ...
可以在windows系统中使用linux中的awk命令。具体使用方法请参照linux版本的awk使用方法。 可以在windows系统中使用linux中的awk命令。具体使用方法请参照linux版本的awk使用方法
本文将详细介绍如何在Windows上安装和使用Gawk 5.0.1版本,以及如何将Gawk集成到系统环境变量中。 首先,我们提到的"**gawk-5.0.1-w32.zip**"是一个专门为Windows系统编译的Gawk版本,版本号为5.0.1。这个压缩包...
gawk for windows 运行环境
处理文本文件时,会重复出现多种任务。 您可能想要提取某些行并丢弃其余行。 或者,您可能需要在出现某些特定模式... 这意味着所有正确编写的 awk 程序都应该使用 gawk。 因此,我们通常不区分 gawk 和其他 awk 实现。
1.GAWK:Effective AWK Programming_Edition 4.2.dvi 2.GAWK:Effective AWK Programming_Edition 4.2.html 3.GAWK:Effective AWK Programming_Edition 4.2.pdf 4.GAWK:Effective AWK Programming_Edition 4.2.txt
当在Windows上编译awk源码时,我们需要以下准备工作: 1. 获取awk源码:通常可以从GNU Awk (gawk)官方网站下载最新版本的源代码,例如`gawk-5.x.x.tar.gz`。 2. 安装编译环境:对于32位系统,你需要安装MinGW...
其中,gawk-3.1.6-1是GNU Awk的版本,这是一个文本处理工具,经常与GMT结合使用,帮助解析和操作GMT生成的地图配置文件或数据文件。gs921w64可能是指Ghostscript的9.21版Windows 64位版本,它是GMT用来处理Post...
总结一下,GAWK 5.1.0 for Windows是一个强大而易用的文本处理工具,适用于批处理任务,通过提供的lib、share、bin和include目录,用户可以在Windows环境下便捷地使用和扩展其功能。无论你是初学者还是经验丰富的...
GAWK是GNU项目对AWK语言的开源实现,兼容1992年的POSIX标准,因此它可以在各种操作系统上运行,包括UNIX、Mac OS X和Windows。GAWK不仅支持原始AWK和NAWK的特性,还不断更新以增加新功能。这意味着你可以在不同平台...
GAWK 是 GNU 项目对 AWK 的开源实现,支持多种操作系统,包括 UNIX、Mac OS X 和 Windows。由于其兼容 POSIX 标准,GAWK 可以在不同平台上提供一致的行为。 在 GAWK 中,程序通常是数据驱动的,通过模式匹配和操作...
gawk for windows 运行环境
GNU AWK (GAWK) 是开源的AWK实现,适用于所有UNIX系统,同时也在其他操作系统如Mac OS X和Microsoft Windows上可用。GAWK不仅包含了原始AWK的功能,还引入了NAWK(New AWK)的增强特性,如新的内置函数、变量、特殊...
这里提到的"windows下的uniq"实际上可能是指一个名为UNIQUE.exe的程序,它用于处理数据,去除重复行,与Gawk(GNU Awk)配合工作,提供数据分析中的去重能力。 `uniq`命令在Unix/Linux中是一个非常常见的文本处理...
要学习GAWK,你需要在你的系统上安装一个GAWK的副本,最好是Version 3.0或更高版本。源代码和二进制包通常容易获取。安装后,你就可以开始编写和运行AWK程序了。 总之,GAWK是一种强大的文本处理工具,尤其适用于...