`
chinamming
  • 浏览: 151180 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

Windows上GAWK的使用(一)

 
阅读更多

<wbr><wbr><span></span>现在经常要处理到一些日志数据,对这些数据进行分析处理,但首先要对日志数据进行etl处理,如果简单的数据格式处理,使用gawk是最理想不过了,下面我们就介绍如何使用gawk,对数据进行e(extract)处理。</wbr></wbr>

<wbr></wbr>

一.到网上下载一个gawk.exe程序(用于Windows上)。

二.gawk的基本语法.

<wbr></wbr>

1.gawk格式.

gawk [options] "[Begin{}][pattern]{action}[End{}]" InputFileName.

<wbr></wbr>

1.1. 命令选项[options]

-F fs or --field-separator fs

指定输入文件折分隔符,fs是一个字符串或者是一个正则表达式,如-F:。
-v var=value or --asign var=value

赋值一个用户定义变量。
-f scripfile or --file scriptfile

从脚本文件中读取awk命令。
-mf nnn and -mr nnn

对nnn值设置内在限制,-mf选项限制分配给nnn的最大块数目;-mr选项限制记录的最大数目。这两个功能是Bell实验室版awk的扩展功能,在标准awk中不适用。
-W compact or --compat, -W traditional or --traditional

在兼容模式下运行awk。所以gawk的行为和标准的awk完全一样,所有的awk扩展都被忽略。
-W copyleft or --copyleft, -W copyright or --copyright

打印简短的版权信息。
-W help or --help, -W usage or --usage

打印全部awk选项和每个选项的简短说明。
-W lint or --lint

打印不能向传统unix平台移植的结构的警告。
-W lint-old or --lint-old

打印关于不能向传统unix平台移植的结构的警告。
-W posix

打开兼容模式。但有以下限制,不识别:\x、函数关键字、func、换码序列以及当fs是一个空格时,将新行作为一个域分隔符;操作符**和**=不能代替^和^=;fflush无效。
-W re-interval or --re-inerval

允许间隔正则表达式的使用,参考(grep中的Posix字符类),如括号表达式[[:alpha:]]。
-W source program-text or --source program-text

使用program-text作为源代码,可与-f命令混用。
-W version or --version

打印bug报告信息的版本。
3. 模式和操作[pattern] And [action]

gawk脚本是由模式和操作组成的:

pattern {action} 如gawk .exe “/root/” <wbr>test.text,或gawk.exe <wbr>“$3 &lt; 100” <wbr>test.text。<br><br> 两者是可选的,如果没有模式,则action应用到全部记录,如果没有action,则输出匹配全部记录。默认情况下,每一个输入行都是一条记录,但用户可通过RS变量指定不同的分隔符进行分隔。<br> 3.1. 模式<br><br> 模式可以是以下任意一个:<br><br> *<br><br> /正则表达式/:使用通配符的扩展集。<br> *<br><br> 关系表达式:可以用下面运算符表中的关系运算符进行操作,可以是字符串或数字的比较,如$2&gt;%1选择第二个字段比第一个字段长的行。<br> *<br><br> 模式匹配表达式:用运算符~(匹配)和~!(不匹配)。<br> *<br><br> 模式,模式:指定一个行的范围。该语法不能包括BEGIN和END模式。<br> *<br><br> BEGIN:让用户指定在第一条输入记录被处理之前所发生的动作,通常可在这里设置全局变量。<br> *<br><br> END:让用户在最后一条输入记录被读取之后发生的动作。<br><br> 3.2. 操作[action]<br><br> 操作由一人或多个命令、函数、表达式组成,之间由换行符或分号隔开,并位于大括号内。主要有四部份:<br> *变量或数组赋值<br> *输出命令<br> *内置函数<br> *控制流命令</wbr></wbr></wbr>

<wbr><wbr><span></span>gawk逐行读取InputFileName文件的内容,将符合pattern规则的行,再按照action指定的操作来执行,pattern相当于是条件,action相当于是执行动作。其中用[]中括号括起来的部分不是必须写的部分,接下来列举一个简单的例子.</wbr></wbr>

test.txt文件中的内容如下:

1111;aaaa;AAAA;

2222;bbbb;BBBB;

3333;cccc;dddd;

在命令窗口运行:gawk.exe "{print $0}" test.txt,则输出以下内容:

1111;aaaa;AAAA;

2222;bbbb;BBBB;

3333;cccc;dddd;

"{print $0}"表示完整的输出从test.txt文件中读取的每一行.$0表示当前读取的行,从这里我们应该知道gawk从test.txt读取一行之后开始执行action块的动作。为了验证这点,下面再举一个例子:

gawk.exe "{print """test"""}" test.txt 输出如下:

test

test

test

由于test.txt文件中有三行,所以action块部分执行了三次.

<wbr></wbr>

如果想以分号作为分隔符可以将test.txt分成四列,只输出前两列:

gawk.exe -F"\73"<wbr>"{print $1,$2}" test.txt 注意这里"\73"是分号的八进制Ascii码。输出如下:</wbr>

1111 aaaa

2222 bbbb

3333 cccc

我们发现输出的结果中每一列是用空格分隔的,现在我们自己定义分隔符,写法如下:

gawk.exe<wbr>-F"\73"<wbr>"BEGIN{OFS="""\t"""}{print $1,$2}" test.txt 输出结果中每一列是用制表符来分割的,这里面使用到了BEGIN{}块,和内建变量OFS,BEGIN块的作用就是在gawk开始读取test.txt第一行之前要执行的部分,一般在BEGIN块里面初始化变量,OFS是gawk内建变量,表示输出列的分割符是什么,这里使用的是制表符.</wbr></wbr>

分享到:
评论

相关推荐

    GawkforWindows4.1forWindows附Gawk使用方法

    gawk 是 GNU 的 awk,具有很强的文本处理功能,简洁优美. awk 是一个程式语言,对于文本处理具有很强的功能。对於文字档里的资料做修改、比对、抽取等的处理,awk 能够以很短的程式 轻易地完成。 awk 能够依照使用...

    gawk windows版本的gawk 一个功能强大的文本编辑器

    然而,它同样可以在Windows系统上运行,通过提供的Windows版本——gawk for win,用户可以在Windows环境下享受其丰富的功能。Gawk是AWK编程语言的一个实现,由GNU项目开发,旨在处理和分析文本文件,提取有用的信息...

    windows环境下GAWK version-4.2.1

    在Windows环境下使用`GAWK version 4.2.1`,用户可以享受到与Unix/Linux系统相同的文本处理能力,这对于Windows开发者和系统管理员来说是一个非常有用的工具。 `awk`的基本原理是基于模式匹配和动作执行。它可以在...

    gawk-3.1.6-1-bin windows最新版

    在Windows系统上,你可能需要通过命令提示符或者PowerShell来运行`gawk`命令,将`gawk-3.1.6-1-bin`添加到系统路径后,就可以像在Linux下一样方便地调用`gawk`了。 总的来说,`gawk-3.1.6-1-bin`为Windows用户提供...

    gawk使用手册

    《gawk使用手册》是为Linux和Cygwin环境下用户准备的一份详尽教程,它主要聚焦于gawk,这是一个强大的文本分析工具,基于AWK编程语言。gawk是GNU项目的一部分,它提供了标准AWK语言的实现,并添加了一些额外的功能和...

    Gawk for Windows 3.1.6-1

    Gawk: pattern scanning and processing language Version 3.1.6 Description Several kinds of tasks occur repeatedly when working with text files. You might want to extract certain lines and discard ...

    gawk 3.1.6-1 windows中的awk

    可以在windows系统中使用linux中的awk命令。具体使用方法请参照linux版本的awk使用方法。 可以在windows系统中使用linux中的awk命令。具体使用方法请参照linux版本的awk使用方法

    gawk-5.0.1-w32.zip

    本文将详细介绍如何在Windows上安装和使用Gawk 5.0.1版本,以及如何将Gawk集成到系统环境变量中。 首先,我们提到的"**gawk-5.0.1-w32.zip**"是一个专门为Windows系统编译的Gawk版本,版本号为5.0.1。这个压缩包...

    gawk_4.1.zip

    gawk for windows 运行环境

    Gawk for Windows:适用于 Windows 32 位的 GNU Awk 4.0.0-开源

    处理文本文件时,会重复出现多种任务。 您可能想要提取某些行并丢弃其余行。 或者,您可能需要在出现某些特定模式... 这意味着所有正确编写的 awk 程序都应该使用 gawk。 因此,我们通常不区分 gawk 和其他 awk 实现。

    GAWK:Effective AWK Programming Edition 4.2

    1.GAWK:Effective AWK Programming_Edition 4.2.dvi 2.GAWK:Effective AWK Programming_Edition 4.2.html 3.GAWK:Effective AWK Programming_Edition 4.2.pdf 4.GAWK:Effective AWK Programming_Edition 4.2.txt

    awk源码及windows下64位和32位编译说明

    当在Windows上编译awk源码时,我们需要以下准备工作: 1. 获取awk源码:通常可以从GNU Awk (gawk)官方网站下载最新版本的源代码,例如`gawk-5.x.x.tar.gz`。 2. 安装编译环境:对于32位系统,你需要安装MinGW...

    gmt安装包(gmt 6.0.0-win64;gawk-3.1.6-1;gs921w64;gsv50w64)

    其中,gawk-3.1.6-1是GNU Awk的版本,这是一个文本处理工具,经常与GMT结合使用,帮助解析和操作GMT生成的地图配置文件或数据文件。gs921w64可能是指Ghostscript的9.21版Windows 64位版本,它是GMT用来处理Post...

    gawk-5.1.0-w32-bin.zip

    总结一下,GAWK 5.1.0 for Windows是一个强大而易用的文本处理工具,适用于批处理任务,通过提供的lib、share、bin和include目录,用户可以在Windows环境下便捷地使用和扩展其功能。无论你是初学者还是经验丰富的...

    GAWK入门.pdf

    GAWK是GNU项目对AWK语言的开源实现,兼容1992年的POSIX标准,因此它可以在各种操作系统上运行,包括UNIX、Mac OS X和Windows。GAWK不仅支持原始AWK和NAWK的特性,还不断更新以增加新功能。这意味着你可以在不同平台...

    GAWK入门.doc

    GAWK 是 GNU 项目对 AWK 的开源实现,支持多种操作系统,包括 UNIX、Mac OS X 和 Windows。由于其兼容 POSIX 标准,GAWK 可以在不同平台上提供一致的行为。 在 GAWK 中,程序通常是数据驱动的,通过模式匹配和操作...

    gawk_5.1.zip

    gawk for windows 运行环境

    GAWK入门.docx

    GNU AWK (GAWK) 是开源的AWK实现,适用于所有UNIX系统,同时也在其他操作系统如Mac OS X和Microsoft Windows上可用。GAWK不仅包含了原始AWK的功能,还引入了NAWK(New AWK)的增强特性,如新的内置函数、变量、特殊...

    windows下的uniq

    这里提到的"windows下的uniq"实际上可能是指一个名为UNIQUE.exe的程序,它用于处理数据,去除重复行,与Gawk(GNU Awk)配合工作,提供数据分析中的去重能力。 `uniq`命令在Unix/Linux中是一个非常常见的文本处理...

    GAWK入门[参照].pdf

    要学习GAWK,你需要在你的系统上安装一个GAWK的副本,最好是Version 3.0或更高版本。源代码和二进制包通常容易获取。安装后,你就可以开始编写和运行AWK程序了。 总之,GAWK是一种强大的文本处理工具,尤其适用于...

Global site tag (gtag.js) - Google Analytics