`

linux awk 不错的教程

阅读更多

第一个 awk

让我们继续,开始使用 awk,以了解其工作原理。在命令行中输入以下命令:

$ awk '{ print }' /etc/passwd


您将会见到 /etc/passwd 文件的内容出现在眼前。现在,解释 awk 做了些什么。调用 awk 时,我们指定 /etc/passwd 作为输入文件。执行 awk 时,它依次对 /etc/passwd 中的每一行执行 print 命令。所有输出都发送到 stdout,所得到的结果与与执行catting /etc/passwd完全相同。

现在,解释 { print } 代码块。在 awk 中,花括号用于将几块代码组合到一起,这一点类似于 C 语言。在代码块中只有一条 print 命令。在 awk 中,如果只出现 print 命令,那么将打印当前行的全部内容。

这里是另一个 awk 示例,它的作用与上例完全相同:

$ awk '{ print $0 }' /etc/passwd


在 awk 中, $0 变量表示整个当前行,所以 print 和 print $0 的作用完全一样。

如果您愿意,可以创建一个 awk 程序,让它输出与输入数据完全无关的数据。以下是一个示例:

$ awk '{ print "" }' /etc/passwd


只要将 "" 字符串传递给 print 命令,它就会打印空白行。如果测试该脚本,将会发现对于 /etc/passwd 文件中的每一行,awk 都输出一个空白行。再次说明, awk 对输入文件中的每一行都执行这个脚本。以下是另一个示例:

$ awk '{ print "hiya" }' /etc/passwd


运行这个脚本将在您的屏幕上写满 hiya。:)

 

 


=+=+=+=+=+=+=+=

 

多个字段

awk 非常善于处理分成多个逻辑字段的文本,而且让您可以毫不费力地引用 awk 脚本中每个独立的字段。以下脚本将打印出您的系统上所有用户帐户的列表:

$ awk -F":" '{ print $1 }' /etc/passwd


上例中,在调用 awk 时,使用 -F 选项来指定 ":" 作为字段分隔符。awk 处理 print $1 命令时,它会打印出在输入文件中每一行中出现的第一个字段。以下是另一个示例:


$ awk -F":" '{ print $1 $3 }' /etc/passwd


以下是该脚本输出的摘录:

halt7
operator11
root0
shutdown6
sync5
bin1
....etc.


如您所见,awk 打印出 /etc/passwd 文件的第一和第三个字段,它们正好分别是用户名和用户标识字段。现在,当脚本运行时,它并不理想 -- 在两个输出字段之间没有空格!如果习惯于使用 bash 或 python 进行编程,那么您会指望 print $1 $3 命令在两个字段之间插入空格。然而,当两个字符串在 awk 程序中彼此相邻时,awk 会连接它们但不在它们之间添加空格。以下命令会在这两个字段中插入空格:


$ awk -F":" '{ print $1 " " $3 }' /etc/passwd


以这种方式调用 print 时,它将连接 $1 、" " 和 $3 ,创建可读的输出。当然,如果需要的话,我们还可以插入一些文本标签:


$ awk -F":" '{ print "username: " $1 "\t\tuid:" $3" }' /etc/passwd


这将产生以下输出:

username: halt          uid:7
username: operator      uid:11
username: root          uid:0
username: shutdown      uid:6
username: sync          uid:5
username: bin           uid:1
....etc.

 

 


=+=+=+=+=+=+=+=

 

外部脚本

将脚本作为命令行自变量传递给 awk 对于小的单行程序来说是非常简单的,而对于多行程序,它就比较复杂。您肯定想要在外部文件中撰写脚本。然后可以向 awk 传递 -f 选项,以向它提供此脚本文件:

$ awk -f myscript.awk myfile.in


将脚本放入文本文件还可以让您使用附加 awk 功能。例如,这个多行脚本与前面的单行脚本的作用相同,它们都打印出 /etc/passwd 中每一行的第一个字段:

BEGIN {
    FS=":"
}
{ print $1 }


这两个方法的差别在于如何设置字段分隔符。在这个脚本中,字段分隔符在代码自身中指定(通过设置 FS 变量),而在前一个示例中,通过在命令行上向 awk 传递 -F":" 选项来设置 FS。通常,最好在脚本自身中设置字段分隔符,只是因为这表示您可以少输入一个命令行自变量。我们将在本文的后面详细讨论 FS 变量。

 

 


=+=+=+=+=+=+=+=

 

BEGIN 和 END 块

通常,对于每个输入行,awk 都会执行每个脚本代码块一次。然而,在许多编程情况中,可能需要在 awk 开始处理输入文件中的文本之 前 执行初始化代码。对于这种情况,awk 允许您定义一个 BEGIN 块。我们在前一个示例中使用了 BEGIN 块。因为 awk 在开始处理输入文件之前会执行 BEGIN 块,因此它是初始化 FS(字段分隔符)变量、打印页眉或初始化其它在程序中以后会引用的全局变量的极佳位置。

awk 还提供了另一个特殊块,叫作 END 块。awk 在处理了输入文件中的所有行之后执行这个块。通常,END 块用于执行最终计算或打印应该出现在输出流结尾的摘要信息。

 

 


=+=+=+=+=+=+=+=

 

规则表达式和块

awk 允许使用规则表达式,根据规则表达式是否匹配当前行来选择执行独立代码块。以下示例脚本只输出包含字符序列 foo 的那些行:


/foo/ { print }


当然,可以使用更复杂的规则表达式。以下脚本将只打印包含浮点数的行:

/[0-9]+\.[0-9]*/ { print }

 

 


=+=+=+=+=+=+=+=

 

表达式和块

还有许多其它方法可以选择执行代码块。我们可以将任意一种布尔表达式放在一个代码块之前,以控制何时执行某特定块。仅当对前面的布尔表达式求值为真 时,awk 才执行代码块。以下示例脚本输出将输出其第一个字段等于 fred 的所有行中的第三个字段。如果当前行的第一个字段不等于 fred ,awk 将继续处理文件而不对当前行执行 print 语句:


$1 == "fred" { print $3 }


awk 提供了完整的比较运算符集合,包括 "=="、"<"、">"、"<="、">=" 和 "!="。另外,awk 还提供了 "~" 和 "!~" 运算符,它们分别表示“匹配”和“不匹配”。它们的用法是在运算符左边指定变量,在右边指定规则表达式。如果某一行的第五个字段包含字符序列 root ,那么以下示例将只打印这一行中的第三个字段:


$5 ~ /root/ { print $3 }

 

 


=+=+=+=+=+=+=+=

 

条件语句

awk 还提供了非常好的类似于 C 语言的 if 语句。如果您愿意,可以使用 if 语句重写前一个脚本:


{
    if ( $5 ~ /root/ ) {
        print $3
    }
}


这两个脚本的功能完全一样。第一个示例中,布尔表达式放在代码块外面。而在第二个示例中,将对每一个输入行执行代码块,而且我们使用 if 语句来选择执行 print 命令。这两个方法都可以使用,可以选择最适合脚本其它部分的一种方法。

以下是更复杂的 awk if 语句示例。可以看到,尽管使用了复杂、嵌套的条件语句, if 语句看上去仍与相应的 C 语言 if 语句一样:


{
    if ( $1 == "foo" ) {
        if ( $2 == "foo" ) {
            print "uno"
        } else {
            print "one"
        }
    } else if ($1 == "bar" ) {
        print "two"
    } else {
        print "three"
    }
}


使用 if 语句还可以将代码:


! /matchme/ { print $1 $3 $4 }


转换成:

{  
    if ( $0 !~ /matchme/ ) {
        print $1 $3 $4
    }
}


这两个脚本都只输出 不 包含 matchme 字符序列的那些行。此外,还可以选择最适合您的代码的方法。它们的功能完全相同。

awk 还允许使用布尔运算符 "||"(逻辑与)和 "&&"(逻辑或),以便创建更复杂的布尔表达式:

( $1 == "foo" ) && ( $2 == "bar" ) { print }


这个示例只打印第一个字段等于 foo 且 第二个字段等于 bar 的那些行。

 

 


=+=+=+=+=+=+=+=

 

数值变量!

至今,我们不是打印字符串、整行就是特定字段。然而,awk 还允许我们执行整数和浮点运算。通过使用数学表达式,可以很方便地编写计算文件中空白行数量的脚本。以下就是这样一个脚本:

BEGIN   { x=0 }
/^$/    { x=x+1 }
END     { print "I found " x " blank lines. :)" }


在 BEGIN 块中,将整数变量 x 初始化成零。然后,awk 每次遇到空白行时,awk 将执行 x=x+1 语句,递增 x 。处理完所有行之后,执行 END 块,awk 将打印出最终摘要,指出它找到的空白行数量。

 

 


=+=+=+=+=+=+=+=

 

字符串化变量

awk 的优点之一就是“简单和字符串化”。我认为 awk 变量“字符串化”是因为所有 awk 变量在内部都是按字符串形式存储的。同时,awk 变量是“简单的”,因为可以对它执行数学操作,且只要变量包含有效数字字符串,awk 会自动处理字符串到数字的转换步骤。要理解我的观点,请研究以下这个示例:

x="1.01"
# We just set x to contain the *string* "1.01"
x=x+1
# We just added one to a *string*
print x
# Incidentally, these are comments :)


awk 将输出:

2.01


有趣吧!虽然将字符串值 1.01 赋值给变量 x ,我们仍然可以对它加一。但在 bash 和 python 中却不能这样做。首先,bash 不支持浮点运算。而且,如果 bash 有“字符串化”变量,它们并不“简单”;要执行任何数学操作,bash 要求我们将数字放到丑陋的 $( ) ) 结构中。如果使用 python,则必须在对 1.01 字符串执行任何数学运算之前,将它转换成浮点值。虽然这并不困难,但它仍是附加的步骤。如果使用 awk,它是全自动的,而那会使我们的代码又好又整洁。如果想要对每个输入行的第一个字段乘方并加一,可以使用以下脚本:

{ print ($1^2)+1 }


如果做一个小实验,就可以发现如果某个特定变量不包含有效数字,awk 在对数学表达式求值时会将该变量当作数字零处理。

 

 


=+=+=+=+=+=+=+=

 

众多运算符

awk 的另一个优点是它有完整的数学运算符集合。除了标准的加、减、乘、除,awk 还允许使用前面演示过的指数运算符 "^"、模(余数)运算符 "%" 和其它许多从 C 语言中借入的易于使用的赋值操作符。

这些运算符包括前后加减( i++ 、 --foo )、加/减/乘/除赋值运算符( a+=3 、 b*=2 、 c/=2.2 、 d-=6.2 )。不仅如此 -- 我们还有易于使用的模/指数赋值运算符( a^=2 、 b%=4 )。

 

 


=+=+=+=+=+=+=+=

 

字段分隔符

awk 有它自己的特殊变量集合。其中一些允许调整 awk 的运行方式,而其它变量可以被读取以收集关于输入的有用信息。我们已经接触过这些特殊变量中的一个,FS。前面已经提到过,这个变量让您可以设置 awk 要查找的字段之间的字符序列。我们使用 /etc/passwd 作为输入时,将 FS 设置成 ":"。当这样做有问题时,我们还可以更灵活地使用 FS。

FS 值并没有被限制为单一字符;可以通过指定任意长度的字符模式,将它设置成规则表达式。如果正在处理由一个或多个 tab 分隔的字段,您可能希望按以下方式设置 FS:

FS="\t+"


以上示例中,我们使用特殊 "+" 规则表达式字符,它表示“一个或多个前一字符”。

如果字段由空格分隔(一个或多个空格或 tab),您可能想要将 FS 设置成以下规则表达式:

FS="[[:space:]+]"


这个赋值表达式也有问题,它并非必要。为什么?因为缺省情况下,FS 设置成单一空格字符,awk 将这解释成表示“一个或多个空格或 tab”。在这个特殊示例中,缺省 FS 设置恰恰是您最想要的!

复杂的规则表达式也不成问题。即使您的记录由单词 "foo" 分隔,后面跟着三个数字,以下规则表达式仍允许对数据进行正确的分析:

FS="foo[0-9][0-9][0-9]"

 

 


=+=+=+=+=+=+=+=

 

字段数量

接着我们要讨论的两个变量通常并不是需要赋值的,而是用来读取以获取关于输入的有用信息。第一个是 NF 变量,也叫做“字段数量”变量。awk 会自动将该变量设置成当前记录中的字段数量。可以使用 NF 变量来只显示某些输入行:

NF == 3 { print "this particular record has three fields: " $0 }


当然,也可以在条件语句中使用 NF 变量,如下:

{  
    if ( NF > 2 ) {
        print $1 " " $2 ":" $3
    }
}

 

 


=+=+=+=+=+=+=+=

 

记录号

记录号 (NR) 是另一个方便的变量。它始终包含当前记录的编号(awk 将第一个记录算作记录号 1)。迄今为止,我们已经处理了每一行包含一个记录的输入文件。对于这些情况,NR 还会告诉您当前行号。然而,当我们在本系列以后部分中开始处理多行记录时,就不会再有这种情况,所以要注意!可以象使用 NF 变量一样使用 NR 来只打印某些输入行:

(NR < 10 ) || (NR > 100) { print "We are on record number 1-9 or 101+" }


另一个示例:

{
    #skip header
    if ( NR > 10 ) {
        print "ok, now for the real information!"
    }
}


awk 提供了适合各种用途的附加变量。我们将在以后的文章中讨论这些变量。

分享到:
评论

相关推荐

    Linux实战awk详解

    标签"linux"表明这个教程不仅适用于awk本身,还涵盖了在Linux环境中使用awk的实际场景,比如结合管道符(|)和其他Linux命令一起使用,以实现更强大的文本处理能力。 压缩包中的三个PDF文件——"l-awk2-pdf.pdf"、...

    AWK实例教程 AWK实例教程中文版

    ### AWK实例教程知识点解析 #### 一、AWK简介及背景 - **AWK**是一种功能强大的文本处理工具,最初由贝尔实验室的Alfred Aho、Peter Weinberger和Brian Kernighan共同开发,因此得名AWK。尽管这个名字听起来有些...

    awk教程-awk教程.rar

    - **《awk 入门教程_阮一峰的网络日志》**:阮一峰老师的教程通常深入浅出,易于理解,适合快速了解awk的基本用法。 - **《在Window中使用 AWK》**:这本书可能详细介绍了如何在Windows环境下配置和使用awk,对于...

    awk实用程序源码.zip_awk源码_linux_linux awk 源码_makefile_实用程序

    在这个压缩包里,我们看到一系列的示例文件,如`Ex_6.001-6.054`到`Ex_6.193`,这些很可能是`awk`编程的练习或教程。每个文件可能代表一个特定的练习,涵盖了`awk`的不同功能和用法,例如模式匹配、条件语句、循环、...

    linux AWK 教程

    ### Linux AWK 教程详解 #### 1. AWK 简介 AWK 是一种专门设计用于处理文本和数据的编程语言,它在 Linux 和 Unix 环境下非常流行。AWK 可以从标准输入、一个或多个文件、甚至是其他命令的输出中读取数据。它的...

    Linux下的AWK入门教程.docx

    Linux下的AWK入门教程 AWK 是一个强大的文本分析工具,相对于 grep 的查找,sed 的编辑,AWK 在其对数据分析并生成报告时,显得尤为强大。AWK 的名称得自于它的创始人 Alfred Aho、Peter Weinberger 和 Brian ...

    Linux入门培训教程 linux awk 多文件操作2种实现方法.pdf

    ### Linux Awk 多文件操作两种实现方法详解 #### 一、引言 在Linux环境中,经常需要对多个文件进行处理,特别是在数据处理和文本分析领域。Awk作为一种强大的文本处理工具,在处理这类任务时非常高效。本文将详细...

    AWK 教程 - v1.0.pdf

    通过学习这个AWK教程,你将掌握如何利用AWK的强大功能处理日常文本处理任务,提高工作效率,并为更高级的数据分析打下坚实的基础。无论是进行数据提取、过滤、格式转换还是报告生成,AWK都将成为你不可或缺的工具。

    无涯教程(LearnFk)-Awk教程离线版.pdf

    AWK是一种编程语言,主要用于Linux/Unix环境下对文本和数据的处理。它被设计为一种强大的文本处理工具,在Linux及Unix环境中作为数据处理引擎的功能非常强大。AWK语言以三位创始人Alfred Aho(艾侯)、Peter ...

    AWK入门教程和实战案例

    本教程将带你了解AWK的基本概念和实用案例。 1. **AWK简介** - **执行gawk程序**:在Linux环境中,你可以通过命令行直接运行AWK脚本,例如`gawk 'script' file`,或者在脚本文件中写入AWK代码并使用`gawk -f ...

    liunx AWK教程讲解

    Linux系统中AWK工具是专门用于文本处理的强大工具,能够帮助用户分析和处理文本文件,生成报告,进行复杂的文本分析。AWK之所以强大,是因为它是一门解释型编程语言,拥有自己的编程逻辑和语法。它由Afred Aho, ...

    sed命令和awk编程教程

    ### sed命令和awk编程教程知识点概述 #### 一、sed命令基本概念与使用方法 - **sed命令简介**: - `sed` 是一个非交互式的流编辑器(Stream Editor),主要用于自动化文本处理任务,尤其适合处理大型文件或者复杂的...

    Unix-Linux编程实践教程(中文清晰带书签).pdf

    《Unix-Linux编程实践教程》是一本面向程序员和系统管理员的实用指南,旨在通过丰富的实例深入浅出地介绍Unix和Linux环境下的系统级编程技术。这本书涵盖了从基本的命令行操作到复杂的系统调用和库函数的使用,是...

    emacs和Awk入门教程

    Emacs和Awk是两种强大的工具,...Emacs的官方文档、GNU Awk User's Guide以及各种在线教程都是很好的学习资源。随着经验的积累,你将能够灵活运用这两个工具解决各种问题,无论是日常文本编辑还是复杂的数据分析任务。

    《Linux 应用基础教程》--梁如军

    命令行是Linux的核心,因此,书中会详细讲解各种常用命令,如ls、cd、pwd、grep、find、sed和awk等,这些都是Linux用户必备的技能。通过学习这些命令,读者可以高效地在终端中完成各种任务,而不依赖图形化界面。 ...

    awk教程所速度

    awk是Linux下一款非常强大的文本处理工具,可以进行模式扫描和处理,是在UNIX环境下使用的一种编程语言。其最大的特点是能够通过对文本和数据进行模式扫描和处理,来对输入的行进行复杂的操作。awk同样也被广泛用于...

    awk入门到精通.pdf

    《awk入门到精通》这本书是一本专为学习awk语言设计的指南,主要关注awk适用的问题类型和常用的解题策略。作者希望通过一系列具有代表性的实例,帮助读者快速掌握awk的使用技巧和特性。书中实例逐步深入,互相连贯,...

    非常经典的awk教程

    这个“非常经典的awk教程”涵盖了awk的使用手册和语法小节,是学习和掌握awk语言的宝贵资源。以下将详细介绍awk及其相关知识点。 1. **awk基础知识**: - Awk是由Aho、Weinberger和Kernighan三位开发者命名的,...

    AWK 中文教程

    - **安装**:大多数现代 Linux 发行版都默认包含了 AWK 或其变体(如 gawk),可以通过包管理器轻松安装。对于 Windows 系统,可以通过 Cygwin 或 MinGW 等工具来安装 AWK。 - **版本**:目前 AWK 有多个版本,其中...

    shell awk实用实例教程

    在IT领域,Shell和Awk是两种非常强大...通过阅读提供的《awk实用程序.pdf》教程,你将能深入了解更多高级技巧和实例,提升你的Linux技能。记住,实践是掌握这些工具的最好方法,尝试解决实际问题,你的能力将迅速提高。

Global site tag (gtag.js) - Google Analytics