`

sed and awk

 
阅读更多

 

1. Sed简介  
sed 是一种在线编辑器,它一次处理一行内容。处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”(pattern space),接着用sed命令处理缓冲区中的内容,处理完成后,把缓冲区的内容送往屏幕。接着处理下一行,这样不断重复,直到文件末尾。文件内容并没有 改变,除非你使用重定向存储输出。Sed主要用来自动编辑一个或多个文件;简化对文件的反复操作;编写转换程序等。以下介绍的是Gnu版本的Sed 3.02。  
2. 定址  
可以通过定址来定位你所希望编辑的行,该地址用数字构成,用逗号分隔的两个行数表示以这两行为起止的行的范围(包括行数表示的那两行)。如1,3表示1,2,3行,美元符号($)表示最后一行。范围可以通过数据,正则表达式或者二者结合的方式确定 。  
  
3. Sed命令  
调用sed命令有两种形式:  
*  
sed [options] 'command' file(s)  
*  
sed [options] -f scriptfile file(s)  
a\  
在当前行后面加入一行文本。  
b lable  
分支到脚本中带有标记的地方,如果分支不存在则分支到脚本的末尾。  
c\  
用新的文本改变本行的文本。  
d  
从模板块(Pattern space)位置删除行。  
D  
删除模板块的第一行。  
i\  
在当前行上面插入文本。  
h  
拷贝模板块的内容到内存中的缓冲区。  
H  
追加模板块的内容到内存中的缓冲区  
g  
获得内存缓冲区的内容,并替代当前模板块中的文本。  
G  
获得内存缓冲区的内容,并追加到当前模板块文本的后面。  
l  
列表不能打印字符的清单。  
n  
读取下一个输入行,用下一个命令处理新的行而不是用第一个命令。  
N  
追加下一个输入行到模板块后面并在二者间嵌入一个新行,改变当前行号码。  
p  
打印模板块的行。  
P(大写)  
打印模板块的第一行。  
q  
退出Sed。  
r file  
从file中读行。  
t label  
if分支,从最后一行开始,条件一旦满足或者T,t命令,将导致分支到带有标号的命令处,或者到脚本的末尾。  
T label  
错误分支,从最后一行开始,一旦发生错误或者T,t命令,将导致分支到带有标号的命令处,或者到脚本的末尾。  
w file  
写并追加模板块到file末尾。  
W file  
写并追加模板块的第一行到file末尾。  
!  
表示后面的命令对所有没有被选定的行发生作用。  
s/re/string  
用string替换正则表达式re。  
=  
打印当前行号码。  
#  
把注释扩展到下一个换行符以前。  
以下的是替换标记  
*  
g表示行内全面替换。  
*  
p表示打印行。  
*  
w表示把行写入一个文件。  
*  
x表示互换模板块中的文本和缓冲区中的文本。  
*  
y表示把一个字符翻译为另外的字符(但是不用于正则表达式)  
  
4. 选项  
-e command, --expression=command  
允许多台编辑。  
-h, --help  
打印帮助,并显示bug列表的地址。  
-n, --quiet, --silent  
  
取消默认输出。  
-f, --filer=script-file  
引导sed脚本文件名。  
-V, --version  
打印版本和版权信息。  
  
5. 元字符集^  
锚定行的开始 如:/^sed/匹配所有以sed开头的行。   
$  
锚定行的结束 如:/sed$/匹配所有以sed结尾的行。   
.  
匹配一个非换行符的字符 如:/s.d/匹配s后接一个任意字符,然后是d。   
*  
匹配零或多个字符 如:/*sed/匹配所有模板是一个或多个空格后紧跟sed的行。  
[] 
匹配一个指定范围内的字符,如/[Ss]ed/匹配sed和Sed。  
[^] 
匹配一个不在指定范围内的字符,如:/[^A-RT-Z]ed/匹配不包含A-R和T-Z的一个字母开头,紧跟ed的行。  
\(..\) 
保存匹配的字符,如s/\(love\)able/\1rs,loveable被替换成lovers。  
& 
保存搜索字符用来替换其他字符,如s/love/**&**/,love这成**love**。   
\<  
锚定单词的开始,如:/\<love/匹配包含以love开头的单词的行。   
\>  
锚定单词的结束,如/love\>/匹配包含以love结尾的单词的行。   
x\{m\}  
重复字符x,m次,如:/0\{5\}/匹配包含5个o的行。   
x\{m,\}  
重复字符x,至少m次,如:/o\{5,\}/匹配至少有5个o的行。   
x\{m,n\}  
重复字符x,至少m次,不多于n次,如:/o\{5,10\}/匹配5--10个o的行。  
6. 实例  
删除:d命令  
*  
$ sed '2d' example-----删除example文件的第二行。  
*  
$ sed '2,$d' example-----删除example文件的第二行到末尾所有行。  
*  
$ sed '$d' example-----删除example文件的最后一行。  
*  
$ sed '/test/'d example-----删除example文件所有包含test的行。  
替换:s命令  
*  
$ sed 's/test/mytest/g' example-----在整行范围内把test替换为mytest。如果没有g标记,则只有每行第一个匹配的test被替换成mytest。  
*  
$ sed -n 's/^test/mytest/p' example-----(-n)选项和p标志一起使用表示只打印那些发生替换的行。也就是说,如果某一行开头的test被替换成mytest,就打印它。  
*  
$ sed 's/^192.168.0.1/&localhost/' example-----&符号表示替换换字符串中被找到的部份。所有以192.168.0.1开头的行都会被替换成它自已加 localhost,变成192.168.0.1localhost。  
*  
$ sed -n 's/\(love\)able/\1rs/p' example-----love被标记为1,所有loveable会被替换成lovers,而且替换的行会被打印出来。  
*  
$ sed 's#10#100#g' example-----不论什么字符,紧跟着s命令的都被认为是新的分隔符,所以,“#”在这里是分隔符,代替了默认的“/”分隔符。表示把所有10替换成100。  
选定行的范围:逗号  
*  
$ sed -n '/test/,/check/p' example-----所有在模板test和check所确定的范围内的行都被打印。  
*  
$ sed -n '5,/^test/p' example-----打印从第五行开始到第一个包含以test开始的行之间的所有行。  
*  
$ sed '/test/,/check/s/$/sed test/' example-----对于模板test和west之间的行,每行的末尾用字符串sed test替换。  
多点编辑:e命令  
*  
$ sed -e '1,5d' -e 's/test/check/' example-----(-e)选项允许在同一行里执行多条命令。如例子所示,第一条命令删除1至5行,第二条命令用check替换test。命令的执 行顺序对结果有影响。如果两个命令都是替换命令,那么第一个替换命令将影响第二个替换命令的结果。  
*  
$ sed --expression='s/test/check/' --expression='/love/d' example-----一个比-e更好的命令是--expression。它能给sed表达式赋值。  
从文件读入:r命令  
*  
$ sed '/test/r file' example-----file里的内容被读进来,显示在与test匹配的行后面,如果匹配多行,则file的内容将显示在所有匹配行的下面。  
写入文件:w命令  
*  
$ sed -n '/test/w file' example-----在example中所有包含test的行都被写入file里。  
追加命令:a命令  
*  
$ sed '/^test/a\\--->this is a example' example<-----'this is a example'被追加到以test开头的行后面,sed要求命令a后面有一个反斜杠。  
插入:i命令  
$ sed '/test/i\\  
new line  
-------------------------' example  
如果test被匹配,则把反斜杠后面的文本插入到匹配行的前面。  
下一个:n命令  
*  
$ sed '/test/{ n; s/aa/bb/; }' example-----如果test被匹配,则移动到匹配行的下一行,替换这一行的aa,变为bb,并打印该行,然后继续。  
变形:y命令  
*  
$ sed '1,10y/abcde/ABCDE/' example-----把1--10行内所有abcde转变为大写,注意,正则表达式元字符不能使用这个命令。  
退出:q命令  
*  
$ sed '10q' example-----打印完第10行后,退出sed。  
保持和获取:h命令和G命令  
*  
$ sed -e '/test/h' -e '$G example-----在sed处理文件的时候,每一行都被保存在一个叫模式空间的临时缓冲区中,除非行被删除或者输出被取消,否则所有被处理的行都将 打印在屏幕上。接着模式空间被清空,并存入新的一行等待处理。在这个例子里,匹配test的行被找到后,将存入模式空间,h命令将其复制并存入一个称为保 持缓存区的特殊缓冲区内。第二条语句的意思是,当到达最后一行后,G命令取出保持缓冲区的行,然后把它放回模式空间中,且追加到现在已经存在于模式空间中 的行的末尾。在这个例子中就是追加到最后一行。简单来说,任何包含test的行都被复制并追加到该文件的末尾。  
保持和互换:h命令和x命令  
*  
$ sed -e '/test/h' -e '/check/x' example -----互换模式空间和保持缓冲区的内容。也就是把包含test与check的行互换。  
7. 脚本  
Sed脚本是一个sed的命令清单,启动Sed时以-f选项引导脚本文件名。Sed对于脚本中输入的命令非常挑剔,在命令的末尾不能有任何空白或文本,如果在一行中有多个命令,要用分号分隔。以#开头的行为注释行,且不能跨行。
 
1、$0变量:它指的是整条记录。如$ awk '{print $0}' test将输出test文件中的所有记录。
2、变量NR:一个计数器,每处理完一条记录,NR的值就增加1。如$ awk '{print NR,$0}' test将输出test文件中所有记录,并在记录前显示记录号。
3、内建变量FS保存输入域分隔符的值,默认是空格或tab。我们可以通过-F命令行选项修改FS的值。如$ awk -F: '{print $1,$5}' test将打印以冒号为分隔符的第一,第五列的内容。
可以同时使用多个域分隔符,这时应该把分隔符写成放到方括号中,如$awk -F'[:\t]' '{print $1,$3}' test,表示以空格、冒号和tab作为分隔符。
4、匹配操作符(~)和不匹配操作符(!~),用来在记录或者域内匹配正则表达式。如$ awk '$1 ~/^root/' test将显示test文件第一列中以root开头的行。$ awk '$1!~/^root/' test将显示test文件第一列中不以root开头的行!
5、复合表达式
语法:(compound expression)
(expr1)&& (expr2)  ------- 与
(expr1)|| (expr2)  ------- 或
说明一下:符合表达式必须用括号括起来
当使用&&时,expr1和expr2必须同时为零(零代表真!呵呵~),复合表达式才为真;
当使用 || 时,expr1和expr2 只要有一个为真,复合表达式则为真!
6、举例:vi data.f(每列后是tab)
48 Dec 3BC1997 LPSX    68.00   LVX2A   138
483 Sept    5Ap1996 USP 65.00   LVX2C   189
47 Oct 3ZL1998 LPSX    43.00   KVM9D   512
219 dec 2CC1999 CAD 23.00   PLV2C   68
484 nov 7PL1996 CAD 49.00   PLV2C   234
483 may 5PA1998 USP 37.00   KVM9D   644
216 sept    3ZL1998 USP 86.00   KVM9E   234

下面的例子重定向输出到新文件:
awk '{print $0}' data.f > data.f.1
使用t e e命令,在输出到文件的同时输出到屏幕:
awk '{print $0}' data.f | tee data.f.2
打印信息头放置在BEGIN模式部分:
awk 'BEGIN {print "Name Belt\n---------------"}{print $1"\t"$4}' data.f
打印信息尾。E N D语句在所有文本处理动作执行完之后才被执行。E N D语句在脚本中的位置放置在主要动作之后:
awk 'BEGIN {print "Name Belt\n---------------"}{print $1"\t"$4} END {print "end-of-report"}' data.f
为使一域号匹配正则表达式,使用符号‘~’后紧跟正则表达式,也可以用i f语句。awk中i f后面的条件用()括起来。
如果第1域匹配483的话就把该记录打印出来:
awk '{if($1~/483/) print $0}' data.f
完成同一目的也可以这样写:
awk '$0~/483/' data.f
为精确匹配4 8,使用等号= =,并用单引号括起条件:
awk '{if($1=="48") print $0}' data.f
有时要浏览信息并抽取不匹配操作的记录,与~相反的符号是!~,意即不匹配:
awk '{if($1!~/483/) print $0}' data.f
完成同一目的也可以这样写:(缺省情况下, awk将打印所有匹配记录)
awk '$0!~/483/' data.f
为查询大小写信息,可使用[ ]符号。在测试正则表达式时提到可匹配[ ]内任意字符或单词:
awk '/[lL]PSX/' data.f
抽取名字,其记录第3域的第3个字符是L,使用句点.
awk '$3~/^..L/' data.f
使用竖线符|意为匹配| 两边模式之一。注意,使用竖线符时,语句必须用圆括号括起来:
awk '$0~/(USP|LPSX)/' data.f
复合表达式,&& AND,|| OR,!非:
awk '{if($1=="483" && $2~/^Sept/) print $0}' data.f
要快速查看记录个数,应使用NR。print NR放在E N D语法中:
awk 'END {print NR}' data.f
使用NF变量显示每一条读记录中有多少个域,并在END部分打印输入文件名:
awk '{print NR,NF,$0}END{print FILENAME}' data.f
至少存在一个记录后,查询字符串USP,最后打印结果:
awk '{if(NR>0&&$4~/USP/)print$0}' data.f
NF的一个强大功能是将变量$PWD的返回值传入awk并显示其目录。这里需要指定域分隔符/
echo $PWD | awk -F/ '{print $NF}'

设置输入域到域变量名:
awk '{no=$1;month=$2;if(no=="48") print no" month is " month}' data.f
修改数值域取值:
awk '{if($1=="48") $5=$5-10; print $1,$5,$6}' data.f
修改文本域:(要记住实际输入文件是不可修改的,修改的只是保存在缓存里的awk复本。awk会在变量N R或N F变量中反映出修改痕迹。)
awk '{if($2=="Dec") $2="December";print $0}' data.f
只显示修改记录:
awk '{if($2=="Dec") {$2="December";print $0}}' data.f
创建新的输出域:
awk 'BEGIN {print "No\tMonYear"} {if($2~/[Ss]ept/) {$8=$5-$7; print $2,$8}}' data.f
awk 'BEGIN {print "No\tMonYear"} {if($2~/[Ss]ept/) {diff=$5-$7; print $2,diff}}' data.f
列值增加很有用。许多文件都要求统计总数:
awk '(tol+=$5); END {print "Total money:" tol}' data.f
如果文件很大,你只想打印结果部分而不是所有记录,在语句的外面加上大括号{}即可:
awk '{(tol+=$5)}; END {print "Total money:" tol}' data.f
快速查看所有文件的长度及其总和,但要排除子目录:
ls -l | awk '/^[^d]/ {print $9"\t"$5} {tol+=$5} END {print "Total KB:"tol}'
 

 

分享到:
评论

相关推荐

    sed and awk 101 hacks.pdf

    Sed和Awk是UNIX和Linux系统中极为重要的流编辑器和文本处理工具,它们能够通过简单的命令或脚本高效处理文本文件,实现复杂的文本转换和报告生成。接下来,我们将根据提供的文件内容详细地说明Sed和Awk的关键知识点...

    sed and awk 101 hacks

    《sed and awk 101 hacks》是一份关于学习和提升sed和awk使用技巧的文档。文档主要涵盖了sed命令的基础使用、高级技巧以及如何与awk结合使用的方法。本文将详细解读文档中的知识点,以便为读者提供一个全面的参考。 ...

    sed and awk ( 中文第二版)

    经典书籍,很详细的介绍了sed和awk的编程。 中文介绍,很方便阅读!

    sed and awk文档合集

    说是sed和awk的合集,但是里面也有很多其它的东西.其中就包括了一个windows版的grep.本来也有windows的sed,不过好像不好用.呵呵.希望大家捧场. 里面有很多不错的例子.懒得看文档的人有福了阿.

    Sed与awk_中英文高清版

    Awk,全称为Aho, Weinberger, and Kernighan,是一种高级的数据处理语言。它的设计初衷是为了在文本文件中方便地进行数据分析和报告生成。Awk处理数据时,会按行读取文件,对每一行执行用户定义的动作。这些动作可以...

    Sed与awk第二版(中文高清版)

    在处理文本数据时,Sed和awk是两个非常强大的工具。它们广泛应用于Unix和类Unix系统中,比如Linux。Sed,即流编辑器,是一个非交互式的文本处理工具,它能够执行文本替换、插入、删除等操作,而awk则是一个强大的...

    Sed and Awk 101 Hacks

    本书《Sed and Awk 101 Hacks》面向希望提升自己在Unix/Linux系统操作能力的开发者、系统管理员、数据库管理员或IT管理员,旨在帮助读者快速掌握Sed和Awk的核心用法,并通过实例讲解如何将这些工具用于实际问题解决...

    sed和awk的必备书籍

    包括: 1. sed与awk+第三版(中文高清晰),内容非常全面详细,看了觉得很不错,学习sed和awk的必备书籍。 2. Effective awk Programming, 4th Edition 3. Sed与awk第二版(高清版).pdf

    Sed & Awk 101 Hacks

    or system administrator, or database administrator, or IT manager, or just someone who spends a significant amount of time on UNIX / Linux, you should become proficient in Sed and Awk. Sed and Awk ...

    sed & awk 第二版 例程 源代码 源码 sed & awk sourcecode

    《sed与awk 第二版 例程 源代码》是一部深入探讨文本处理工具sed和awk的经典著作。这本书的核心在于其丰富的例程和源代码,旨在帮助读者掌握这两个强大的命令行工具的用法。sed(流编辑器)和awk(编程语言)在IT...

    Sed & awk 101 Hacks

    proficient in Sed and Awk. Sed and Awk are two great utilities that can solve a lot of complex tasks quickly with only a few lines of code--in most cases, with just a single line of code.

    Sed & Awk 2nd Edition

    本书《Sed & Awk 2nd Edition》由Dale Dougherty和Arnold Robbins编写,是关于UNIX环境下两个强大的文本处理工具sed和awk的使用指南。sed,作为流编辑器(stream editor),主要用于对多个文件进行一系列编辑操作;awk...

    SED与AWK 高清第三版

    awk则是Pattern scanning and processing language(模式扫描和处理语言),它的功能比sed更为强大,不仅具备sed的基本功能,还能进行复杂的逻辑判断和算术运算。awk通过模式匹配的方式选取需要处理的行,并执行相应...

    sed_awk.chm

    This book is about a set of oddly named UNIX utilities, sed and awk. These utilities have many things in common, including the use of regular expressions for pattern matching. Since pattern matching ...

    《sed与awk(第二版)》[PDF]

    本书介绍了一组名字奇特的UNIX实用工具:sed和awk。这组实用工具有很多共同的特征,譬如正则表达式在模式匹配中的应用等。模式匹配在sed和 awk的使用中是很重要的部分,因此本书详尽解释了UNIX正则表达式的语法。...

Global site tag (gtag.js) - Google Analytics