`
qindongliang1922
  • 浏览: 2183832 次
  • 性别: Icon_minigender_1
  • 来自: 北京
博客专栏
7265517b-f87e-3137-b62c-5c6e30e26109
证道Lucene4
浏览量:117530
097be4a0-491e-39c0-89ff-3456fadf8262
证道Hadoop
浏览量:125921
41c37529-f6d8-32e4-8563-3b42b2712a50
证道shell编程
浏览量:59906
43832365-bc15-3f5d-b3cd-c9161722a70c
ELK修真
浏览量:71301
社区版块
存档分类
最新评论

跟散仙学shell编程(十二)

阅读更多
上篇文章散仙写了关于sed进阶,本篇我们来看下在linux中另外一种非常强大的文本处理语言gawk,有关于gawk的基础,散仙在前2篇文章,也有介绍,不熟悉的朋友,可以再回顾下。


gawk是一门功能丰富的编程语言,允许你通过编写高级程序来处理数据,只要我们有其他编程语言的经验,不管死JAVA,C#,Python,shell还是javascript,入手gawk都会感到非常亲切和容易。



下面来看下gawk里面的变量,在gawk里面总共有2种不同的变量,第一种是自带变量,第二种是自定义变量,下面来看下具体的几个常用的变量:

序号gawk自带变量名描述
1FIELDWIDTS由空格分隔开的定义了每个数据字段确切宽度的一列数字
2FS输出字段分隔符
3RS输入数据的行分隔符
4OFS输出字段分隔符
5ORS输出数据行分隔符


变量FS和OFS定义了gawk如何处理数据流中的数据字段,默认情况下gawk将OFS设置成一个空格:

[search@h1 822]$ gawk   '{print $1,$2,$3}' b.txt 
a b c
solr hadoop lucene
[search@h1 822]$ cat b.txt 
a b c
solr hadoop lucene
[search@h1 822]$ gawk   '{print $1,$2,$3}' b.txt 
a b c
solr hadoop lucene
[search@h1 822]$ gawk   '{print $1,$2}' b.txt    
a b
solr hadoop
[search@h1 822]$ 

输出字段分隔符:
[search@h1 822]$ cat b.txt 
a b c
solr hadoop lucene
[search@h1 822]$ gawk  'BEGIN{FS=" ";OFS="-"} {print $1,$2,$3 }' b.txt 
a-b-c
solr-hadoop-lucene
[search@h1 822]$ gawk  'BEGIN{FS=" ";OFS="--"} {print $1,$2,$3 }' b.txt 
a--b--c
solr--hadoop--lucene
[search@h1 822]$ gawk  'BEGIN{FS=" ";OFS="-->"} {print $1,$2,$3 }' b.txt 
a-->b-->c
solr-->hadoop-->lucene
[search@h1 822]$ 



下面看FIELDWIDTHSB变量,它会按固定的位数分隔,但是对于变长的字段就不适合了
[search@h1 822]$ cat c.txt 
1003455
1234522
2222222
5678890
[search@h1 822]$ gawk 'BEGIN{FIELDWIDTHS="2 3 2"}{print $1,$2,$3}' c.txt 
10 034 55
12 345 22
22 222 22
56 788 90
[search@h1 822]$ 


下面看行分隔符的使用:
[search@h1 822]$ cat cc 
中国 河南 洛阳1
电话 2522252




中国 河南 洛阳2
电话 2522252




中国 河南 洛阳3
电话 2522252
[search@h1 822]$ gawk  'BEGIN{FS="\n"; RS=""}  {print $1,$2}' cc  
中国 河南 洛阳1 电话 2522252
中国 河南 洛阳2 电话 2522252
中国 河南 洛阳3 电话 2522252
[search@h1 822]$ 


分析下流程,上述的例子里面我们把FS的分隔符设置为换行符,这说明gawk会把整个行当做一个字段,然后我们又把行分隔符设置为空格,然后再数据行间留一个空白行,gawk会把一个空行当成一个分隔符

除了上面的分隔符变量外,gawk里面还有一些其他的变量:

ARGC  当前命令行的个数
ARGIND 当前文件再ARGV里面的位置
ARGV   包含命令行参数的数组
FNR    当前数据文件中的数据行数
NF     数据文件里字段总数

[search@h1 822]$ gawk  'BEGIN{print ARGC,ARGV[1]}' cc 
2 cc
[search@h1 822]$ 


ARG变量表明命令行有两个参数,这包括gawk命令和cc参数,第一个数组值是gawk命令后的第一个命令行参数

[search@h1 822]$ gawk  'BEGIN{print ENVIRON["HOME"] ;   print ENVIRON["PATH"] } '
/home/search
.:/usr/local/bin:/bin:/usr/bin:/usr/local/sbin:/usr/sbin:/sbin:/usr/local/jdk/bin:/home/search/hadoop/bin:/home/search/hadoop/sbin:/usr/local/ant/bin:/usr/local/maven/bin:/home/search/hive/bin:/home/search/hive/conf:/home/search/bin
[search@h1 822]$ 


ENVIRON命令可以从SHELL的变量里,提取值,但它使用的是字符串,不是索引来标识。
[search@h1 822]$ gawk  'BEGIN{FS=":"; OFS=":"} {print $1,$NF}' /etc/passwd
root:/bin/bash
bin:/sbin/nologin
daemon:/sbin/nologin
adm:/sbin/nologin
lp:/sbin/nologin
sync:/bin/sync
shutdown:/sbin/shutdown
halt:/sbin/halt
mail:/sbin/nologin
uucp:/sbin/nologin
operator:/sbin/nologin
games:/sbin/nologin
gopher:/sbin/nologin
ftp:/sbin/nologin
nobody:/sbin/nologin
vcsa:/sbin/nologin
saslauth:/sbin/nologin
postfix:/sbin/nologin
sshd:/sbin/nologin
mysql:/bin/bash
search:/bin/bash
[search@h1 822]$ 



NF变量允许你指定数据行里最后一个字段,而不需要知道到底有多少个字段

[search@h1 822]$ cat c.txt 
1003455
1234522
2222222
5678890
[search@h1 822]$ gawk  'BEGIN{FS=","} {print $1, "FNR="FNR}' c.txt 
1003455 FNR=1
1234522 FNR=2
2222222 FNR=3
5678890 FNR=4
[search@h1 822]$ 


FNR变量含有当前处理过数据行的总数,NR变量含有所有的总数
[search@h1 822]$ cat c.txt 
1003455
1234522
2222222
5678890
[search@h1 822]$ gawk  'BEGIN{FS=","} {print $1, "FNR="FNR}' c.txt 
1003455 FNR=1
1234522 FNR=2
2222222 FNR=3
5678890 FNR=4
[search@h1 822]$ gawk  'BEGIN{FS=","} {print $1, "FNR="FNR, "NR="NR}' c.txt 
1003455 FNR=1 NR=1
1234522 FNR=2 NR=2
2222222 FNR=3 NR=3
5678890 FNR=4 NR=4
[search@h1 822]$ gawk  'BEGIN{FS=","} {print $1, "FNR="FNR, "NR="NR}' c.txt c.txt 
1003455 FNR=1 NR=1
1234522 FNR=2 NR=2
2222222 FNR=3 NR=3
5678890 FNR=4 NR=4
1003455 FNR=1 NR=5
1234522 FNR=2 NR=6
2222222 FNR=3 NR=7
5678890 FNR=4 NR=8
[search@h1 822]$ 



下面看下如何在gawk里面,使用自定义变量:
[search@h1 822]$ gawk  'BEGIN{test="你好,哈喽"; print test}'
你好,哈喽
[search@h1 822]$ 

[search@h1 822]$ gawk  'BEGIN{test="你好,哈喽"; print test ; test=123; print test}'
你好,哈喽
123
[search@h1 822]$ 


已经使用的变量可以再次使用。

也可以在gawk里面使用算术表达式
[search@h1 822]$ gawk  'BEGIN{x=4; x=x * 2 + 3 ; print x}'
11
[search@h1 822]$ 



还可以在命令端输出参数:
[search@h1 822]$ cat c.txt 
1003455
1234522
2222222
5678890
[search@h1 822]$ gawk  -f script n=1 c.txt  
1003455
1234522
2222222
5678890
[search@h1 822]$ cat script 
BEGIN{FS=","}
{print $n}
[search@h1 822]$ 

[search@h1 822]$ gawk  -f s2  n=1 c.txt 
这个数值: 
1003455
1234522
2222222
5678890
[search@h1 822]$ cat c.txt 
1003455
1234522
2222222
5678890
[search@h1 822]$ cat s2
BEGIN{ print "这个数值: "; n; FS="."}
{ print $n }
[search@h1 822]$ 

如果是在BEGIN前定义的变量,可能不会解析出来,我们需要加上-v参数

在gawk里面我们也可以很方便的使用数组变量:

[search@h1 822]$ gawk  'BEGIN{ a["key"]="value" ; print a["key"]}'
value
[search@h1 822]$ 



遍历数组也可以用我们最熟悉的foreach的方式:

[search@h1 822]$ gawk  'BEGIN{ a["1"]="aa"; a["2"]="ab" ; a["3"]="ac" ; for (t in a){ print "索引: ",t,"  值: ", a[t]  }  }'   
索引:  1   值:  aa
索引:  2   值:  ab
索引:  3   值:  ac
[search@h1 822]$ 

删除一个数组变量用delete命令:
[search@h1 822]$ gawk  'BEGIN{ a["1"]="aa"; a["2"]="ab" ; a["3"]="ac" ;  delete a["2"] ;  for (t in a){ print "索引: ",t,"  值: ", a[t]  }  }'
索引:  1   值:  aa
索引:  3   值:  ac
[search@h1 822]$ 



下面如何使用正则表达式结合gawk

[search@h1 822]$ cat a.txt 
data11
data22
data111

data4561
[search@h1 822]$ gawk 'BEGIN{FS=","} /11/{print $1} ' a.txt 
data11
data111
[search@h1 822]$ 



下面看下匹配操作符:


[search@h1 822]$ cat a.txt 
data11  test11  bbb111
data22  kkk222  ccc222
data111 ggg     jjjj

data4561 111    3333
[search@h1 822]$ gawk  'BEGIN{FS=" "} $2 ~ /^kk/{ print $0 }' a.txt 
data22  kkk222  ccc222
[search@h1 822]$ gawk  'BEGIN{FS=" "} $1 ~ /1/{ print $0 }' a.txt     
data11  test11  bbb111
data111 ggg     jjjj
data4561 111    3333
[search@h1 822]$ gawk  'BEGIN{FS=" "} $1 ~ /^1/{ print $0 }' a.txt 
[search@h1 822]$ gawk  'BEGIN{FS=" "} $1 ~ /^11/{ print $0 }' a.txt 
[search@h1 822]$ gawk  'BEGIN{FS=" "} $1 ~ /11/{ print $0 }' a.txt  
data11  test11  bbb111
data111 ggg     jjjj
[search@h1 822]$ 



$n ~ 可以指定在某个列里面进行查询过滤

!号可以排序,正则的过滤:
[search@h1 822]$ cat a.txt 
data11  test11  bbb111
data22  kkk222  ccc222
data111 ggg     jjjj

data4561 111    3333
[search@h1 822]$ gawk  'BEGIN{FS=" "} $1 !~ /11/{ print $0 }' a.txt  
data22  kkk222  ccc222

data4561 111    3333
[search@h1 822]$ 


数学表达式:
[search@h1 822]$ cat x.txt 
1 solr
2 lucne
3 hadoop 
1 solr2`
[search@h1 822]$ gawk '$1 == 1 { print $0 }' x.txt 
1 solr
1 solr2`
[search@h1 822]$ 


也可以比较文本:
[search@h1 822]$ cat x.txt 
1 solr
2 lucne
3 hadoop 
1 solr2`
[search@h1 822]$ gawk '$1 == 1 { print $0 }' x.txt 
1 solr
1 solr2`
[search@h1 822]$ gawk '$2 == "hadoop" { print $0 }' x.txt   
3 hadoop 
[search@h1 822]$ 



下面看下在gawk里面的结构化编程:
[search@h1 822]$ cat d1 
10
100
20
45
1
-11
[search@h1 822]$ gawk  '{ if ( $1 > 10 )  print $1} ' d1   
100
20
45
[search@h1 822]$ 


下面看下 if-else的例子:
[search@h1 822]$ cat d1 
10
100
20
45
1
-11
[search@h1 822]$ gawk  '{ if ( $1 > 10 )  print $1} ' d1   
100
20
45
[search@h1 822]$ gawk  '{ if ( $1 > 10 ) { print $1} else {  print "这里面小于10"  } } ' d1  
这里面小于10
100
20
45
这里面小于10
这里面小于10
[search@h1 822]$ 


下面看下while语句:


[search@h1 822]$ gawk  'BEGIN{ a=4; while (a<10){ a++ ; print a} }'
5
6
7
8
9
10
[search@h1 822]$ 


gawk支持在while里使用break和continue关键字:
[search@h1 822]$ gawk  'BEGIN{ a=4; while (a<10){ a++ ; if(a==9){ break ;} if (a==7){ continue;}    print a} }'      
5
6
8
[search@h1 822]$ 


下面看下for语句:


[search@h1 822]$ gawk  'BEGIN{ for(i=1;i<=10;i++) {  print "当前的值:"i }}'   
当前的值:1
当前的值:2
当前的值:3
当前的值:4
当前的值:5
当前的值:6
当前的值:7
当前的值:8
当前的值:9
当前的值:10
[search@h1 822]$ 


使用起来,非常顺手

gawk还支持格式化输出printf命令


gawk还支持一些常用的内置函数:
cos(x) 余弦
log(x)对数
rand() 比0大比1小的随机浮点值
[search@h1 822]$ gawk  'BEGIN{ x=10 * rand() ; print x}'
2.37788


除此之外,还有一些字符串函数,有过其他编程基础的人,很容易看明白下面的函数
length(s)取字符串长度
split()按某个符号拆分
asort()排序
match()匹配子串
tolower()转小写
toupper()转大写
等等

下面看下时间函数:

mktime(datespec)将一个按YYYY-MM-DD HH MM SS 格式转换时间错

strftime(format,[timestamp]) 格式化日期

systime() 返回当前的时间戳
[search@h1 822]$ gawk  'BEGIN{ print systime()}'
1408741666
[search@h1 822]$ 


下面看下自定义函数:

[search@h1 822]$ gawk  ' function m(){ print "我是自定义的方法" } BEGIN{    m(); }'
我是自定义的方法
[search@h1 822]$ 


需要注意的是函数名是唯一的


最后看下,如何在gawk自定义一些函数库:

[search@h1 822]$ cat ak 


function  a(){

print  "我是自定义的库"

}


function  b(i){


 for( b=i;b<10;b++){

print "我是自定义的第二个方法: "b
}

}



function c(){


print  rand()

}
[search@h1 822]$ cat ax
BEGIN{  a()  }
[search@h1 822]$ cat axx 
BEGIN{  c();  } 
[search@h1 822]$ gawk  -f ak -f ax
我是自定义的库
[search@h1 822]$ gawk  -f ak -f axx 
0.237788
[search@h1 822]$


我们不能直接在shell终端上使用库函数,但是我们可以用多个-f命令执行多个文件;
0
0
分享到:
评论

相关推荐

    跟老男孩学Linux运维:Shell编程实战 PDF

    跟老男孩学Linux运维:Shell编程实战 PDF跟老男孩学Linux运维:Shell编程实战 PDF

    跟老男孩学Linux运维:Shell编程实战

    《跟老男孩学Linux运维:Shell编程实战》分为五大部分:部分为第1章~第4章,此部分着重介绍新手如何学好Shell编程。涉及的内容包括Shell编程的入门介绍、基础知识、运行原理、编程语法、编程习惯、变量知识以及变量...

    跟老男孩学Linux运维:Shell编程实战.pdf 高清 带书签

    资深运维架构实战专家及教育培训界*专家十多年的运维实战经验总结,全面系统地讲解运维工作中Shell编程所需的知识点和Shell编程的各种企业级案例。

    shell编程入门经典--LINUX与UNIX Shell编程指南 (中文pdf版)

    《LINUX与UNIX Shell编程指南》是一本专为初学者设计的shell编程教程,它深入浅出地介绍了在Linux和UNIX系统中如何使用Shell进行高效自动化任务处理。Shell编程是Linux和UNIX系统中的核心技术,它允许用户通过命令行...

    学习shell的入门资料(shell十三问+shell基础十二篇)doc版

    本资源包含了两份文档——《shell十三问》和《shell基础十二篇》,是初学者快速掌握Shell编程的优秀教程。 1. **Shell基础知识** - **变量与赋值**:在Shell中,变量可以用来存储各种类型的数据,如字符串、整数。...

    Windows Shell 编程.pdf

    Windows Shell 编程.pdf 看过一些对windows 外壳的扩展程序,在使用上一般都是直接利用windows的外壳API做一些工作,因为外壳操作需要一些比较专业的知识,因此,大部分编程人员特别是使用集成编程环境的程序人员对...

    Shell编程中文手册.pdf

    Shell 编程中文手册 本手册涵盖了 Shell 编程的基础知识,包括 Shell 概述、Shell 解析器、Shell 脚本入门、Shell 中的变量等。 Shell 概述 Shell 是一种命令行接口,允许用户与操作系统进行交互。学习 Shell ...

    shell编程学习资料

    Shell编程是Linux/Unix系统中不可或缺的一部分,它是一种命令行解释器,允许用户与操作系统进行交互,执行系统命令,以及编写脚本自动化任务。在本文中,我们将深入探讨Shell编程的基础知识,包括基本命令、变量、...

    shell编程入门教程+shell脚本专家指南+UNIX.shell编程24小时教程.rar

    《shell编程入门教程》、《shell脚本专家指南》以及《UNIX.shell编程24小时教程》会提供详尽的实例和练习,帮助你巩固所学并深化理解。 总之,Shell编程是Linux/Unix环境中不可或缺的技能,它能够提高工作效率,...

    shell编程题目练习

    shell编程题目练习,练习基本的shell编程,学习脚本语言,提高效率

    跟老男孩学Linux运维:Shell编程实战 完整版 pdf

    跟老男孩学Linux运维:Shell编程实战 完整版 pdf

    Linux与UNIX Shell编程指南.pdf

    "Linux与UNIX Shell编程指南" Linux与UNIX Shell编程指南是计算机科学领域中一本经典的指南手册,旨在帮助读者快速掌握Linux与UNIX操作系统下的shell编程技术。下面是从该书中生成的相关知识点: 1. Shell概述 ...

    Shell编程高级进阶系列视频.zip

    13Linux下Shell编程之While case演练 14Linux下Shell编程之While case演练 15Shell编程之函数及脚本案例讲解 16Shell编程之函数及脚本案例讲解 17Linux下Shell编程FIND、SED命令实战 18Linux下Shell编程FIND、SED...

    Windows Shell 编程指南与实例

    《Windows Shell 编程指南与实例》是一本深入探讨Windows操作系统壳层编程技术的专业书籍。在Windows系统中,Shell指的是用户界面,它为用户提供与操作系统交互的环境,包括桌面、开始菜单、快捷方式等。Shell编程则...

    UNIX命令及SHELL编程

    这是一套完整的Unix培训教材,包括Unix常用命令及SHELL编程基础与高级技巧,PDF格式,共30个文件。另有2个Word文档。包内文件清单如下: 01_Shell-文件安全与权限.PDF 02_Shell-使用find和xargs.PDF 03_Shell-...

    Unix Shell Shell编程

    6本pdf及chm的shell 编程的书 6本pdf及chm的shell 编程的书 6本pdf及chm的shell 编程的书 6本pdf及chm的shell 编程的书 6本pdf及chm的shell 编程的书

    shell编程个人笔记

    shell编程个人笔记shell编程个人笔记shell编程个人笔记shell编程个人笔记shell编程个人笔记shell编程个人笔记shell编程个人笔记shell编程个人笔记shell编程个人笔记shell编程个人笔记shell编程个人笔记shell编程个人...

    shell demo及编程pdf

    **Shell编程介绍** Shell编程是Linux/Unix操作系统中的一种脚本语言,用于自动化日常任务,交互式地控制操作系统,以及实现系统级别的程序间交互。它提供了命令行接口(CLI)来执行各种系统命令,使用户能够高效地...

Global site tag (gtag.js) - Google Analytics