`

企鹅日记(九):正则表达式

阅读更多

正则表达式就是处理字符串的方法,它以行为单位来进行字符串的处理行为,正则表达式通过一些特殊符号的辅助,可以让用户轻易达到查找、删除、替换某特定字符串的处理程序。

正则表达式基本上就是一种“表示法”,只要工具程序支持这种表示法,那么该工具程序就可以利用正则表达式处理字符串。例如vi,grep,awk,sed等。

正则表达式和之前的bash通配符是两个完全不同的东西,两者毫无关系,这个要注意下。

# grep [-A]  [-B]  [--color=auto] ‘string’  filename

-A:后面加数字,为after的意思,除了列出该行,后续的n行也列出

-B:before的意思,不解释

# dmesg | grep -n -A3 -B2 –color=auto ‘eth’ <== 内核信息

====几个基本的正则式特殊符号====

特殊符号 代表意义
[:alnum:] 代表英文大小写字符以及数字,亦即 0-9, A-Z, a-z
[:alpha:] 代表任何英文大小写字符,亦即 A-Z, a-z
[:blank:] 代表空白键与 [Tab] 按键两者
[:cntrl:] 代表键盘上面的控制按鍵,亦即包括 CR, LF, Tab, Del.. 等等
[:digit:] 代表数字而已,亦即 0-9
[:graph:] 除了空白字元 (空白键与 [Tab] 按鍵) 外的其他所有按鍵
[:lower:] 代表小写字元,亦即 a-z
[:print:] 代表任何可以被列印出來的字元
[:punct:] 代表标点符号 (punctuation symbol),亦即:” ‘ ? ! ; : # $…
[:upper:] 代表大写字元,亦即 A-Z
[:space:] 任何会产生空白的字元,包括空白鍵, [Tab], CR 等等
[:xdigit:] 代表 16 进制的数字类型,因此包括: 0-9, A-F, a-f 的数字与字符

====基础正则式====

RE 字符 意义与范例
^word 意义:待搜寻的字串(word)在行首!
范例:搜寻行首为 # 开始的那一行,并列出行号

 

grep -n ‘^#’ regular_express.txt

word$ 意义:待搜寻的字串(word)在行尾!
范例:将行尾为 ! 的那一行列印出來,并列出行号

 

grep -n ‘!$’ regular_express.txt

. 意义:代表『一定有一个任意字元』的字符!
范例:搜寻的字串可以是 (eve) (eae) (eee) (e e), 但不能仅有 (ee) !亦即 e 与 e 中间『一定』仅有一个字元,而空白字元也是字元!

 

grep -n ‘e.e’ regular_express.txt

\ 意义:跳脱字符,将特殊字符的特殊意义去除!
范例:搜寻含有单引号 ‘ 的那一行!

 

grep -n \’ regular_express.txt

* 意义:重复零个到无穷个的前一个字符
范例:找出含有 (es) (ess) (esss) 等等的字串,注意,因为 * 可以是 0 個,所以 es 也是符合的。另外,因为 * 为重复『前一个字符』的符号, 因此,在 * 之前必须要紧接着一个字符喔!例如任意字元則为 『.*』 !

 

grep -n ‘ess*’ regular_express.txt

[list] 意義:字元集合的 RE 字符,裡面列出想要擷取的字元!
范例:搜尋含有 (gl) 或 (gd) 的那一行,需要特別留意的是,在 [] 當中『謹代表一個待搜尋的字元』, 例如『 a[afl]y 』代表搜尋的字串可以是 aay, afy, aly 即 [afl] 代表 a 或 f 或 l 的意思!

 

grep -n ‘g[ld]‘ regular_express.txt

[n1-n2] 意义:字元集合里,列出想要撷取的字元范围!
范例:搜寻含有任意数字的那一行!需特別留意,在字元集合 [] 中的减号 – 是有特殊意义的,他代表两个字元之间的所有连续字元!但这个连续与否与 ASCII 编码有关,因此,你的编码需要设定正确(在 bash当中,需要确定 LANG与LANGUAGE 的变量是否正确!) 例如所有大写字元則为 [A-Z]

 

grep -n ‘[A-Z]‘ regular_express.txt

[^list] 意义:字元集合的 RE 字符,里面列出不要的字串或范围!
范例:搜寻的字串可以是 (oog) (ood) 但不能是 (oot) ,那个 ^ 在 [] 內时,代表的意义是『反向选择』的意思。 例如,我不要大写字元,则为 [^A-Z]。但是,需要特別注意的是,如果以 grep -n [^A-Z] regular_express.txt 來搜寻,卻发现该文件內的所有行都被列出,为什么?因为这个 [^A-Z] 是『非大写字元』的意思, 因为每一行均有非大写字元,例如第一行的 “Open Source” 就有 p,e,n,o…. 等等的小写字

 

grep -n ‘oo[^t]‘ regular_express.txt

\{n,m\} 意义:连续 n 到 m 个的『前一个 RE 字符』
意义:若为 \{n\} 则是连续 n 个的前一个 RE 字符,
意义:若是 \{n,\} 則是连续 n 个以上的前一个 RE 字符!
 

范例:在 g 与 g 之间有 2 个到 3 个的 o 存在的字串,亦即 (goog)(gooog)

 

grep -n ‘go\{2,3\}g’ regular_express.txt

====分析工具sed====

sed本身是一个管道命令,可以分析stdin数据

# sed [-nefr] [动作]

-n:使用安静模式(silent),在一般模式下,所有来自stdin数据都显示出来,而-n后只显示被sed特殊处理的那一行

-e:直接在命令行模式上进行sed的动作编辑

-f:直接将sed动作写在一个文件内,-f filename 则可以执行filename内的sed动作

-r:sed的动作支持的是扩展型正则式语法(默认是基础型)

-i:直接修改读取的文件内容,而不是由屏幕输出

动作说明:[n1[,n2]] function

n1,n2:不见得存在,一般代表选择进行动作的行数,比如在10到20行间进行,则”10,20 [动作行为]‘

function的参数:

a:新增,a的后面可以接字符串,而这些字符串会在新的一行出现(目前的下一行)

c:替换,c的后面接字符串,这些字符串可以替换n1,n2之间的行

d:删除,后面不接任何参数

i:插入,i后面可接字符串,这些字符串会在新的一行出现(目前的上一行)

p:打印,也就是将某个选择的数据打印出来。通常p会与参数sed -n 一起运行

s:替换,就是直接进行替换工作,通常这个s的动作可以搭配正则式例如:1,29s/old/new/g就是

注:sed后面接的动作,需要用两个单引号”括住。

# nl /etc/passwd | sed ’2,5d’

# nl /etc/passwd | sed ’3,$d’

整行替换:

# nl /etc/passwd | sed ’2,5c No 2-5 number’

# nl /etc/passwd | sed -n ’5,7p’ 这个等价于 : head -n 7 | tail -n 5

sed的查找并替换,跟vim的很类似:

# sed ‘s/要被替换的字符串/新的字符串/g’

# nl /etc/passwd | sed ‘/^$/d’  <==删除空白行

====扩展正则式====

====好用的数据处理工具awk====

相比于sed常常作用于一整行的处理,awk则运用于将一行分成数个字段来处理,适用于处理小型数据

# awk ‘条件类型1 {动作1} 条件类型2 {动作2} …’ filename

# awk -n 5 | awk ‘{print $t “\t” $3}’

awk处理流程:

1,读入第一行,并将第一行的数据填入$0,$1,$2等变量中

2,依据条件类型限制,判断是否需要进行后面的动作

3,做完所有的动作与条件类型

4,若还有后续的行的数据,则重复上面的1~3的步骤,直到所有的数据都读完为止

awk的内置变量为:

* NF :每一行($0)拥有的字段总数

* NR :目前awk所处理的是第几行数据

* FS :目前的分隔符,默认是空格键

# last -n 5 | awk ‘{print $1 “\t lines: ” NR “\t columns: ” NF}’

# cat /etc/passwd | awk ‘BEGIN {FS=”:”} $3 < 10 {print $1 “\t ” $3}’

====文件的比较命令diff====

# diff [-bBi] original_file new_file

-b:忽略一行中仅有多个空白的区别

-B:忽略空白行的区别

-i:忽略大小写的不同

====补丁命令patch====

先用diff命令生成补丁文件:

# diff -Naur passwd.old passwd.new > paswd.patch

# patch -pN < patch_file  <==更新

# patch -R -pN < patch_file  <== 还原

-p:后面的N表示取消基层目录的意思

-R:代表还原,将新的文件还原成原本的旧的版本

再开始把旧文件升级到新版本:

# patch -p0 < passwd.patch

把新版本还原:

# patch -R -p0 < passwd.patch

打印命令pr….

============END===============

 

本人博客已搬家,新地址为:http://yidao620c.github.io/

分享到:
评论

相关推荐

    较全的正则表达式

    ### 正则表达式知识点详解 #### 一、正则表达式基础概念 正则表达式(Regular Expression)是一种强大的文本处理工具,用于在字符串中查找、替换或提取符合特定模式的子串。它由一系列字符和特殊符号组成,用以...

    编译原理实验二 正则 NFA DFA 化简DFA.zip

    在编译原理中,正则表达式、非确定有限自动机(NFA)和确定有限自动机(DFA)是核心概念,它们是文本模式匹配和解析的基础工具。本实验旨在帮助学生深入理解这些概念,并掌握如何将正则表达式转化为DFA的过程。 **...

    企鹅与怪兽:互联时代的合作共享与创新模式

    企鹅与怪兽:互联时代的合作共享与创新模式

    企鹅智酷:互联网+九大传统行业转型报告

    企鹅智酷:互联网+九大传统行业转型报告

    《帝企鹅日记》观后感字.doc

    而纪录片《帝企鹅日记》如同一股清泉,为我们带来了自然界的另一种声音——关于生命的坚韧、爱情的纯粹和亲情的伟大。 《帝企鹅日记》以其独特的视角,记录了南极洲帝企鹅在极端恶劣环境下的生存状态。南极大陆的...

    企鹅智酷:2019-2020中国互联网趋势报告.pdf

    企鹅智酷:2019-2020中国互联网趋势报告.pdf

    帝企鹅日记观后感800字.docx

    《帝企鹅日记》作为一部生动反映南极洲帝企鹅生存状态的纪录片,通过导演吕克·雅克特的镜头语言,向观众展示了一个不为世人所熟知的冰原世界。在这个零下五十度的冰天雪地里,帝企鹅们不畏严寒,以其独特的生活习性...

    帝企鹅日记观后感大全.doc

    《帝企鹅日记》这部作品,无疑是对南极这个遥远、神秘世界的生动呈现。在观看这部纪录片后,人们不难被其中所描绘的帝企鹅的生存故事所打动,更为它们所展现的团队精神、生存智慧和生命的顽强所折服。 帝企鹅作为...

    《帝企鹅日记》观后感.docx

    《帝企鹅日记》这部纪录片,就是一幅生动的南极画卷,用影像记录下了帝企鹅在极端条件下的生存和繁衍,传递出生命坚韧和亲情伟大的信息。 每年三月,南极洲的奥默克地区会迎来成千上万的帝企鹅,它们不惧零下40度的...

    《帝企鹅日记2—召唤》观后感参考.doc

    《帝企鹅日记2—召唤》这部纪录片以其独特的视角,向我们展示了帝企鹅从出生到成长的整个生命旅程。影片不仅仅是在记录一群南极生物的日常生活,更是在讲述一个关于生命、勇气和坚持的寓言故事。通过影像,我们看到...

    企鹅智库:2018新媒体趋势报告(图片版).pdf

    企鹅智库:2018新媒体趋势报告(图片版).pdf

    企鹅智库:2019-2020中国互联网趋势报告.pdf

    腾讯企鹅智库出品的《2019-2020中国互联网趋势报告》最新版已经出炉

    数据结构课设——表达式的计算

    在本项目“数据结构课设——表达式的计算”中,我们主要探讨的是如何利用数据结构的知识来实现一个表达式求值器。这个课设旨在帮助我们深入理解数据结构的原理,并将其应用到实际问题的解决中。以下是相关知识点的...

    帝企鹅ۥ日记观后感大全精选.doc

    《帝企鹅日记》这部纪录片,便是这样一扇窗口,让我们得以窥见南极帝企鹅这一物种非凡的生命力与生存智慧,以及其背后的自然法则和生命之美。 影片中,帝企鹅所展现的勇气与智慧,让人不禁为之动容。在南极那千里...

    企鹅::penguin:通用的多功能Discord机器人

    企鹅 :penguin: Penguin是一款多功能Discord机器人,在编写时就考虑了Discord社区。 目前,该机器人尚处于早期阶段,并且仍在开发中,尚无法使用。 任何人都可以为这个项目做贡献。 如果您愿意,只需发送请求请求,...

    企鹅智库:中国三四五线城市网民时间-金钱消费数据报告.pdf

    企鹅智库:中国三四五线城市网民时间-金钱消费数据报告.pdf

    企鹅智酷:2018中国冰雪人群&潜在用户调研报告.rar

    《企鹅智酷:2018中国冰雪人群&潜在用户调研报告》是对中国冰雪运动市场的一份深度研究报告,这份报告由企鹅智酷在2018年发布,主要探讨了冰雪运动在中国的发展现状、参与者特征、消费行为以及市场潜力等方面的内容...

    人工智能-文本分类-垃圾文本-商用级垃圾文本分类器

    这些信息往往隐晦,多变,传统规则系统如正则表达式匹配关键词难以应对。通常情况下,文本反垃圾离不开用户行为分析,本章只针对文本内容部分进行讨论。 为了躲避平台监测,垃圾文本常常会使用火星文等方式对关键词...

    帕尔默企鹅数据集.rar

    数据说明penguins_size.csv :经过简化的原始数据英文字段名中文字段名描述species种类巴布亚企鹅、阿德利企鹅、金图企鹅)culmen_length_mm喙长(毫米)喙的长度(毫米)culmen_depth_mm喙深(毫米)喙的深度(毫米...

    企鹅智酷年度报告:移动时代创业黄金法则.rar

    《企鹅智酷年度报告:移动时代创业黄金法则》是一份深入探讨移动互联网时代创业规律的重要文献。报告全面分析了在当前技术飞速发展、移动设备普及的背景下,创业者们如何抓住机遇,遵循黄金法则成功开创事业。以下将...

Global site tag (gtag.js) - Google Analytics