`
会飞的拉布拉多
  • 浏览: 15603 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

sed简明教程(转)

阅读更多
  本文转自coolshell.cn  作者:陈皓
  非常喜欢陈皓这个人(我不是gay。。。),为人谦逊,每天都拜读他的酷壳博客,他的文章总会把复杂的问题简单化,抽象的问题具体化,技术本身就枯燥乏味,写个文章又何必为难自己人呢。对于shell初学者来说,命令是个非常头疼的问题,本片就是转载自coolshell的文章,与大家共勉。

awk于1977年出生,今年36岁本命年,sed比awk大2-3岁,awk就像林妹妹,sed就是宝玉哥哥了。所以 林妹妹跳了个Topless,他的哥哥sed坐不住了,也一定要出来抖一抖。

sed全名叫stream editor,流编辑器,用程序的方式来编辑文本,相当的hacker啊。sed基本上就是玩正则模式匹配,所以,玩sed的人,正则表达式一般都比较强。

同样,本篇文章不会说sed的全部东西,你可以参看sed的手册,我这里主要还是想和大家竞争一下那些从手机指缝间或马桶里流走的时间,用这些时间来学习一些东西。当然,接下来的还是要靠大家自己双手。

用s命令替换
我使用下面的这段文本做演示
$ cat pets.txt
This is my cat
  my cat's name is betty
This is my dog
  my dog's name is frank
This is my fish
  my fish's name is george
This is my goat
  my goat's name is adam

把其中的my字符串替换成Hao Chen’s,下面的语句应该很好理解(s表示替换命令,/my/表示匹配my,/Hao Chen’s/表示把匹配替换成Hao Chen’s,/g 表示一行上的替换所有的匹配):
$ sed "s/my/Hao Chen's/g" pets.txt
This is Hao Chen's cat
  Hao Chen's cat's name is betty
This is Hao Chen's dog
  Hao Chen's dog's name is frank
This is Hao Chen's fish
  Hao Chen's fish's name is george
This is Hao Chen's goat
  Hao Chen's goat's name is adam

注意:如果你要使用单引号,那么你没办法通过\’这样来转义,就有双引号就可以了,在双引号内可以用\”来转义。


再注意:上面的sed并没有对文件的内容改变,只是把处理过后的内容输出,如果你要写回文件,你可以使用重定向,如:

$ sed "s/my/Hao Chen's/g" pets.txt > hao_pets.txt

或使用 -i 参数直接修改文件内容:

$ sed -i "s/my/Hao Chen's/g" pets.txt

在每一行最前面加点东西:
$ sed 's/^/#/g' pets.txt
#This is my cat
#  my cat's name is betty
#This is my dog
#  my dog's name is frank
#This is my fish
#  my fish's name is george
#This is my goat
#  my goat's name is adam

在每一行最后面加点东西:
$ sed 's/$/ --- /g' pets.txt
This is my cat ---
  my cat's name is betty ---
This is my dog ---
  my dog's name is frank ---
This is my fish ---
  my fish's name is george ---
This is my goat ---
  my goat's name is adam ---

顺手介绍一下正则表达式的一些最基本的东西:

^ 表示一行的开头。如:/^#/ 以#开头的匹配。
$ 表示一行的结尾。如:/}$/ 以}结尾的匹配。
\< 表示词首。 如 \<abc 表示以 abc 为首的詞。
\> 表示词尾。 如 abc\> 表示以 abc 結尾的詞。
. 表示任何单个字符。
* 表示某个字符出现了0次或多次。
[ ] 字符集合。 如:[abc]表示匹配a或b或c,还有[a-zA-Z]表示匹配所有的26个字符。如果其中有^表示反,如[^a]表示非a的字符
正规则表达式是一些很牛的事,比如我们要去掉某html中的tags:

html.txt
<b>This</b> is what <span style="text-decoration: underline;">I</span> meant.
Understand?
看看我们的sed命令

# 如果你这样搞的话,就会有问题
$ sed 's/<.*>//g' html.txt

Understand?

# 要解决上面的那个问题,就得像下面这样。
# 其中的'[^>]' 指定了除了>的字符重复0次或多次。
$ sed 's/<[^>]*>//g' html.txt
This is what I meant. Understand?
我们再来看看指定需要替换的内容:

$ sed "3s/my/your/g" pets.txt
This is my cat
  my cat's name is betty
This is your dog
  my dog's name is frank
This is my fish
  my fish's name is george
This is my goat
  my goat's name is adam

下面的命令只替换第3到第6行的文本。
$ sed "3,6s/my/your/g" pets.txt
This is my cat
  my cat's name is betty
This is your dog
  your dog's name is frank
This is your fish
  your fish's name is george
This is my goat
  my goat's name is adam


$ cat my.txt
This is my cat, my cat's name is betty
This is my dog, my dog's name is frank
This is my fish, my fish's name is george
This is my goat, my goat's name is adam

只替换每一行的第一个s:
$ sed 's/s/S/1' my.txt
ThiS is my cat, my cat's name is betty
ThiS is my dog, my dog's name is frank
ThiS is my fish, my fish's name is george
ThiS is my goat, my goat's name is adam

只替换每一行的第二个s:
$ sed 's/s/S/2' my.txt
This iS my cat, my cat's name is betty
This iS my dog, my dog's name is frank
This iS my fish, my fish's name is george
This iS my goat, my goat's name is adam

只替换第一行的第3个以后的s:
$ sed 's/s/S/3g' my.txt
This is my cat, my cat'S name iS betty
This is my dog, my dog'S name iS frank
This is my fiSh, my fiSh'S name iS george
This is my goat, my goat'S name iS adam

多个匹配
如果我们需要一次替换多个模式,可参看下面的示例:(第一个模式把第一行到第三行的my替换成your,第二个则把第3行以后的This替换成了That)
$ sed '1,3s/my/your/g; 3,$s/This/That/g' my.txt
This is your cat, your cat's name is betty
This is your dog, your dog's name is frank
That is your fish, your fish's name is george
That is my goat, my goat's name is adam

上面的命令等价于:(注:下面使用的是sed的-e命令行参数)
sed -e '1,3s/my/your/g' -e '3,$s/This/That/g' my.txt

我们可以使用&来当做被匹配的变量,然后可以在基本左右加点东西。如下所示:
$ sed 's/my/[&]/g' my.txt
This is [my] cat, [my] cat's name is betty
This is [my] dog, [my] dog's name is frank
This is [my] fish, [my] fish's name is george
This is [my] goat, [my] goat's name is adam

圆括号匹配
使用圆括号匹配的示例:(圆括号括起来的正则表达式所匹配的字符串会可以当成变量来使用,sed中使用的是\1,\2…)
$ sed 's/This is my \([^,]*\),.*is \(.*\)/\1:\2/g' my.txt
cat:betty
dog:frank
fish:george
goat:adam

上面这个例子中的正则表达式有点复杂,解开如下(去掉转义字符):

正则为:This is my ([^,]*),.*is (.*)
匹配为:This is my (cat),……….is (betty)

然后:\1就是cat,\2就是betty

sed的命令
让我们回到最一开始的例子pets.txt,让我们来看几个命令:

N命令
先来看N命令 —— 把下一行的内容纳入当成缓冲区做匹配。

下面的的示例会把原文本中的偶数行纳入奇数行匹配,而s只匹配并替换一次,所以,就成了下面的结果:
$ sed 'N;s/my/your/' pets.txt
This is your cat
  my cat's name is betty
This is your dog
  my dog's name is frank
This is your fish
  my fish's name is george
This is your goat
  my goat's name is adam

也就是说,原来的文件成了:
This is my cat\n  my cat's name is betty
This is my dog\n  my dog's name is frank
This is my fish\n  my fish's name is george
This is my goat\n  my goat's name is adam

这样一来,下面的例子你就明白了,
$ sed 'N;s/\n/,/' pets.txt
This is my cat,  my cat's name is betty
This is my dog,  my dog's name is frank
This is my fish,  my fish's name is george
This is my goat,  my goat's name is adam

a命令和i命令
a命令就是append, i命令就是insert,它们是用来添加行的。如:
# 其中的1i表明,其要在第1行前插入一行(insert)
$ sed "1 i This is my monkey, my monkey's name is wukong" my.txt
This is my monkey, my monkey's name is wukong
This is my cat, my cat's name is betty
This is my dog, my dog's name is frank
This is my fish, my fish's name is george
This is my goat, my goat's name is adam

# 其中的1a表明,其要在最后一行后追加一行(append)
$ sed "$ a This is my monkey, my monkey's name is wukong" my.txt
This is my cat, my cat's name is betty
This is my monkey, my monkey's name is wukong
This is my dog, my dog's name is frank
This is my fish, my fish's name is george
This is my goat, my goat's name is adam

我们可以运用匹配来添加文本:
# 注意其中的/fish/a,这意思是匹配到/fish/后就追加一行
$ sed "/fish/a This is my monkey, my monkey's name is wukong" my.txt
This is my cat, my cat's name is betty
This is my dog, my dog's name is frank
This is my fish, my fish's name is george
This is my monkey, my monkey's name is wukong
This is my goat, my goat's name is adam

下面这个例子是对每一行都挺插入:
$ sed "/my/a ----" my.txt
This is my cat, my cat's name is betty
----
This is my dog, my dog's name is frank
----
This is my fish, my fish's name is george
----
This is my goat, my goat's name is adam
----

c命令
c 命令是替换匹配行
$ sed "2 c This is my monkey, my monkey's name is wukong" my.txt
This is my cat, my cat's name is betty
This is my monkey, my monkey's name is wukong
This is my fish, my fish's name is george
This is my goat, my goat's name is adam


$ sed "/fish/c This is my monkey, my monkey's name is wukong" my.txt
This is my cat, my cat's name is betty
This is my dog, my dog's name is frank
This is my monkey, my monkey's name is wukong
This is my goat, my goat's name is adam

d命令
删除匹配行
$ sed '/fish/d' my.txt
This is my cat, my cat's name is betty
This is my dog, my dog's name is frank
This is my goat, my goat's name is adam


$ sed '2d' my.txt
This is my cat, my cat's name is betty
This is my fish, my fish's name is george
This is my goat, my goat's name is adam


$ sed '2,$d' my.txt
This is my cat, my cat's name is betty

p命令
打印命令

你可以把这个命令当成grep式的命令
# 匹配fish并输出,可以看到fish的那一行被打了两遍,
# 这是因为sed处理时会把处理的信息输出
$ sed '/fish/p' my.txt
This is my cat, my cat's name is betty
This is my dog, my dog's name is frank
This is my fish, my fish's name is george
This is my fish, my fish's name is george
This is my goat, my goat's name is adam


# 使用n参数就好了
$ sed -n '/fish/p' my.txt
This is my fish, my fish's name is george


# 从一个模式到另一个模式
$ sed -n '/dog/,/fish/p' my.txt
This is my dog, my dog's name is frank
This is my fish, my fish's name is george


#从第一行打印到匹配fish成功的那一行
$ sed -n '1,/fish/p' my.txt
This is my cat, my cat's name is betty
This is my dog, my dog's name is frank
This is my fish, my fish's name is george

几个知识点
好了,下面我们要介绍四个sed的基本知识点:

Pattern Space
第零个是关于-n参数的,大家也许没看懂,没关系,我们来看一下sed处理文本的伪代码,并了解一下Pattern Space的概念:
foreach line in file {
    //放入把行Pattern_Space
    Pattern_Space <= line;
 
    // 对每个pattern space执行sed命令
    Pattern_Space <= EXEC(sed_cmd, Pattern_Space);
 
    // 如果没有指定 -n 则输出处理后的Pattern_Space
    if (sed option hasn't "-n")  {
       print Pattern_Space
    }
}

Address
第一个是关于address,几乎上述所有的命令都是这样的(注:其中的!表示匹配成功后是否执行命令)

[address[,address]][!]{cmd}

address可以是一个数字,也可以是一个模式,你可以通过逗号要分隔两个address 表示两个address的区间,参执行命令cmd,伪代码如下:
bool bexec = false
foreach line in file {
    if ( match(address1) ){
        bexec = true;
    }
 
    if ( bexec == true) {
        EXEC(sed_cmd);
    }
 
    if ( match (address2) ) {
        bexec = false;
    }
}

关于address可以使用相对位置,如:
# 其中的+3表示后面连续3行
$ sed '/dog/,+3s/^/# /g' pets.txt
This is my cat
  my cat's name is betty
# This is my dog
#   my dog's name is frank
# This is my fish
#   my fish's name is george
This is my goat
  my goat's name is adam

命令打包
第二个是cmd可以是多个,它们可以用分号分开,可以用大括号括起来作为嵌套命令。下面是几个例子:
$ cat pets.txt
This is my cat
  my cat's name is betty
This is my dog
  my dog's name is frank
This is my fish
  my fish's name is george
This is my goat
  my goat's name is adam


# 对3行到第6行,执行命令/This/d
$ sed '3,6 {/This/d}' pets.txt
This is my cat
  my cat's name is betty
  my dog's name is frank
  my fish's name is george
This is my goat
  my goat's name is adam


# 对3行到第6行,匹配/This/成功后,再匹配/fish/,成功后执行d命令
$ sed '3,6 {/This/{/fish/d}}' pets.txt
This is my cat
  my cat's name is betty
This is my dog
  my dog's name is frank
  my fish's name is george
This is my goat
  my goat's name is adam


# 从第一行到最后一行,如果匹配到This,则删除之;如果前面有空格,则去除空格
$ sed '1,${/This/d;s/^ *//g}' pets.txt
my cat's name is betty
my dog's name is frank
my fish's name is george
my goat's name is adam
Hold Space

第三个我们再来看一下 Hold Space

接下来,我们需要了解一下Hold Space的概念,我们先来看四个命令:

g: 将hold space中的内容拷贝到pattern space中,原来pattern space里的内容清除
G: 将hold space中的内容append到pattern space\n后
h: 将pattern space中的内容拷贝到hold space中,原来的hold space里的内容被清除
H: 将pattern space中的内容append到hold space\n后
x: 交换pattern space和hold space的内容

这些命令有什么用?我们来看两个示例吧,用到的示例文件是:
$ cat t.txt
one
two
three

第一个示例:
$ sed 'H;g' t.txt
one
 
one
two
 
one
two
three

是不是有点没看懂,我作个图你就看懂了。

第二个示例,反序了一个文件的行:
$ sed '1!G;h;$!d' t.txt
three
two
one

其中的 ’1!G;h;$!d’ 可拆解为三个命令

1!G —— 只有第一行不执行G命令,将hold space中的内容append回到pattern space
h —— 第一行都执行h命令,将pattern space中的内容拷贝到hold space中
$!d —— 除了最后一行不执行d命令,其它行都执行d命令,删除当前行
这个执行序列很难理解,做个图如下大家就明白了:



就先说这么多吧,希望对大家有用。
分享到:
评论

相关推荐

    sed简明教程.pdf

    sed是一种流编辑器,是Linux环境下一种非常强大的...通过对本文档中sed简明教程的内容学习,可以掌握sed的基本语法、正则表达式在sed中的使用、sed的各个命令及高级特性,从而达到能够独立使用sed处理文本数据的水平。

    awk sed 简明教程

    本简明教程将深入探讨这两个工具,帮助你更好地理解和掌握它们的用法。 awk,全称“AWK Pattern扫描和处理语言”,是一种编程语言,常用于在文本文件中进行模式匹配和数据提取。它的工作方式是读取一行文本,然后对...

    SED 简明教程

    SED(Stream Editor)是一种流编辑器,它主要用于对文本文件进行过滤和转换。SED使用程序化的方式来编辑文本,让文本处理更加高效。它的主要特点之一是强大的正则表达式支持,使得SED非常适合用于文本模式匹配任务。...

    perl学习简明教程

    总的来说,Perl学习简明教程会涵盖以上所述的基础知识,包括但不限于变量、流程控制、字符串和正则表达式、文件操作、模块使用等。通过学习这个教程,你将能够理解和编写基本的Perl脚本,进一步探索其在实际问题中的...

    Ubuntu.Linux.命令行简明教程

    ### Ubuntu Linux 命令行简明教程 #### 引言 本文档旨在为Ubuntu Linux用户提供一个简单易懂的命令行操作指南。通过本文档的学习,你可以掌握基本的Linux命令行操作技巧,从而更加高效地管理和使用Ubuntu系统。 ##...

    ansible 简明教程

    sed -i 's/^#deprecation_warnings = True/deprecation_warnings = False/' /etc/ansible/ansible.cfg rm -rf /usr/lib/python2.6/site-packages/ansible/modules/extras/cloud/misc/rhevm.py ``` 2. **执行命令...

    ubuntu linux命令行简明教程

    ### Ubuntu Linux命令行简明教程 Ubuntu Linux是一种非常流行的Linux发行版,它基于Debian开发。它特别强调易用性和用户友好性,非常适合那些从Windows或者Mac操作系统转向Linux的新用户。Ubuntu Linux命令行是用户...

    awk 命令简明教程

    ### awk命令简明教程 **什么是awk?** awk是一个由Aho、Weinberg和Kernighan三位计算机科学家创造的样式扫描与处理工具。它并非一个常见的英语词汇,也不是首字母缩写词,而是源自这三位创始人的姓氏首字母。awk的...

    UBUNTU linux命令行简明教程

    ### UBUNTU Linux命令行简明教程知识点概览 #### 一、Ubuntu Linux与命令行基础 本章节主要介绍Ubuntu Linux的基本概念以及命令行的基础知识。 - **命令行概述**:解释了命令行(CLI)的基本概念,以及它在Ubuntu...

    Ubuntu 命令行简明教程

    本教程将带你深入理解Ubuntu命令行的基本用法,这对于系统管理、软件安装、文件操作等任务来说至关重要。 一、启动与关闭命令行 在Ubuntu桌面环境中,你可以通过快捷键`Ctrl+Alt+T`快速打开终端。关闭命令行通常只...

    perl语言入门简明教程

    Perl借鉴了C、 awk、sed等多种语言的语法,因此对于熟悉这些语言的人来说,学习Perl会相对容易。Perl中的变量以符号$、@、%等开头,分别表示标量、数组和哈希,这种设计使得处理不同类型的数据结构变得简单。 在...

    perl简明教程

    这篇“Perl简明教程”将引领你踏入Perl的世界,开启编程的新篇章。 Perl的起源可以追溯到1987年,由Larry Wall设计并实现,最初是为了解决Unix系统中的文本处理问题。Perl的设计理念深受 awk、sed、shell脚本等早期...

    简明perl教程(第四版)

    《简明Perl教程(第四版)》是一本深入浅出的Perl编程指南,旨在帮助初学者快速掌握这门强大的脚本语言,同时也为有经验的Perl程序员提供了一份实用的参考。Perl,全称 Practical Extraction and Reporting Language...

    perl 简明教程 perl教程集合

    Perl不仅限于文本处理,还可以用于网页开发(例如通过CGI环境)以及Unix和Linux系统的管理,包括文件内容处理,这些功能通常涉及到awk和sed等工具。它具有高度的灵活性和表达性,使得程序员能够快速编写出解决复杂...

    简明Perl教程 perl primer

    Perl的设计理念是融合了多种编程语言的优点,特别是汲取了C语言的强大功能、sed和awk的文本处理能力,以及shell脚本的易用性,形成了一个高效且灵活的脚本语言。 Perl的主要特点包括: 1. **文本处理**:Perl在...

    有关shell方面的一些资料整理,希望有所帮助

    1. **`sed简明教程.doc`**: Sed(Stream Editor)是一个强大的文本处理工具,用于对输入流(标准输入或文件)进行文本转换。它可以执行诸如替换、删除、打印和截断等操作。通过学习`sed`,你可以方便地进行批量文本...

    正则表达式

    在这个"正则表达式"的资料包中,包含了一本《精通正则表达式第三版》和一个基础的"正则表达式"简明教程,旨在帮助初学者从入门到精通地掌握这一技能。 首先,让我们了解正则表达式的基础概念。正则表达式由基本字符...

Global site tag (gtag.js) - Google Analytics