`

使用UNIX进行文本处理

阅读更多

对文本进行各种操作

在开始使用 UNIX 的各种文本实用程序操作文本之前,需要了解如何获得文本。并且在进行这项工作之前,需要了解 UNIX 的标准输入/输出 (I/O) 流。

标准 C 库(因而,每个 UNIX 程序)定义了三种标准流:输入、输出和错误。有时将它们称为 stdin、stdout 和 stderr,这是在所有 C 程序中用来表示它们的全局变量。

当您在 Shell 中使用 > 操作符将程序输出重定向到文件时,就可以将它的标准输出 (stdout) 流发送到这个文件。例如:ls > this-dirls 的输出发送到一个名为 this-dir 的文件。

当您在 Shell 中使用 < 操作符将程序输入重定向到文件时,就可以将该文件中的内容输入到该程序的标准输入 (stdin) 流。例如:sort < this-dir 可以从名为 this-dir 的文件中读取内容,并将其作为 sort 命令的输入。

另一个常用于重定向标准流的操作符是“|”(管道)操作符,它可以将左侧程序的标准输出流连接到右侧程序的标准输入流。例如:ls | sort 和前面的两个示例完成相同的任务,并且无需临时文件,ls 的输出直接进入 sort 命令。

如果您仔细观察,那么可能会发现,前面的这些示例中并没有出现标准错误 (stderr) 流。与标准输出流一样,可以对 stderr 进行重定向或使用管道进行传输,但是您需要告诉 Shell 您希望处理 stderr 而不是 stdout。

可以使用 2> 操作符将标准错误流重定向到文件。在处理生成有用的错误输出的命令时,您经常会看到这个操作符,比如用于编译 UNIX 程序的 make 工具:make 2> build-errors

这个命令运行了 make,并将任何错误信息发送到 build-errors 文件。与之类似,您可以使用 2| 将 stderr 通过管道传递到另一个程序。

如果您对具体的细节感兴趣,那么其他的流也有与之对应的数字,尽管很少使用到它们(0 表示标准输入,1 表示标准输出),除了在一个非常常见的操作符中。在清单 1 所示的示例中,2>&1 操作符将标准错误流连接 到标准输出流。与 > 操作符组合在一起,您可以使 stderr 和 stdout 输出到相同的文件中。


清单 1. 将标准错误流连接到标准输出流
make > build-output 2>&1
            

命令

有两个常用来生成文本输出的标准 UNIX 命令:catecho

cat 命令读取参数中指定的每个文件,并将这些文件的内容写入到 stdout。echo 命令将其参数写入到 stdout。您常常会发现它们作为更复杂的命令管道中的一部分(请参见清单 2)。


清单 2. 使用 cat 和 echo
cat file1 file2 ... filen
            echo arguments...
            

但如果您只需要文件中开头的部分或结尾的部分,那又应该如何呢?cat 有两种可用来完成这种任务的变种,称为 head 和 tail(请参见清单 3),它们分别可以显示开头的或结尾的 10 行内容,您可以使用 -n 选项为它们指定不同的行数。
清单 3. 使用 head 和 tail
head file1 file2 ... filen
            tail file1 file2 ... filen
            

tail 命令还有一个有用的选项 -f (follow)。该选项告诉 tail 打印指定文件的最后 10 行,但是它不仅打印已有的内容,还会等待该文件中将要出现的更多内容,并对其进行打印。您可以使用该选项接着 显示错误日志中的输出,例如,要在将错误写入到日志的同时查看这些错误。

转换文本

既然您已经了解了至少 5 种生成文本的方式,下面让我们来看一些进行简单文本转换的示例。

tr 命令允许您将一个集合中的字符转换为另一个集合中相应的字符。让我们来看一些示例(清单 4),以了解其工作方式。


清单 4. 使用 tr 对字符进行转换
echo "a test" | tr t p
            echo "a test" | tr aest 1234
            echo "a test" | tr -d t
            echo "a test" | tr '[:lower:]' '[:upper:]'
            

研究这些命令的输出结果(请参见清单 5),可以看出 tr 的工作方式(提示:它直接使用第二个集合中相应的字符来代替第一个集合中的字符)。


清单 5. tr 进行了哪些工作?
chrish@dhcp3 [199]$ echo "a test" | tr t p
            a pesp
            chrish@dhcp3 [200]$ echo "a test" | tr aest 1234
            1 4234
            chrish@dhcp3 [201]$ echo "a test" | tr -d t
            a es
            chrish@dhcp3 [202]$ echo "a test" | tr '[:lower:]' '[:upper:]'
            A TEST
            

第一个和第二个示例都很简单,将一个字符替换为另一个字符。第三个示例使用了 -d 选项 (delete),它从输出中彻底删除了指定的字符。这个选项通常用来从 DOS 文本文件中删除回车,以将其转换为 UNIX 文本文件(请参见清单 6)。最后一个示例使用了字符类([: :] 中的名称),以将所有的小写字母转换为大写字母。可移植操作系统接口标准(POSIX 标准)字符类包括:

  • alnum:字母数字字符
  • alpha:字母字符
  • cntrl:控制(非打印)字符
  • digit:数字字符
  • graph:图形字符
  • lower:小写字母字符
  • print:可打印字符
  • punct:标点符号
  • space:空白字符
  • upper:大写字符
  • xdigit:十六进制字符

清单 6. 将 DOS 文本文件转换为 UNIX 文本文件
tr -d '\r' < input_dos_file.txt > output_unix_file.txt
            

尽管 tr 命令表示了 C locale 环境变量(有关这些环境变量更多的信息,可以使用 man locale),但是不要指望它能够对 UTF-8 文档进行任何合理的操作,如能够使用合适的大写字符替换小写重音字符。tr 命令最适合于 ASCII 和其他标准 C 区域设置。

使用 sed 进行复杂的搜索和替换

tr 命令所提供的单字符替换(或删除)功能非常适用于特定的解决方案,但是这些功能并不是很灵活。如果您需要将一个单词替换为另一个单词,或将连续的空格和制表符替换为一个空格,那又应该怎么办呢?

幸运的是,您可以使用 sed 命令 (Stream EDitor),它提供了功能强大的正则表达式 匹配和替换。正则表达式是使用各种构件构建的复杂模式规范,并且随着模式变得越来越复杂,它看起来就像是调制解调器的线路噪声。本文并不打算详细地介绍正则表达式,但是在本文中,您将简单了解 sed 所使用的一些有用的模式。

清单 7 中,您可以看到 sed 命令的基本格式。模式是用来匹配输入(通常可以使用管道从另一个程序输入,或者重定向于文本文件)的正则表达式,替换是指插入某些文本并用其代替那些与模式相匹配的文本。标志是用来控制替换行为的单个字符。最常用的标志是 g(将替换应用于所有匹配模式的非重叠实例,而不仅仅是第一个匹配项)。

实际上,模式和替换可以是各种各样的内容,并且它们之间不需要像在 tr 命令中那样具有 1:1 的关系。


清单 7. sed 命令
            sed -e s/pattern/replacement/flags
            

最简单的模式是一个或多个字符组成的字符串。如清单 8 所示,例如将单词 one 替换为单词 another。


清单 8. 最简单的正则表达式
            chrish@dhcp3 [334]$ echo "Replace one word" | sed -e s/one/another/
            Replace another word
            

可以使用方括号将一个或多个字符括起来,以创建一个集合,该集合中的任何字符都可以匹配。如清单 9 所示,让我们将所有的元音字母替换为下划线。


清单 9. 匹配集合中的任何字符
            chrish@dhcp3 [338]$ echo "This is a test" | sed -e s/[aeiouy]/_/g
            Th_s _s _ t_st
            

请注意,示例中使用了 g 标志,以便将模式/替换应用于所有的匹配项,而不仅仅是第一个匹配项。

sed 命令也可以理解 tr 命令所支持的那些命名字符类,POSIX 对这些字符类进行了定义,但是本文中的语法稍有不同。清单 10 显示了如何替换任何空白字符(制表符、空格等等):


清单 10. 根据命名字符类匹配内容
            chrish@dhcp3 [345]$ echo -e 'hello\tthere'
            hello   there
            chrish@dhcp3 [346]$ echo -e 'hello\tthere' | sed -e 's/[[:space:]]/, /'
            hello, there
            

echo 命令的 -e 标志用来告诉该命令扩展 C 风格的转义字符,在本示例中,它会把 \t 转换为制表符。

您还可以使用“.”(点号)匹配任何单个的字符。如果您需要处理一些略有变化的数据,或者包含难以进行转义的特殊字符的数据,那么使用这个符号是非常方便的。例如,在匹配引号时,我经常使用 .,所以我不需要在 Shell 中对引号进行转义。清单 11 显示了一个正则表达式初学者在使用这个模式时出现的问题。


清单 11. 这可能并不是想要的结果
            chrish@dhcp3 [339]$ echo "This is a test" | sed -e s/./_/g
            ______________
            

既然您已经了解了这些非常基本的内容,下面介绍一些附加模式修饰符,要使用高级 正则表达式,您现在还可以使用 -E 选项代替 -e? 字符表示匹配前面模式元素的零个或一个实例,* 字符表示匹配前面元素的零个或多个实例。+ 字符表示匹配一个或多个前面的元素。^ 字符匹配行首,而 $ 则匹配行尾。清单 12 显示了实际应用中的情况。


清单 12. 实际应用中的多个匹配项
            chrish@dhcp3 [356]$ echo "hellooooo" | sed -E 's/o?$/_/g'
            helloooo_
            chrish@dhcp3 [357]$ echo "hellooooo" | sed -E 's/o*$/_/g'
            hell_
            chrish@dhcp3 [358]$ echo "hellooooo" | sed -E 's/o+$/_/g'
            hell_
            

如果使用圆括号将模式元素括起来,您可以在替换字符串中使用匹配的内容。这些元素称为组,它们使得正则表达式搜索和替换操作的功能变得非常强大,但是却很难理解。例如,在清单 13 中,您匹配一个或多个 l (el) 字符,并且后面跟着零个或多个 o 字符。依次使用第二组和第一组中的内容对其进行替换,实际上是对它们进行交换。请注意这个模式中各个组的引用方法,即反斜杠加上该组的序号。


清单 13. 匹配组
            chrish@dhcp3 [361]$ echo "hellooooo" | sed -E 's/(l+)(o*)$/\2\1/g'
            heoooooll
            

通过在大括号中指定匹配的数目,您可以匹配特定数目的模式。例如,模式 o{2} 将匹配两个(仅仅两个)o 字符。

对了,还有最后一个内容,通过使用 \ 字符对其进行转义,您可以在模式中使用这些特殊字符的字面内容(即作为其本身)。

将其组合在一起

既然已经向您介绍了一些非常简单的正则表达式,那么让我们来尝试一些有用的内容。给定 ls -l(文件 清单)的输出,您将从中提取权限信息、大小和名称。清单 14 显示了要进行处理的 ls -l 输出示例。


清单 14. ls -l 的典型输出
            chrish@dhcp3 [365]$ ls -l | tail
            drwx------   3 chrish    wheel   102 Jun 14 21:38 gsrvdir501
            drwxr-xr-x   2 chrish    wheel    68 Jun 16 16:01 hsperfdata_chrish
            drwxr-xr-x   3 root      wheel   102 Jun 14 23:38 hsperfdata_root
            -rw-r--r--   1 root      wheel   531 Jun 14 10:17
            illustrator_activation.plist
            -rw-r--r--   1 root      wheel   531 Jun 14 10:10 indesign_activation.plist
            -rw-------   1 nobody    wheel    24 Jun 16 16:01 objc_sharing_ppc_4294967294
            -rw-------   1 chrish    wheel   132 Jun 16 23:50 objc_sharing_ppc_501
            -rw-------   1 security  wheel    24 Jun 16 10:04 objc_sharing_ppc_92
            -rw-r--r--   1 root      wheel   531 Jun 14 10:05 photoshop_activation.plist
            -rw-r--r--   1 root      wheel   928 Jun 14 10:17 serialinfo.plist
            

正如您所看到的,这里一共有 7 列:

  • 权限
  • 链接的数目
  • 属主
  • 大小
  • 最后的修改时间
  • 名称
让我们来建立一些正则表达式,以匹配其中的每一列:

 

  • .([r-][w-][x-]){3}—权限(使用 . 匹配第一个字符,因为它可能是几个不同的特殊字符中的任何一个。)
  • [[:digit:]]+—链接的数目
  • [A-Za-z0-9_\-\.]+ -—属主(您还可以使用这个模式进行组匹配。)
  • [[:digit:]]+—大小
  • .{3} [0-9 ]{2} [0-9 ][0-9]:[0-9][0-9]—修改时间(您可以对这个模式进行一些简化,因为所有的文件都在 6 月份进行的修改,所以您可以确切地指定月份的名称。)
  • .+$—名称(在这些内容之后,您需要匹配所有的字符,直到行尾。)

在上述模式之间,必须使用 [[:space:]]+ 对它们进行连接,因为您并不知道这些列之间究竟是使用空格或制表符,还是两者的组合进行分隔。您还需要将权限、大小和名称放到组中,以便可以在替换中使用它们。如清单 15 所示,正则表达式很快就变得难以理解。


清单 15. 完成后的正则表达式实在难以理解!
            (.([r-][w-][x-]){3})[[:space:]]+[[:digit:]]+[[:space:]]+([A-Za-z0-9_\-\.]
            +[[:space:]]+){2}([[:digit:]]+)[[:space:]]+.{3} [0-9 ]{2} [0-9
            ][0-9]:[0-9][0-9][[:space:]]+(.+)$
            

如果您仔细研究这个可怕的正则表达式模式,您将发现 5 个组:

  1. 完整的权限块
  2. 权限块中最后匹配的 rwx 组
  3. 组(该模式的属主/组部分中最后匹配的内容)
  4. 大小
  5. 名称

清单 16 中,您将更改 ls -l 的输出以显示文件名、权限和大小。


清单 16. 对输出进行重组
            chrish@dhcp3 [382]$ ls -l | tail | sed -E
            's/(.([r-][w-][x-]){3})[[:space:]]+[[:digit:]]+[[:space:]]+([A-Za-z0-9_\-\.
            ]+[[:space:]]+){2}([[:digit:]]+)[[:space:]]+.{3} [0-9 ]{2} [0-9
            ][0-9]:[0-9][0-9][[:space:]]+(.+)$/\5 (\1) has \4 bytes of data/'
            gsrvdir501 (drwx------) has 102 bytes of data
            hsperfdata_chrish (drwxr-xr-x) has 68 bytes of data
            hsperfdata_root (drwxr-xr-x) has 102 bytes of data
            illustrator_activation.plist (-rw-r--r--) has 531 bytes of data
            indesign_activation.plist (-rw-r--r--) has 531 bytes of data
            objc_sharing_ppc_4294967294 (-rw-------) has 24 bytes of data
            objc_sharing_ppc_501 (-rw-------) has 132 bytes of data
            objc_sharing_ppc_92 (-rw-------) has 24 bytes of data
            photoshop_activation.plist (-rw-r--r--) has 531 bytes of data
            serialinfo.plist (-rw-r--r--) has 928 bytes of data
            

成功了!您已经完成了对输出结果的转换。

使用 Perl 完成相应的工作

Perl 编程和脚本语言(请参见参考资料部分)的功能非常强大,通常可用来取代前面介绍的 trsed 命令。通常可以在命令行中直接输入简短的 Perl 程序,有时它可以完成比 trsed 命令行更多的操作。

Perl 的 -p 选项告诉它读取和处理标准输入中的每行内容,并将结果打印到标准输出。-e 选项允许您在命令行中指定一个 Perl 表达式(实际上是一个程序)。

清单 17 显示了如何使用 Perl 完成清单 5 中的示例。


清单 17. 使用 Perl 完成 tr 的工作
            chrish@dhcp3 [248]$ echo a test | perl -p -e 'tr/t/p/;'
            a pesp
            chrish@dhcp3 [249]$ echo a test | perl -p -e 'tr/aest/1234/;'
            1 4234
            chrish@dhcp3 [250]$ echo a test | perl -p -e 'tr/t//d;'
            a es
            chrish@dhcp3 [251]$ echo a test | perl -p -e 'tr/a-z/A-Z/;'
            A TEST
            

Perl 的 tr 语句具有不同的语法,它更像 sed 的搜索和替换表达式。另请注意,您在最后一个示例中指定了小写和大写字符的范围。

Perl 中的正则表达式支持非常优秀,并且上面的 sed 示例可以作为有效的 Perl 语句正常工作。清单 18 使用 Perl 显示了清单 16 中的 ls -l 示例,除了 Perl 命令行语法之外,不需要对其他的内容进行更改。


清单 18. 使用 Perl 重组 ls 的输出
            chrish@dhcp3 [384]$ ls -l | tail | perl -p -e
            's/(.([r-][w-][x-]){3})[[:space:]]+[[:digit:]]+[[:space:]]+([A-Za-z0-9_\-\.]
            +[[:space:]]+){2}([[:digit:]]+)[[:space:]]+.{3} [0-9 ]{2} [0-9
            ][0-9]:[0-9][0-9][[:space:]]+(.+)$/\5 (\1) has \4 bytes of data/'
            gsrvdir501 (drwx------) has 102 bytes of data
            hsperfdata_chrish (drwxr-xr-x) has 68 bytes of data
            hsperfdata_root (drwxr-xr-x) has 102 bytes of data
            illustrator_activation.plist (-rw-r--r--) has 531 bytes of data
            indesign_activation.plist (-rw-r--r--) has 531 bytes of data
            objc_sharing_ppc_4294967294 (-rw-------) has 24 bytes of data
            objc_sharing_ppc_501 (-rw-------) has 132 bytes of data
            objc_sharing_ppc_92 (-rw-------) has 24 bytes of data
            photoshop_activation.plist (-rw-r--r--) has 531 bytes of data
            serialinfo.plist (-rw-r--r--) has 928 bytes of data
            

这样做的优点在于,您可以使用 sed 或 Perl 完善正则表达式,并且在只包含其中某一个的系统中,您仍然可以它们。使用 Perl,您可以获得全方位的编程结构,可以充分地利用它们进行更复杂的文本处理。

总结

使用像 sed 和 Perl 这样功能强大的工具,以及神奇的正则表达式,您可以直接通过 UNIX 命令行轻松地完成复杂的文本处理任务。这使得您可以有效地将多个命令组合在一起,以正确地完成文本处理工作。

分享到:
评论

相关推荐

    转码为UNIX 文本转换为unix 编码转换为unix

    这个工具可以将使用LF行结束符的UNIX文本文件转换为使用CRLF行结束符的DOS格式,反之亦然。`unix2dos`的功能并不限于行结束符的转换,它还可以处理其他字符编码的转换,但主要关注的是行结束符的转换,因为这是跨...

    Unix文本处理:1987年出版的“ UNIX文本处理”一书的原始资料

    《Unix文本处理》是1987年出版的一本经典著作,它深入探讨了在Unix操作系统环境下进行文本处理的各种技术和工具。这本书对于理解和利用Unix系统的强大文本处理能力至关重要,尤其对于那些希望提升文本操作效率、编写...

    seismic unix 中文使用说明

    标签“SU中文说明”简洁而准确地概括了文档的核心内容和目的,即提供一个关于Seismic Unix地震数据处理软件的中文使用手册。 在部分内容中,我们看到了原著作者对中文版地震数据处理系统指南的赠言,其中提到了几个...

    类Unix系统优秀文本处理工具Awk详细介绍.doc

    《类Unix系统优秀文本处理工具Awk详细介绍》 在类Unix操作系统中,Awk是一种强大的文本分析工具,常被用于处理和分析结构化的文本数据。Awk的名字来源于其三位创造者——Alfred V. Aho、Peter J. Weinberger和Brian...

    将unix文本文件转换成dos(windows)文本文件的例子 (10KB)...

    标题中的“将Unix文本文件转换成DOS(Windows)文本文件的例子”指的是在不同操作系统间进行文本文件格式转换的问题。Unix和Windows系统在处理文本文件时有不同的行结束符:Unix使用换行符(LF),而DOS/Windows系统则...

    UNIX/Linux环境下文本处理利器awk学习指南

    内容概要:本文全面介绍了awk这种强大的文本处理语言的基本概念、命令语法及其多种应用场景。内容涵盖基本的概念解析(如awk的工作原理)、详细的命令用法(如各种命令选项和正则表达式的支持)及其具体的应用案例...

    Unix awk使用手册

    总的来说,`awk`是一个功能强大、灵活且实用的文本处理工具,尤其适合在Unix/Linux环境中处理和分析结构化的文本数据。它提供了丰富的内置功能,可以有效地完成数据提取、格式化和报告生成等任务,且易于学习和使用...

    好用的文本处理工具

    在IT领域,文本处理工具是非常重要的一环,它们可以帮助用户高效地处理大量的文本数据,进行诸如搜索、替换、格式化、分析等多种操作。这里我们将深入探讨一些常见的、功能强大的文本处理工具及其特点。 1. **Vim/...

    unix程序员手册.zip_UNIX_unix程序员手册

    7. **grep、sed和awk**:这三者是UNIX文本处理的三剑客。`grep`用于搜索含有特定模式的行,`sed`用于流编辑,`awk`则可以进行更复杂的文本处理和数据分析。 8. **系统调用**:UNIX提供了一套丰富的系统调用接口,如...

    《Python_文本处理指南[经典]》英文原版-高清带目录!!!

    文本处理对于任何希望对数据进行分析和提取有用信息的开发者来说都是非常基础且核心的技能。无论是从网页中提取数据、处理日志文件还是开发简单的文本编辑器,掌握文本处理都是不可或缺的。Python语言因其简洁的语法...

    dos2unix,unix2dos,mac2unix,unix2mac 64bit&32bit

    4. **unix2mac**:它将 UNIX/Linux 格式的文本文件转换为新版 Mac (macOS) 格式,即使用 LF 换行符的文件转换为使用 CR 换行符的文件,适用于需要在 macOS 环境中处理原本为 UNIX/Linux 系统创建的文本文件的情况。...

    u4j:Unix4Java-在Java中使用Unix文本处理工具

    Unix4Java是一个库,它为Java开发者提供了一个接口,使得他们能够在Java代码中方便地使用经典的Unix文本处理工具。这个库允许程序员利用Unix强大的文本处理功能,如grep、sed、awk等,而无需离开Java环境或者通过...

    unix awk使用手册

    2. **简单易用**:与 C 或 C++ 相比,Awk 更加简单易学,用户可以直接在命令行中使用 Awk 命令进行简单的文本处理,无需经历复杂的编译步骤。 3. **广泛可用**:Awk 通常作为标准工具包含在大多数 UNIX 和类 UNIX ...

    UnixToolBox.zip

    10. **cut, paste, sort, uniq, wc**: 这些是Unix/Linux中的一系列文本处理工具,用于切割、拼接、排序、去重和计算文本文件的统计信息。 安装和使用UnixToolBox后,用户可以在Windows的命令提示符中直接调用这些...

    【Win32汇编】UNIX Text ->PC Text

    UNIX文本文件通常使用LF(Line Feed,换行符)作为行结束标记,而Windows文本文件则使用CRLF(Carriage Return + Line Feed,回车加换行符)作为行结束。因此,当一个UNIX文本文件在Windows环境下打开时,可能会出现...

    文本编辑器及文本处理资源

    在学习文本处理部分,你将学会如何在文本文件中进行查找、替换、剪切、复制、粘贴等基本操作,这些都是日常文本编辑中不可或缺的技能。这些技能不仅适用于单个文件,也可以用于批量处理大量文本数据。 4. **vim的...

    dos2unix linux安装包

    3. **批量处理**:dos2unix 支持对整个目录甚至多个目录下的所有文件进行批量转换,极大地提高了工作效率。 **二、安装 dos2unix** 1. **Ubuntu 安装**:在Ubuntu系统中,可以通过`apt-get`命令来安装dos2unix。...

    dos2unix安装包附安装说明书.zip

    dos2unix工具可以处理ASCII文本文件,确保跨平台兼容性,避免在不同操作系统之间传输文件时出现乱码或显示问题。 dos2unix安装包附带的安装说明书通常会涵盖以下步骤: 1. 获取安装包:首先,你需要下载dos2unix的...

    [Unix编程环境]The.unix.programming.envirment中文版

    该书详细讨论了UNIX操作系统的编程环境,内容涵盖了UNIX的文件系统、Shell、过滤程序、文本处理、系统调用等关键概念,并对UNIX中的程序开发方法提供了有针对性的指导。 首先,书中对UNIX文件系统做了深入介绍。...

Global site tag (gtag.js) - Google Analytics