正则表达式学习笔记

正则表达式(regular expression)用来定义一种 模式,相关的 Linux 工具(如 sed、gawk )以及 Perl 等编程语言可以通过该模式对文本内容进行匹配,再进行替换等操作。
正则表达式并非只有一种实现,在 Linux 环境中,不同的应用程序往往使用不同类型的正则表达式。
最常见的两种有基本正则表达式(BRE)引擎和扩展正则表达式(ERE)引擎。大部分 Linux 工具至少遵循 BRE 对规则的定义,编程语言多使用 ERE 引擎。其中 gawk 就使用了 ERE 引擎。
这里只介绍一些最常见的正则表达式。

普通文本

普通字符包括没有显式指定为元字符的所有可打印和不可打印字符。这包括所有大写和小写字母、数字、标点符号和一些其他符号。
正则表达式在匹配文本时,不管其定义的模式(区分大小写)出现在文本的什么位置或者出现几次,只要文本中包含此模式,该文本就会传递给相应的 Linux 工具做进一步的处理。
在 sed 和 gawk 等工具中,模式的定义包含在两个 ‘ / ‘ 中,下面的 sed -n '/模式/p'命令类似于 Linux 中的 grep ,对符合正则表达式模式的文本进行打印输出。

1
2
3
4
5
6
7
8
9
10
11
12
$ echo "This is a test" | sed -n '/test/p' 
This is a test
$ echo "This is a test" | sed -n '/trial/p'
$
$ sed -n '/ /p' data1.txt
This is a normal line of text.
This is a line with two spaces.
This is a line with a TAB.
$ sed -n '/ /p' data1.txt
This is a line with two spaces.
$ gawk '/\t/{print $0}' data1.txt
This is a line with a TAB.

上面的例子中涉及到多个空格的匹配,同时非打印字符如制表符(\t)、换行符(\n)等定义在 ERE 中,所以 sed 命令不再支持,例子中使用的是 gawk 。

特殊字符

特殊字符包含以下几种:.*[]^${}\+?|(),它们在正则表达式中有着特殊的含义,如 ‘ . ‘ 匹配任何单字符。而对于特殊符号自身的匹配则需要进行转义(在该字符前加上 ‘ \ ‘ ),即匹配 ‘ . ‘ 需使用 ‘ \. ‘

特殊字符的描述如下表所示:

特殊字符 描述
$ 匹配输入字符串的结尾位置
( ) 标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用
* 匹配前面的子表达式零次或多次
+ 匹配前面的子表达式一次或多次
. 匹配除换行符 \n 之外的任何单字符
[ 标记一个中括号表达式的开始
? 匹配前面的子表达式零次或一次,或指明一个非贪婪限定符
^ 匹配输入字符串的开始位置。在方括号中使用时,表示不接受该字符集合
{ 标记限定符表达式的开始
管道符 指明两项之间的一个选择
1
2
3
4
5
6
7
8
9
$ cat data2.txt
The cost is $4.00
3 / 2
$ sed -n '/\$/p' data2.txt
The cost is $4.00
$ sed -n '/\//p' data2.txt
3 / 2
$ sed -n '///p' data2.txt
sed: 1: "///p": invalid command code /
1. 定位符

定位符用来描述字符串或单词的边界,^ 和 $ 分别指定字符串的开始与结束位置,\b 描述单词的前或后边界,\B 表示非单词边界。当 ^ 并非位于模式开头时,仍当普通字符看待。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
$ echo "The book store" | sed -n '/^book/p' 
$
$ echo "books are great" | sed -n '/^book/p'
Books are great
$ echo "This is a good book" | sed -n '/book$/p'
This is a good book
$ echo "This book is good" | sed -n '/book$/p'
$
$ echo "This ^ is a test" | sed -n '/s ^/p'
This ^ is a test

>>> import re
>>> re.findall(r'\bbook','The book store')
['book']
>>> re.findall(r'\bbook','Thebook store')
[]
>>> re.findall(r'book\b','Thebook store')
['book']

\b 和 \B 属于 ERE,上例中使用了 Python 的 re 模块(注意空格如何影响输出)

组合定位符
1
2
3
4
5
6
7
$ cat data4
this is a test of using both anchors
I said this is a test
this is a test
I'm sure this is a test.
$ sed -n '/^this is a test$/p' data4
this is a test
过滤空行
1
2
3
4
5
6
7
$ cat data5
This is one test line.

This is another test line.
$ sed '/^$/d' data5
This is one test line.
This is another test line.
2. ‘ . ‘ 符号

‘ . ‘ 匹配除 \n 以外的任何单字符,包括空格。所以 /.at/ 匹配 ‘cat’ 和行中间的 ‘at’ (实际为 ‘ at’ ),却不匹配行首的 ‘at’ 。

1
2
3
4
5
6
>>> print(text)
The cat is sleeping.
This test is at line two.
at ten o'clock we'll go home.
>>> re.findall('.at',text)
['cat', ' at']

3. 字符集合

包裹在一对中括号内的多个字符和数字构成一个字符集合,用来限制该位置只匹配集合中出现的字符。如 /[AaEeIiOoUu]/ 可以匹配所有元音字母

1
2
3
4
$ echo "Yes" | sed -n '/[Yy]es/p' 
Yes
$ echo "yes" | sed -n '/[Yy]es/p'
yes

字符范围

用连字号可以表示一个字符的范围

模式 含义
[a-z] 匹配所有的小写字母
[A-Z] 匹配所有的大写字母
[a-zA-Z] 匹配所有的字母
[0-9] 匹配所有的数字
[0-9\.\-] 匹配所有的数字、小数点和连字符

当在一组方括号里使用 ^ 时,它表示”非”或”排除”的意思,常常用来剔除某个字符。
[^a-z] 匹配除了小写字母以外的所有字符

此外,还有一些特殊的字符集合。

模式 含义
[[:alpha:]] 匹配所有字母
[[:digit:]] 匹配所有数字
[[:alnum:]] 匹配所有字母和数字
[[:blank:]] 匹配所有空格和 Tab 字符
[[:space:]] 匹配所有空白字符:Space, Tab, NL, FF, VT, CR
[[:upper:]] 匹配所有大写字母
[[:lower:]] 匹配所有小写字母
[[:print:]] 匹配所有可打印字符
[[:punct:]] 匹配所有标点符号
[[:xdigit:]] 匹配所有16进制的数字,相当于[0-9a-fA-F]
4. ‘ * ‘ 符号

‘ * ‘ 表示匹配前面的字符或子表达式零次或多次

1
2
3
4
5
6
7
8
$ echo "ik" | sed -n '/ie*k/p' 
ik
$ echo "iek" | sed -n '/ie*k/p'
iek
$ echo "ieek" | sed -n '/ie*k/p'
ieek
$ echo "ieeek" | sed -n '/ie*k/p'
ieeek

‘ * ‘ 号还可以应用在字符集合上

1
2
3
4
5
6
7
8
9
10
$ echo "bt" | sed -n '/b[ae]*t/p' 
bt
$ echo "bat" | sed -n '/b[ae]*t/p'
bat
$ echo "bet" | sed -n '/b[ae]*t/p'
bet
$ echo "baaeeaeeat" | sed -n '/b[ae]*t/p'
baaeeaeeat
$ echo "baakeeet" | sed -n '/b[ae]*t/p'
$

5. ‘ ? ‘ 和 ‘ + ‘ 符号

‘ ? ‘ 表示匹配前面的字符或子表达式零次一次

1
2
3
4
5
6
$ echo "bt" | gawk '/be?t/{print $0}' 
bt
$ echo "bet" | gawk '/be?t/{print $0}'
bet
$ echo "beet" | gawk '/be?t/{print $0}'
$

‘ + ‘ 表示匹配前面的字符或子表达式一次多次

1
2
3
4
5
6
$ echo "beet" | gawk '/be+t/{print $0}' 
beet
$ echo "bet" | gawk '/be+t/{print $0}'
bet
$ echo "bt" | gawk '/be+t/{print $0}'
$

6. 限定符

限定符用来指定正则表达式的一个给定组件必须要出现多少次才能满足匹配。有 或 + 或 ? 或 {n} 或 {n,} 或 {n,m} 共6种。前三种前面已经讲到,除 外其他5种都属于 ERE 。

模式 含义
{n} n 是一个非负整数。匹配确定的 n 次。例如,/o{2}/ 不能匹配 “Bob” 中的 ‘o’,但是能匹配 “food” 中的两个 ‘o’。
{n,} n 是一个非负整数。至少匹配n 次。例如,/o{2,}/ 不能匹配 “Bob” 中的 ‘o’,但能匹配 “foooood” 中的所有 ‘o’。/o{1,}/ 等价于 /o+/ 。/o{0,}/ 则等价于 /o*/ 。
{n,m} m 和 n 均为非负整数,其中 n <= m 。最少匹配 n 次且最多匹配 m 次。例如,/o{1,3}/ 将匹配 “fooooood” 中的前三个 ‘o’ 。/o{0,1}/ 等价于 /o?/ 。
1
2
3
4
5
6
7
8
$ echo "bt" | gawk --re-interval '/be{1,2}t/{print $0}' 
$
$ echo "bet" | gawk --re-interval '/be{1,2}t/{print $0}'
bet
$ echo "beet" | gawk --re-interval '/be{1,2}t/{print $0}'
beet
$ echo "beeet" | gawk --re-interval '/be{1,2}t/{print $0}'
$

/[ae]{1,2}/ 匹配 ‘a’ , ‘e’ , ‘aa’ , ‘ae’ , ‘ee’ 。

* 和 + 限定符都是贪婪的,因为它们会尽可能多的匹配文字,只有在它们的后面加上一个 ? 就可以实现非贪婪或最小匹配。如匹配 HTML 文档里的标签:

1
2
3
4
5
>>> text="<h1>Head Line</h1>"
>>> re.findall(r'<.*>',text)
['<h1>Head Line</h1>']
>>> re.findall(r'<.*?>',text)
['<h1>', '</h1>']

7. ‘ | ‘ 符号

管道(’ | ‘)符号用来定义两个或多个模式,且彼此之间是逻辑或的关系。

1
2
3
4
5
6
$ echo "The cat is asleep" | gawk '/cat|dog/{print $0}' 
The cat is asleep
$ echo "The dog is asleep" | gawk '/cat|dog/{print $0}'
The dog is asleep
$ echo "He has a hat." | gawk '/[ch]at|dog/{print $0}'
He has a hat.

8. 分组

小括号用于将正则表达式的模式进行分组

1
2
3
4
$ echo "Sat" | gawk '/Sat(urday)?/{print $0}'
Sat
$ echo "Saturday" | gawk '/Sat(urday)?/{print $0}'
Saturday

上例中的 /Sat(urday)?/ 用于匹配 ‘Sat’ 或者 ‘Saturday’ ,’urday’ 加上小括号后被当成一个整体,再附上 ? 符号表示该组合出现零次或一次。

附录:运算符优先级

运算符(由高到低) 描述
反斜杠(\) 转义符
(), (?:), (?=), [] 圆括号和方括号
*, +, ?, {n}, {n,}, {n,m} 限定符
^, $, 任何元字符、任何字符 定位点和序列(即:位置和顺序)
替换运算符(管道符) 替换,”或”操作

字符具有高于替换运算符(|)的优先级,使得 /m|food/ 匹配 ‘m’ 或 ‘food’ 。若要匹配 ‘mood’ 或 ‘food’ ,可使用括号创建子表达式:/(m|f)ood/

参考资料:

Linux Command Line and Shell Scripting Bible 3rd Edition
正则表达式-菜鸟教程