模块re：正则表达式¶

正则表达式是用来匹配字符串或者子串的一种模式，匹配的字符串可以很具体，也可以很一般化。

Python 标准库提供了 re 模块：

In [1]:

import re

re.match()函数¶

re.match()函数对字符串的开头进行匹配，返回第一个匹配对应的Match对象，否则返回None：

In [2]:

pat = "\d+"

In [3]:

s = "abc123abc123456"

In [4]:

re.match(pat, s)

由于字符串不是字母开头，没有匹配结果。

与re.match()函数不同，re.search()函数会用正则表达式去匹配字符串中所有的子串，如果找到，返回第一个匹配对应的Match对象，否则返回None：

In [5]:

re.search(pat, s)

Out[5]:

<re.Match object; span=(3, 6), match='123'>

可以调用返回的Match对象的.group()方法查看匹配到的字符串：

In [6]:

m = re.search(pat, s)

In [7]:

m.group(0)

Out[7]:

'123'

re.split()使用指定的正则表达式作为分隔符，对字符串进行分割，其用法为：

In [8]:

pat = " +"

In [9]:

s = "a b    c   d  e"

In [10]:

re.split(pat, s)

Out[10]:

['a', 'b', 'c', 'd', 'e']

re.sub()函数对字符串中正则表达式匹配的部分进行替换：

In [11]:

pat = " +"

In [12]:

replace = ";"

In [13]:

s = "a b    c   d  e"

In [14]:

re.sub(pat, replace, s)

Out[14]:

'a;b;c;d;e'

正则表达式由一些普通字符和一些元字符组成。普通字符包括大小写的字母和数字，而元字符则具有特殊的含义：

例如：

In [ ]: