Python 系列– 正则表达式，读这一篇就够了

Python自1.5版本就开始提供正则表达式（regular expression，简称re）功能，极大提高字符串模式匹配效率。说到正则表达式（re），各种开发语言都提供不同的版本， Shell 中支持的re和 Java 中支持的版本或者表达方式不近相同，Python中支持的re是一种类似Perl的re版本。

一、正则表达式中的模式

1.常见特殊字符

Python中的正则表达式包含“.”“^”“$”“*”“？”“+”等，它们分别代表什么含义呢？

“.”匹配除换行符以外的任何字符。

“^”匹配字符串的开始。

“$”匹配字符串的末尾或在换行符之前字符串的末尾。

“*”匹配前面重新的0或更多（贪婪）重复。贪婪意味着它将尽可能多的重复匹配。

“+”匹配前面的1或更多（贪婪）重复。

“？”匹配前面重新的0或1（贪婪）。

*？，+？，??前三个特殊字符的非贪婪版本。

{m，n}匹配从前面重新的m到n重复。

{m，n}？非贪婪版本的上述版本。

“\”逃离特殊字符或信号特殊序列。

2.不常用的特殊字符

number 匹配相同号的组的内容。

A仅在字符串开始时匹配。

Z仅在字符串的末尾匹配。

b匹配空字符串，但仅在单词的开始或结尾处。

B匹配空字符串，但不是在单词的开始或结尾处。

d匹配任何十进制数字;等于使用 ASCII 标志的字节模式或字符串模式的集合[0-9]。在没有ASCII标志的字符串模式中，它将匹配整个 Unicode 数字范围。

D匹配任何非数字字符;相当于[^d]。

s匹配任何空白字符;等于使用ASCII标志的字节模式或字符串模式的[ t n r f v]。

S在没有ASCII标志的字符串模式中，它将匹配整个Unicode空格字符范围。匹配任何非空白字符;相当于[^ s]。

w匹配任何字母数字字符;等于与ASCII标志的字节模式或字符串模式的[A-ZA-Z0-9_]。

在没有ASCII标志的字符串模式中，它将匹配Unicode字母数字字符的范围（字母加数字加下划线）。

3.常用模式总结

模式	描述
^	匹配字符串的开头
$	匹配字符串的末尾。
.	匹配任意字符，除了换行符，当re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符。
[…]	用来表示一组字符,单独列出：[amk] 匹配 ‘a’，’m’或’k’
[^…]	不在[ ]中的字符：[^abc] 匹配除了a,b,c之外的字符。
re*	匹配0个或多个的表达式。
re+	匹配1个或多个的表达式。
re?	匹配0个或1个由前面的正则表达式定义的片段，非贪婪方式
re{ n}	精确匹配 n 个前面表达式。例如， o{2} 不能匹配 “Bob” 中的 “o”，但是能匹配 “food” 中的两个 o。
re{ n,}	匹配 n 个前面表达式。例如， o{2,} 不能匹配”Bob”中的”o”，但能匹配 “foooood”中的所有 o。”o{1,}” 等价于 “o+”。”o{0,}” 则等价于 “o*”。
re{ n, m}	匹配 n 到 m 次由前面的正则表达式定义的片段，贪婪方式
a\|b	匹配a或b
(re)	对正则表达式分组并记住匹配的文本
(?imx)	正则表达式包含三种可选标志：i, m, 或 x 。只影响括号中的区域。
(?-imx)	正则表达式关闭 i, m, 或 x 可选标志。只影响括号中的区域。
(?: re)	类似 (…), 但是不表示一个组
(?imx: re)	在括号中使用i, m, 或 x 可选标志
(?-imx: re)	在括号中不使用i, m, 或 x 可选标志
(?#…)	注释.
(?= re)	前向肯定界定符。如果所含正则表达式，以 … 表示，在当前位置成功匹配时成功，否则失败。但一旦所含表达式已经尝试，匹配引擎根本没有提高；模式的剩余部分还要尝试界定符的右边。
(?! re)	前向否定界定符。与肯定界定符相反；当所含表达式不能在字符串当前位置匹配时成功
(?> re)	匹配的独立模式，省去回溯。
w	匹配字母数字及下划线
W	匹配非字母数字及下划线
s	匹配任意空白字符，等价于 [ tnrf] 。
S	匹配任意非空字符
d	匹配任意数字，等价于 [0-9].
D	匹配任意非数字
A	匹配字符串开始
Z	匹配字符串结束，如果是存在换行，只匹配到换行前的结束字符串。
z	匹配字符串结束
G	匹配最后匹配完成的位置。
b	匹配一个单词边界，也就是指单词和空格间的位置。例如， ‘erb’ 可以匹配”never” 中的 ‘er’，但不能匹配 “verb” 中的 ‘er’。
B	匹配非单词边界。’erB’ 能匹配 “verb” 中的 ‘er’，但不能匹配 “never” 中的 ‘er’。
n, t, 等.	匹配一个换行符。匹配一个制表符。
1…9	匹配第n个分组的内容。
10	匹配第n个分组的内容，如果它经匹配。否则指的是八进制字符码的表达式。

二、模式匹配实例

1.匹配日期时间

日志中常见的日期时间格式为“2021-12-23 16:57:20”，正则表达式可表示为’d{4}-[0[1-9]|1[0-2]]-[0[1-9]|1[0-9]|3[0,1]] [0[0-9]|1[0-9]|2[0-3]]:[0-5][0-9]:[0-5][0-9]’，代码如下：

2.匹配注释

（1）Python注释

Python代码中的注释符号“#”开头，“#”后面接注释内容，正则表达式可以表示为‘#.*’,代码示例如下：

（2）C、C++注释

C、C++语言中的注释为“//xxx”或者“/*xxx*/”,当为第一种注释时，正则表达式可以表达为“//.*”

代码示例可以表示如下：

当代码注释为第二种时，代码示例如下：

3.匹配手机号码

国内手机号特征为“1”开头，手机号段大概有13x、14x、15x、16x、17x、18x、19x，号码长度为11位，纯数字组合，那么一个匹配手机号码的正则表达式大致可以表达为“^1[3456789]d{9}$”。

智云一二三科技

Python系列–正则表达式，读这一篇就够了

一、正则表达式中的模式

1.常见特殊字符

2.不常用的特殊字符

3.常用模式总结

二、模式匹配实例

1.匹配日期时间

2.匹配注释

（1）Python注释

（2）C、C++注释

3.匹配手机号码

关于作者: 智云科技

一、正则表达式中的模式

1.常见特殊字符

2.不常用的特殊字符

3.常用模式总结

二、模式匹配实例

1.匹配日期时间

2.匹配注释

（1）Python注释

（2）C、C++注释

3.匹配手机号码

给这篇文章的作者打赏

关于作者: 智云科技

相关文章

Map和List的几种遍历方式

全网大佬都在用的Java+Python这两套视频学习教程，学习很重要

JavaWeb快速进阶全套教程(程序员必备2020版)：视频+笔记+源码

热门文章

1分享新浪图床上传接口源码

2PHP简单实现路由Route功能

3Tideways、xhprof 和 xhgui 打造 PHP 非侵入式监控平台

4centos系统如何查看是否安装了mysql

5curl 工具简述