一、正则表达式
正则表达式 就是匹配数据的一个规则
正则所面对的数据一定是 字符串
二、re模块
1.findall方法
① d d+ @
代码:
import re
str1="12345678@ QQ .com "
#d是整数的概括 d+是连续的整数
#@是具体的一个符号
par1= "dd"
par2= "dd@"#和数字有关
par3="(d+)@" #拿取邮箱号中的QQ号
a=re.findall(par1,str1)
b=re.findall(par2,str1)
c=re.findall(par3,str1)
print(a)
print(b)
print(c)
运行结果:
②(d+)@…
代码:
import re
str1="12345678@qq.com 99999999@163.com"
par= "(d+)@qq" #拿取qq邮箱号中的qq号
a=re.findall(par,str1)
print(a)
运行结果:
③[ ]
代码:
import re
str4 = 'hEllo 张三天天在玩 4399小游戏 ,张三 hello 玩的.h1llo很开心 h4llo world张'
#.匹配任意字符,一定是一个存在的字符,不能是空的
print(re.findall(r"张.",str4))
print(re.findall(r"h[eop123]llo",str4))#中括号中出现任意字符的数据
print(re.findall(r"h[0-9]llo",str4))
print(re.findall(r"h[d]llo",str4))
print(re.findall(r"h[a-zA-Z]llo",str4))
#字母a-z大写A-Z,数字0-9中的任意一个都匹配
print(re.findall(r"h[a-zA-Z0-9]llo",str4))
运行结果:
2.match方法
代码:
#match方法 字符串起始位置,如果没有匹配到,返回None
import re
str2 = " python 123123java"
par="pythond+"
#span是该数据的一个索引区间 match是具体是匹配的数据
s1=re.match(par,str2)
print(s1.group()) #返回具体的一个结果
print(s1.group().replace("python",""))#只取数字
print(s1.group()[6:])
运行结果:
3.search方法
代码:
import re
str3 = "python123java123"
par=r"d+"
s2=re.search(par,str3)
print(s2)
print(s2.group())
print(s2.span()) #数据类型是一个元组
运行结果:
三、元字符
1. 单字符匹配
2. 代表数量的元字符
3. 代表边界的元字符
4.分组匹配
四、贪婪和非贪婪
代码:
import re
a = '<img src = "xiaomeimei.jpg" alt="这是图片"> <img src="#34;>'
b = '<html>000</html><td>ddd</td>'
print(re.findall(r"<(.*)>",a)) #属于贪婪匹配,找到最后一个>
print(re.findall(r"<(.*?)>",a))#属于非贪婪匹配,找一个匹配的规则就立马停止,然后再找
运行结果: