在Python开发爬虫过程中经常会遇到正则表达式,其中(.*?) 的使用概率较高,那么这个正则表达式到底什么意思呢?

“.*?” 表示非贪心算法,表示要精确的配对。

“.*”表示贪心算法,表示要尽可能多的匹配

“()” 表示要获取括弧之间的信息。
用一个例子来说明一下。

import re

a = 'xxIxxjshdxxlovexxsffaxxpythonxx'

infos = re.findall('xx(.*?)xx', a)

print(infos)

由于只需要获取() 之间的数据,所以最终的结果为:

['I', 'love', 'python']

此时字符串的解析结果应该为:

xxIxx
jshd
xxlovexx
sffa
xxpythonxx

符合检索条件的为:

xxIxx
xxlovexx
xxpythonxx

精确匹配() 之间的数据,所以最终的结果为:

['I', 'love', 'python']

如果使用“.*”表达式,则表示贪婪匹配,则返回去掉头尾xx 之间的全部数据。

import re

a = 'xxIxxjshdxxlovexxsffaxxpythonxx'

infos = re.findall('xx(.*)xx', a)

print(infos)

输出结果为:

['Ixxjshdxxlovexxsffaxxpython']

转载自:python正则表达式(.*?)的理解

Logo

GitCode AI社区是一款由 GitCode 团队打造的智能助手,AI大模型社区、提供国内外头部大模型及数据集服务。

更多推荐