正则表达式中的小括号：揭示其魔力

2023-12-19 01:21:45

在正则表达式的世界中，小括号不仅仅是简单的括号，它们具有强大的力量，可以将正则表达式提升到一个全新的水平。它们扮演着“捕获分组”的角色，为我们提供了在模式匹配中灵活操作和提取信息的独特能力。

捕获分组的魔力

当我们使用小括号将一个正则表达式模式的一部分括起来时，它就形成了一个“捕获分组”。这就像在模式中放置一个隐形网，捕获匹配的子字符串，以便日后提取和使用。

例如，考虑以下正则表达式：

(https?://[a-z0-9.-]+\.[a-z]{2,6})/([a-z0-9-._~%!(https?://[a-z0-9.-]+\.[a-z]{2,6})/([a-z0-9-._~%!$&'()*+,;=:@\/?]*)
amp;'()*+,;=:@\/?]*)

这个正则表达式旨在匹配URL。小括号形成了两个捕获分组：第一个分组捕获URL协议和域名（例如，“https://www.example.com”），而第二个分组捕获URL路径（例如，“/about-us/contact”）。

在Python中访问捕获分组

在Python中，使用 re.match() 函数来执行正则表达式匹配，它返回一个 Match 对象。这个对象包含一个 groups() 方法，它返回一个元组，其中包含每个捕获分组匹配的子字符串。

例如，对于前面的URL正则表达式，我们可以在Python中使用以下代码来获取捕获分组：

import re

url = "https://www.example.com/about-us/contact"
match = re.match(r"(https?://[a-z0-9.-]+\.[a-z]{2,6})/([a-z0-9-._~%!import re

url = "https://www.example.com/about-us/contact"
match = re.match(r"(https?://[a-z0-9.-]+\.[a-z]{2,6})/([a-z0-9-._~%!$&'()*+,;=:@\/?]*)", url)
protocol_and_domain, path = match.groups()

print(protocol_and_domain)  # 输出：https://www.example.com
print(path)  # 输出：/about-us/contact
amp;'()*+,;=:@\/?]*)", url)
protocol_and_domain, path = match.groups()

print(protocol_and_domain)  # 输出：https://www.example.com
print(path)  # 输出：/about-us/contact