正则匹配：如何判断字符出现次数恰好等于指定数值？

php

2024-03-14 20:41:55

正则表达式：匹配 X 出现 n 或 m 次

在正则表达式的世界中，量词是我们不可或缺的工具，它们允许我们指定字符或模式出现特定次数。但是，当我们想要测试某个模式出现正好 n 或 m 次时，事情就会变得棘手。

困境

传统的量词，如 {n}、{m} 和 {n,m}，无法满足我们的需求。它们只会测试模式出现 n 次、m 次或介于两者之间的次数。例如：

X{3} 匹配 "XXX"
X{3,5} 匹配 "XXX"、"XXXX" 和 "XXXXX"

解决方案：分组和后向引用

虽然没有直接的量词可以达到我们的目标，但我们可以利用正则表达式中的分组和后向引用来模拟所需的行为：

^(?:X{n})|(?:X{m})$

这个正则表达式将匹配以下内容：

以 "X" 出现 n 次开头的字符串
以 "X" 出现 m 次结尾的字符串

让我们分解一下这个正则表达式：

(?: ... )：这是一个非捕获组，它允许我们对正则表达式的部分进行分组，而不会捕获匹配的文本。
^：匹配字符串的开头。
X{n}：匹配 "X" 出现 n 次。
|：表示逻辑 "或"。
X{m}：匹配 "X" 出现 m 次。
$：匹配字符串的末尾。

工作原理

这个正则表达式工作原理如下：

非捕获组将正则表达式分为两个部分，第一个部分测试字符串的开头是否匹配 "X" 出现 n 次，而第二个部分测试字符串的末尾是否匹配 "X" 出现 m 次。
如果满足其中任何一个条件，整个正则表达式就会匹配。
由于非捕获组不会捕获匹配的文本，因此我们可以使用这个技巧来测试模式出现特定次数，而不会捕获这些匹配。

示例

让我们使用一些示例来进一步理解：

import re

pattern = r"^(?:X{3})|(?:X{5})import re

pattern = r"^(?:X{3})|(?:X{5})$"

# 匹配开头出现 3 次 "X"
match = re.match(pattern, "XXIXXX")
print(match.group())  # 输出: XXIXXX

# 匹配结尾出现 5 次 "X"
match = re.match(pattern, "XXXXX")
print(match.group())  # 输出: XXXXX

# 匹配失败
match = re.match(pattern, "XXIIX")
print(match)  # 输出: None
quot;

# 匹配开头出现 3 次 "X"
match = re.match(pattern, "XXIXXX")
print(match.group())  # 输出: XXIXXX

# 匹配结尾出现 5 次 "X"
match = re.match(pattern, "XXXXX")
print(match.group())  # 输出: XXXXX

# 匹配失败
match = re.match(pattern, "XXIIX")
print(match)  # 输出: None