正则表达式匹配：深入剖析匹配任意字符和任意次出现的复杂性

2024-02-18 15:15:43

在计算机科学领域，正则表达式被广泛用于文本搜索、数据验证和各种其他处理字符串的任务中。对于初学者来说，掌握正则表达式的概念和应用至关重要。在这篇文章中，我们将深入探讨一个看似简单的正则表达式匹配问题——【剑指Offer】19. 正则表达式匹配。

背景：正则表达式

正则表达式是一种强大的工具，它使用一系列模式或元字符来字符串的搜索模式。这些元字符具有特定含义，允许我们匹配符合特定规则的字符串。在本文中，我们将重点关注两个特定的元字符：

.` ：匹配任何单个字符
* ：匹配其前面的字符 0 次或更多次

剑指Offer 19：正则表达式匹配

剑指Offer 19 要求我们实现一个函数来匹配包括 '.' 和 '' 的正则表达式。例如，正则表达式 "a.a" 应该匹配字符串 "aaa"，而 "abac*a" 应该匹配 "abaca"。

解决方案：动态规划

要解决此问题，我们可以使用动态规划方法。动态规划是一种解决复杂问题的技术，它将问题分解成较小的子问题，然后逐个解决。对于正则表达式匹配，我们可以将问题分解成以下子问题：

匹配字符串 s 前 i 个字符和正则表达式 p 前 j 个字符
对于给定的 i 和 j，检查正则表达式 p 中的第 j 个字符是否为 . 或 *

根据这些子问题，我们可以制定以下动态规划状态转移方程：

dp[i][j] = True  # 如果 `s` 前 `i` 个字符和 `p` 前 `j` 个字符匹配

状态转移方程：

1. 如果 `p[j]` 为 `.`，则 `dp[i][j] = dp[i-1][j-1]`
2. 如果 `p[j]` 为 `*`：
   - 如果 `p[j-1]` 为 `.` 或 `*`，则 `dp[i][j] = dp[i][j-2]`
   - 如果 `p[j-1]` 与 `s[i-1]` 相等，则 `dp[i][j] = dp[i-1][j-2] || dp[i][j-1]`
3. 否则，如果 `p[j]` 与 `s[i]` 相等，则 `dp[i][j] = dp[i-1][j-1]`

边界条件：

dp[0][0] = True  # 空字符串和空正则表达式匹配
dp[i][0] = False  # 任何非空字符串和空正则表达式不匹配
dp[0][j] = False  # 空字符串和任何非空正则表达式不匹配

代码实现：

使用动态规划状态转移方程，我们可以实现一个函数来匹配正则表达式：

def is_match(s, p):
  m, n = len(s), len(p)
  dp = [[False] * (n + 1) for _ in range(m + 1)]
  dp[0][0] = True

  for j in range(1, n + 1):
    if p[j - 1] == '*':
      dp[0][j] = dp[0][j - 2]

  for i in range(1, m + 1):
    for j in range(1, n + 1):
      if p[j - 1] == '.':
        dp[i][j] = dp[i - 1][j - 1]
      elif p[j - 1] == '*':
        dp[i][j] = dp[i][j - 2]
        if p[j - 2] == '.' or p[j - 2] == s[i - 1]:
          dp[i][j] |= dp[i - 1][j - 2] or dp[i][j - 1]
      else:
        dp[i][j] = dp[i - 1][j - 1] and s[i - 1] == p[j - 1]

  return dp[m][n]