KMP 算法的秘密：构建匹配表，优化字符串匹配

2023-09-25 15:54:16

KMP 算法，全称 Knuth-Morris-Pratt 算法，是字符串匹配领域的一颗璀璨明珠。它以其简单易懂的算法思想和极高的匹配效率著称，在实际应用中发挥着至关重要的作用。

为了深入理解 KMP 算法的奥秘，我们首先需要了解一个关键的概念：“匹配值表”。这个表是 KMP 算法的核心，它巧妙地利用模式串的结构特点，帮助我们在匹配过程中大幅减少不必要的比较次数。

让我们借助一个简单的例子来构建匹配值表。假设我们要在字符串 “ABABABCA” 中查找模式串 “AB”。首先，我们将模式串的所有前缀（即子串）依次列出，并计算每个前缀的最长公共前后缀（简称 LCS）：

前缀 | LCS
------|------
A | 0
AB | 1

从中可以看出，前缀 “A” 的 LCS 为 0，而前缀 “AB” 的 LCS 为 1。这意味着，当我们在匹配 “ABABABCA” 时，如果匹配到 “A”，则下一个匹配字符必须是 “B”；如果匹配到 “AB”，则下一个匹配字符可以是 “A” 或 “B”。

有了这些信息，我们就可以构建匹配值表了。匹配值表是一个与模式串长度相同的数组，其中每个元素的值表示该字符所在前缀的 LCS。对于模式串 “AB”，匹配值表为：

A | B
--|--
0 | 1

现在，让我们回到字符串 “ABABABCA” 的匹配过程。我们将模式串 “AB” 与目标字符串逐个字符进行比较。如果匹配成功，则继续比较下一个字符；如果匹配失败，则根据匹配值表跳转到下一个匹配位置。

目标字符串 | 模式串 | 匹配结果 | 匹配值表跳转位置
------------|---------|------------|---------------------
A | A | 匹配 | 无
B | B | 匹配 | 无
A | A | 匹配 | 无
B | B | 匹配 | 无
A | B | 不匹配 | 跳转到匹配值表中 “B” 的位置（下标为 1）
B | A | 不匹配 | 跳转到匹配值表中 “A” 的位置（下标为 0）
C | A | 不匹配 | 跳转到匹配值表中 “A” 的位置（下标为 0）