新手入门：理解 KMP 算法，轻松匹配字符串

见解分享

2023-10-30 00:55:37

KMP 算法：字符串匹配新手指南

简介

对于探索计算机科学世界的初学者而言，KMP（Knuth-Morris-Pratt）算法是一个不可或缺的工具。作为一种高效的字符串匹配算法，它能够快速确定给定子字符串在源字符串中的位置，解决了一个看似简单的任务。

KMP 算法的原理

KMP 算法的核心在于“部分匹配表”，一个记录了子字符串中每个字符匹配长度的数据结构。该表优化了匹配过程，避免了不必要的回溯。

部分匹配表的构建基于一个递归函数 f(i)，它表示子字符串 T 中前 i 个字符与 T 本身的最大匹配长度。根据以下规则，我们可以构建部分匹配表：

f(1) = 0
f(i) = f(j) + 1，若 T[i] == T[f(j) + 1]
f(i) = 0，否则

例如，对于子字符串“abcd”，其部分匹配表为：

i	T[i]	f(i)
1	a	0
2	b	0
3	c	0
4	d	3

在源字符串中查找子字符串

有了部分匹配表，我们在源字符串中查找子字符串的过程变得更加高效。设源字符串为 S，子字符串为 T，长度分别为 m 和 n。

初始化 i 和 j 为 1（S 和 T 的开始位置）。
如果 S[i] == T[j]，则 i 和 j 均加 1，继续匹配下一个字符。
如果 S[i] != T[j]，则有两种情况：
- 如果 j > 1，则将 j 设置为 f(j-1) + 1，然后回到步骤 2。
- 如果 j == 1，则将 j 设置为 1，i 不变，然后回到步骤 2。
如果 j == n，则表示匹配成功，T 从 S 中的第 i-n 个字符开始匹配。

示例代码

以下是使用 C++ 编写的 KMP 算法示例代码：

#include <iostream>
#include <vector>

using namespace std;

vector<int> kmp(string T) {
  int n = T.size();
  vector<int> f(n);
  f[0] = 0;
  int j = 0;
  for (int i = 1; i < n; i++) {
    while (j > 0 && T[i] != T[j]) j = f[j - 1];
    if (T[i] == T[j]) j++;
    f[i] = j;
  }
  return f;
}

int main() {
  string S = "abcdhabcdfj";
  string T = "abcdf";
  vector<int> f = kmp(T);
  int i = 0, j = 0;
  while (i < S.size() && j < T.size()) {
    if (S[i] == T[j]) { i++; j++; }
    else if (j > 0) { j = f[j - 1]; }
    else { i++; }
    if (j == T.size()) { cout << "Match found at index: " << i - j << endl; }
  }
  return 0;
}