彻底学会KMP算法，不再为子串匹配而烦恼！

2023-11-16 21:10:30

什么是 KMP 算法？

在茫茫字符串搜索世界中，KMP 算法犹如一盏明灯，指引着你快速高效地找到目标子串。它是由高德纳、莫里斯和普拉特三位杰出科学家在 1977 年联合提出的，被誉为字符串匹配算法中的 "黄金标准"。

KMP 算法的原理

KMP 算法的精妙之处在于它利用了前缀和后缀之间的关系。它首先对模式字符串（即你要寻找的目标子串）进行预处理，计算出每个前缀和后缀的匹配关系。有了这些信息，算法就可以从待匹配字符串的第一个字符开始，逐个字符地进行匹配。如果匹配成功，就继续匹配下一个字符；如果匹配失败，则根据预处理的结果跳过一些字符，继续匹配。这种策略大幅提高了匹配效率。

KMP 算法的优点

KMP 算法的优点可谓是数不胜数：

高效快捷： 时间复杂度为 O(n+m)，其中 n 和 m 分别是待匹配字符串和模式字符串的长度，堪称字符串匹配中的速度之王。
简单易懂： 算法的原理清晰明了，即使是初学者也能轻松理解。
应用广泛： 在文本搜索、模式匹配、字符串比较等各种字符串操作场景中，KMP 算法都能大显身手。

KMP 算法的实现代码

为了让你亲身体验 KMP 算法的强大，这里提供一个用 Python 实现的代码示例：

def kmp_match(s1, s2):
    """
    KMP算法匹配字符串s2是否为字符串s1的子串

    Args:
        s1 (str): 待匹配字符串
        s2 (str): 子串

    Returns:
        bool: True if s2 is a substring of s1, False otherwise
    """

    # 预处理字符串s1，计算出每个前缀和后缀的匹配关系
    next = [0] * len(s1)
    for i in range(1, len(s1)):
        j = next[i - 1]
        while j > 0 and s1[i] != s1[j]:
            j = next[j - 1]
        if s1[i] == s1[j]:
            j += 1
        next[i] = j

    # 使用数组中的匹配关系，从字符串s2的第一个字符开始，逐个字符地与s1进行匹配
    i = 0
    j = 0
    while i < len(s2):
        if s2[i] == s1[j]:
            i += 1
            j += 1
            if j == len(s1):
                return True
        else:
            if j > 0:
                j = next[j - 1]
            else:
                i += 1

    return False

# 测试代码
s1 = "ABCDABCDAB"
s2 = "ABCDAB"
print(kmp_match(s1, s2))  # 输出True