KMP算法：快速查找字符串中子串的位置

后端

2023-02-24 05:22:02

KMP算法：巧妙的字符串匹配利器

简介

在处理文本数据时，快速准确地查找字符串中的子串至关重要。KMP算法（Knuth-Morris-Pratt算法）就是这样一种高效且广泛应用的字符串匹配算法。

原理

KMP算法的精妙之处在于它使用预处理和巧妙的数据结构来优化匹配过程。具体来说，它构建了一个“失败函数表”，其中包含每个字符与前缀模式不匹配时需要跳过的字符数。这使得算法在匹配过程中能够快速跳过不必要的比较，从而大幅提高效率。

步骤

KMP算法的主要步骤包括：

预处理： 构建失败函数表。
匹配： 使用失败函数表辅助匹配字符串中的子串。
返回： 输出子串在字符串中的位置，或返回-1表示未找到。

复杂度

KMP算法的时间复杂度为O(n+m)，其中n是字符串长度，m是子串长度。空间复杂度为O(m)。

代码实现

以下是用Python实现的KMP算法示例：

def kmp_string_matching(text, pattern):

    # 预处理：构建失败函数表
    failure_function = build_failure_function(pattern)

    # 匹配：使用失败函数表进行匹配
    i, j = 0, 0
    while i < len(text):
        if text[i] == pattern[j]:
            i += 1
            j += 1
            if j == len(pattern):
                return i - j
        else:
            if j > 0:
                j = failure_function[j - 1]
            else:
                i += 1

    # 未找到
    return -1


def build_failure_function(pattern):

    # 初始化失败函数表
    failure_function = [0] * len(pattern)

    # 构建失败函数表
    i, j = 1, 0
    while i < len(pattern):
        if pattern[i] == pattern[j]:
            failure_function[i] = j + 1
            i += 1
            j += 1
        else:
            if j > 0:
                j = failure_function[j - 1]
            else:
                i += 1

    return failure_function