以独特视角探索敏感词汇检测组件开发的组件化之旅

2023-11-24 02:42:46

记一次编写检测敏感词汇组件的经历

写在前面

在做商户端敏感词检测的过程中，发现了一些问题，特在此总结。本文的行文思路是编写敏感词检测代码，前两个思路未采用组件化的开发思想，后三个思路根据需求变更，采用组件化的思想和mixins混入。

一、初次编写

最初的敏感词检测是直接遍历所有要检测的敏感词，即循环比较当前字段内容是否与敏感词相等，相等则返回true。代码如下：

let search = (rule, value) => {
    if (!rule || rule === '') {
        return false;
    }
    const words = rule.split(',');
    for (let index = 0; index < words.length; index++) {
        if (value.indexOf(words[index]) > -1) {
            return true;
        }
    }
    return false;
};

这种方法存在的问题是：当字段内容特别长，敏感词也比较多时，循环次数就会很多，影响性能。另外，这种方法是直接比较字符串，没有考虑前后缀匹配等复杂情况，所以可能会产生误报。

二、优化方案

为了解决上述问题，可以采用以下优化方案：

使用正则表达式来匹配敏感词，可以大大提高匹配速度。
将敏感词存储在一个对象中，这样就可以快速地查找是否有某个敏感词存在于字段内容中。
使用前后缀匹配来提高匹配的准确性。

经过优化后的代码如下：

let search = (rule, value) => {
    if (!rule || rule === '') {
        return false;
    }
    const words = rule.split(',');
    const reg = new RegExp('(' + words.join('|') + ')', 'g');
    return reg.test(value);
};