返回

匹配亦可美好—vivo敏感词匹配系统的设计与实践

后端

引言

随着互联网的飞速发展,人们在网上发布信息、交流观点越来越方便。然而,网上也充斥着大量违法违规信息,对社会产生了不良影响。为了净化网络环境,各大互联网公司都建立了内容审核系统,对用户发布的信息进行审查。

vivo作为一家互联网公司,也建立了内容审核系统。vivo的内容审核系统主要包括敏感词匹配、文本分类、机器学习等技术。本文将介绍vivo敏感词匹配系统的设计与实践。

敏感词匹配算法对比

敏感词匹配算法有很多种,每种算法都有其优缺点。下面我们将对比几种常用的敏感词匹配算法。

  • 完全匹配算法 :完全匹配算法是最简单的一种敏感词匹配算法。完全匹配算法的原理是,将待检测文本与敏感词库中的敏感词逐一比较,如果待检测文本中存在与敏感词库中的敏感词完全匹配的词语,则认为待检测文本包含敏感词。
  • 前缀匹配算法 :前缀匹配算法也是一种比较简单的敏感词匹配算法。前缀匹配算法的原理是,将待检测文本与敏感词库中的敏感词逐一比较,如果待检测文本中存在与敏感词库中的敏感词前缀匹配的词语,则认为待检测文本包含敏感词。
  • 后缀匹配算法 :后缀匹配算法也是一种比较简单的敏感词匹配算法。后缀匹配算法的原理是,将待检测文本与敏感词库中的敏感词逐一比较,如果待检测文本中存在与敏感词库中的敏感词后缀匹配的词语,则认为待检测文本包含敏感词。
  • 最长匹配算法 :最长匹配算法是一种比较复杂的敏感词匹配算法。最长匹配算法的原理是,将待检测文本与敏感词库中的敏感词逐一比较,找到待检测文本中与敏感词库中的敏感词最长的匹配词语,则认为待检测文本包含敏感词。
  • AC自动机算法 :AC自动机算法是一种比较复杂的敏感词匹配算法。AC自动机算法的原理是,将敏感词库中的敏感词构建成一棵AC自动机,然后将待检测文本在AC自动机上进行匹配,如果待检测文本中存在与AC自动机上的敏感词匹配的词语,则认为待检测文本包含敏感词。

vivo敏感词匹配实践方案

vivo的内容审核系统主要包括敏感词匹配、文本分类、机器学习等技术。本文将介绍vivo敏感词匹配系统在几个主要场景下的实践方案。

场景一:用户发布信息审核

用户发布信息审核是vivo内容审核系统最重要的场景之一。vivo的内容审核系统对用户发布的信息进行审查,如果信息中存在敏感词,则系统会阻止该信息发布。

vivo的内容审核系统使用多种敏感词匹配算法对用户发布的信息进行审查。系统首先使用完全匹配算法对信息进行审查,如果信息中存在与敏感词库中的敏感词完全匹配的词语,则系统会阻止该信息发布。如果信息中不存在与敏感词库中的敏感词完全匹配的词语,则系统会使用前缀匹配算法、后缀匹配算法和最长匹配算法对信息进行审查。如果信息中存在与敏感词库中的敏感词前缀匹配、后缀匹配或最长匹配的词语,则系统也会阻止该信息发布。

场景二:搜索结果审核

搜索结果审核也是vivo内容审核系统的重要场景之一。vivo的内容审核系统对搜索结果进行审查,如果搜索结果中存在敏感词,则系统会阻止该搜索结果显示。

vivo的内容审核系统使用多种敏感词匹配算法对搜索结果进行审查。系统首先使用完全匹配算法对搜索结果进行审查,如果搜索结果中存在与敏感词库中的敏感词完全匹配的词语,则系统会阻止该搜索结果显示。如果搜索结果中不存在与敏感词库中的敏感词完全匹配的词语,则系统会使用前缀匹配算法、后缀匹配算法和最长匹配算法对搜索结果进行审查。如果搜索结果中存在与敏感词库中的敏感词前缀匹配、后缀匹配或最长匹配的词语,则系统也会阻止该搜索结果显示。

场景三:广告审核

广告审核也是vivo内容审核系统的重要场景之一。vivo的内容审核系统对广告进行审查,如果广告中存在敏感词,则系统会阻止该广告发布。

vivo的内容审核系统使用多种敏感词匹配算法对广告进行审查。系统首先使用完全匹配算法对广告进行审查,如果广告中存在与敏感词库中的敏感词完全匹配的词语,则系统会阻止该广告发布。如果广告中不存在与敏感词库中的敏感词完全匹配的词语,则系统会使用前缀匹配算法、后缀匹配算法和最长匹配算法对广告进行审查。如果广告中存在与敏感词库中的敏感词前缀匹配、后缀匹配或最长匹配的词语,则系统也会阻止该广告发布。

结语

本文介绍了vivo敏感词匹配系统的设计与实践。vivo的内容审核系统主要包括敏感词匹配、文本分类、机器学习等技术。本文介绍了vivo敏感词匹配系统在几个主要场景下的实践方案。vivo的内容审核系统对净化网络环境、维护社会稳定发挥了积极作用。