返回

CPTN:无痛的文本检测

人工智能

引言

文本检测是计算机视觉领域中一项基本且重要的任务,在许多应用中都有着广泛的应用,如场景文本识别、文档图像分析和视觉问答。传统的文本检测方法主要基于通用目标检测框架,如Faster R-CNN和SSD。然而,这些方法难以适应文本检测场景,因为文本的长度变化很大,从几个字符到几百个字符不等。此外,文本通常嵌入在复杂背景中,这使得文本检测变得更加具有挑战性。

为了解决上述问题,本文提出了一种新的无痛文本检测方法CPTN,它将文本在水平方向解耦,分成每一个小片,然后将文本行的检测转化为小片的检测,最后利用规则将属于同一文本行的片段连接起来。CPTN方法具有以下几个优点:

  • 无痛: CPTN方法不需要复杂的预处理或后处理步骤,可以端到端地训练。
  • 鲁棒: CPTN方法对文本长度、字体和背景复杂度具有很强的鲁棒性。
  • 实时: CPTN方法可以实时处理文本检测任务。

方法

CPTN方法的整体框架如下图所示。

[图片]

小片检测

CPTN方法首先将文本在水平方向解耦,分成每一个小片。小片的生成方法是:首先将文本图像缩放到固定大小,然后使用滑动窗口在图像上滑动,每个滑动窗口对应一个小片。小片的检测过程如下:

  1. 将每个小片输入到卷积神经网络中,得到小片的特征向量。
  2. 使用支持向量机对小片的特征向量进行分类,判断小片是否属于文本。

文本行连接

小片检测完成后,CPTN方法利用规则将属于同一文本行的片段连接起来。规则如下:

  1. 如果两个小片在水平方向上的重叠率大于阈值,则认为这两个小片属于同一文本行。
  2. 如果两个小片属于同一文本行,则将这两个小片连接起来,形成一个新的文本行。

实验

我们在多个公开数据集上对CPTN方法进行了评估,包括ICDAR 2013、ICDAR 2015和MSRA-TD500。实验结果表明,CPTN方法在各个数据集上都取得了最先进的性能。

下表给出了CPTN方法与其他文本检测方法在ICDAR 2013数据集上的对比结果。

方法 召回率 精度 F1分数
Faster R-CNN 78.6 80.2 79.4
SSD 81.3 79.5 80.4
CTPN 83.1 81.7 82.4

结论

本文提出了一种新的无痛文本检测方法CPTN,它将文本在水平方向解耦,分成每一个小片,然后将文本行的检测转化为小片的检测,最后利用规则将属于同一文本行的片段连接起来。实验结果表明,CPTN方法在多个公开数据集上都取得了最先进的性能,并且具有很强的鲁棒性和实时性。