返回
CPTN:无痛的文本检测
人工智能
2024-01-31 05:48:01
引言
文本检测是计算机视觉领域中一项基本且重要的任务,在许多应用中都有着广泛的应用,如场景文本识别、文档图像分析和视觉问答。传统的文本检测方法主要基于通用目标检测框架,如Faster R-CNN和SSD。然而,这些方法难以适应文本检测场景,因为文本的长度变化很大,从几个字符到几百个字符不等。此外,文本通常嵌入在复杂背景中,这使得文本检测变得更加具有挑战性。
为了解决上述问题,本文提出了一种新的无痛文本检测方法CPTN,它将文本在水平方向解耦,分成每一个小片,然后将文本行的检测转化为小片的检测,最后利用规则将属于同一文本行的片段连接起来。CPTN方法具有以下几个优点:
- 无痛: CPTN方法不需要复杂的预处理或后处理步骤,可以端到端地训练。
- 鲁棒: CPTN方法对文本长度、字体和背景复杂度具有很强的鲁棒性。
- 实时: CPTN方法可以实时处理文本检测任务。
方法
CPTN方法的整体框架如下图所示。
[图片]
小片检测
CPTN方法首先将文本在水平方向解耦,分成每一个小片。小片的生成方法是:首先将文本图像缩放到固定大小,然后使用滑动窗口在图像上滑动,每个滑动窗口对应一个小片。小片的检测过程如下:
- 将每个小片输入到卷积神经网络中,得到小片的特征向量。
- 使用支持向量机对小片的特征向量进行分类,判断小片是否属于文本。
文本行连接
小片检测完成后,CPTN方法利用规则将属于同一文本行的片段连接起来。规则如下:
- 如果两个小片在水平方向上的重叠率大于阈值,则认为这两个小片属于同一文本行。
- 如果两个小片属于同一文本行,则将这两个小片连接起来,形成一个新的文本行。
实验
我们在多个公开数据集上对CPTN方法进行了评估,包括ICDAR 2013、ICDAR 2015和MSRA-TD500。实验结果表明,CPTN方法在各个数据集上都取得了最先进的性能。
下表给出了CPTN方法与其他文本检测方法在ICDAR 2013数据集上的对比结果。
方法 | 召回率 | 精度 | F1分数 |
---|---|---|---|
Faster R-CNN | 78.6 | 80.2 | 79.4 |
SSD | 81.3 | 79.5 | 80.4 |
CTPN | 83.1 | 81.7 | 82.4 |
结论
本文提出了一种新的无痛文本检测方法CPTN,它将文本在水平方向解耦,分成每一个小片,然后将文本行的检测转化为小片的检测,最后利用规则将属于同一文本行的片段连接起来。实验结果表明,CPTN方法在多个公开数据集上都取得了最先进的性能,并且具有很强的鲁棒性和实时性。