CPTN：无痛的文本检测

2024-01-31 05:48:01

引言

文本检测是计算机视觉领域中一项基本且重要的任务，在许多应用中都有着广泛的应用，如场景文本识别、文档图像分析和视觉问答。传统的文本检测方法主要基于通用目标检测框架，如Faster R-CNN和SSD。然而，这些方法难以适应文本检测场景，因为文本的长度变化很大，从几个字符到几百个字符不等。此外，文本通常嵌入在复杂背景中，这使得文本检测变得更加具有挑战性。

为了解决上述问题，本文提出了一种新的无痛文本检测方法CPTN，它将文本在水平方向解耦，分成每一个小片，然后将文本行的检测转化为小片的检测，最后利用规则将属于同一文本行的片段连接起来。CPTN方法具有以下几个优点：

无痛： CPTN方法不需要复杂的预处理或后处理步骤，可以端到端地训练。
鲁棒： CPTN方法对文本长度、字体和背景复杂度具有很强的鲁棒性。
实时： CPTN方法可以实时处理文本检测任务。

方法

CPTN方法的整体框架如下图所示。

[图片]

小片检测

CPTN方法首先将文本在水平方向解耦，分成每一个小片。小片的生成方法是：首先将文本图像缩放到固定大小，然后使用滑动窗口在图像上滑动，每个滑动窗口对应一个小片。小片的检测过程如下：

将每个小片输入到卷积神经网络中，得到小片的特征向量。
使用支持向量机对小片的特征向量进行分类，判断小片是否属于文本。

文本行连接

小片检测完成后，CPTN方法利用规则将属于同一文本行的片段连接起来。规则如下：

如果两个小片在水平方向上的重叠率大于阈值，则认为这两个小片属于同一文本行。
如果两个小片属于同一文本行，则将这两个小片连接起来，形成一个新的文本行。

实验

我们在多个公开数据集上对CPTN方法进行了评估，包括ICDAR 2013、ICDAR 2015和MSRA-TD500。实验结果表明，CPTN方法在各个数据集上都取得了最先进的性能。

下表给出了CPTN方法与其他文本检测方法在ICDAR 2013数据集上的对比结果。

方法	召回率	精度	F1分数
Faster R-CNN	78.6	80.2	79.4
SSD	81.3	79.5	80.4
CTPN	83.1	81.7	82.4

结论

本文提出了一种新的无痛文本检测方法CPTN，它将文本在水平方向解耦，分成每一个小片，然后将文本行的检测转化为小片的检测，最后利用规则将属于同一文本行的片段连接起来。实验结果表明，CPTN方法在多个公开数据集上都取得了最先进的性能，并且具有很强的鲁棒性和实时性。

Kyle

探索Web开发资源和人工智能教程的代码社区

扫码关注微信公众号

Win10环境下Python3.6与TensorFlow1.6安装使用教程：一步到位，高效搭建深度学习环境

Win10环境下Python3.6与TensorFlow1.6安装使用教程：一步到位，高效搭建深度学习环境

运用强化学习赋能机器人实现乒乓球运动

运用强化学习赋能机器人实现乒乓球运动

看门道：挖掘外国电影票房数据可视化的新维度

看门道：挖掘外国电影票房数据可视化的新维度

PF-LRM：无位姿稀疏视图也能重建3D大模型？

PF-LRM：无位姿稀疏视图也能重建3D大模型？

挖掘图系列隐含价值，赋能转转推荐算法召回与粗排

挖掘图系列隐含价值，赋能转转推荐算法召回与粗排