返回

探秘像素分割文本检测算法:开启文本识别的第一步

人工智能

文本检测是文本读取识别的第一步,对后续的文本识别有着重大的影响。传统上,文本检测常常使用基于滑动窗口的方法。该方法首先将图像分割成一系列重叠的窗口,然后在每个窗口中使用分类器来判断是否存在文本。这种方法的缺点是计算量大,并且容易受到背景杂讯的干扰。

为了克服这些缺点,近年来出现了基于像素分割的文本检测算法。这些算法将图像中的每个像素分类为文本像素或非文本像素,从而得到文本行的分割结果。基于像素分割的文本检测算法具有计算量小、鲁棒性强等优点,因此在文本检测领域得到了广泛的研究和应用。

目前,基于像素分割的文本检测算法主要分为两类:基于深度学习的算法和基于传统图像处理技术的算法。基于深度学习的算法通常使用卷积神经网络(CNN)来提取图像中的特征,然后使用这些特征来预测每个像素的类别。基于传统图像处理技术的算法则通常使用颜色、纹理和边缘等特征来判断每个像素的类别。

基于像素分割的文本检测算法已经取得了很大的进展,并在许多应用中得到了成功的使用。例如,基于像素分割的文本检测算法可以用于文档图像分析、场景文本检测和手写文本识别等。

参考文献

[1] C. Shi, Q. Liu, Y. Wang, Z. Li, X. Wang, and H. Shen, "An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene Text Recognition," IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 41, no. 11, pp. 2940-2953, 2019.

[2] X. Zhou, C. Yao, H. Wen, Y. Wang, S. Zhou, W. He, and J. Liang, "East: An Efficient and Accurate Scene Text Detector," IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 42, no. 10, pp. 2889-2903, 2020.

[3] M. Jaderberg, K. Simonyan, A. Vedaldi, and A. Zisserman, "Reading Text in the Wild with Convolutional Neural Networks," International Journal of Computer Vision, vol. 123, no. 1, pp. 50-71, 2017.