返回

开启自主之路:从经典工作领略语义SLAM精妙之处

人工智能

计算机视觉在机器人导航与自主定位中扮演着极其重要的角色,而语义 SLAM 作为视觉 SLAM 的前沿方向,利用深度学习技术赋予视觉 SLAM 更强大的语义理解能力,将环境语义信息融入建图与定位过程,大大提升了机器人对环境的理解与交互能力。

本文将带你开启语义 SLAM 的探索之旅,从五个经典工作入手,回顾语义 SLAM 的发展历程,领略其技术精髓。同时,文章还将对语义 SLAM 的最新研究进展进行简要回顾,以便读者对该领域有更全面的了解。

1. SVO:首个语义 SLAM 系统

SVO(Semantic VO)是首个提出语义 SLAM 概念并实现完整系统的研究工作。SVO 结合了视觉 SLAM 和语义分割技术,在视觉 SLAM 的基础上,利用深度神经网络对环境中的物体进行语义分割,并使用语义信息来辅助视觉 SLAM 的建图和定位过程。

SVO 采用了端到端的神经网络架构,将图像作为输入,直接输出相机位姿和语义分割结果。这种端到端的设计简化了系统结构,提高了系统效率。同时,SVO 还提出了使用语义信息来提高视觉 SLAM 精度的方法,例如利用语义信息来消除动态物体对视觉 SLAM 的影响。

2. ORB-SLAM2:将语义信息融入视觉 SLAM

ORB-SLAM2 是一个著名的视觉 SLAM 系统,其在视觉 SLAM 领域取得了非常好的成绩。在 ORB-SLAM2 的基础上,研究人员提出了 ORB-SLAM3,该系统将语义信息融入了视觉 SLAM 过程。

ORB-SLAM3 采用了深度神经网络来提取图像中的语义信息,并将这些信息用于视觉 SLAM 的建图和定位过程。例如,在建图过程中,ORB-SLAM3 会将语义信息用于场景的分割,并根据不同的场景类型来调整建图策略。在定位过程中,ORB-SLAM3 会将语义信息用于匹配特征点,并提高匹配的准确性。

3. LSD-SLAM:利用激光雷达的语义信息

LSD-SLAM 是一个激光雷达 SLAM 系统,其特点是能够利用激光雷达的语义信息来提高建图和定位的精度。LSD-SLAM 使用深度神经网络来提取激光雷达点云中的语义信息,并将这些信息用于建图和定位过程。

在建图过程中,LSD-SLAM 会将语义信息用于场景的分割,并根据不同的场景类型来调整建图策略。例如,在室内环境中,LSD-SLAM 会将语义信息用于检测墙壁和地面,并使用这些信息来构建地图。在定位过程中,LSD-SLAM 会将语义信息用于匹配激光雷达点云,并提高匹配的准确性。

4. DeepVO:将深度学习技术用于视觉里程计

DeepVO 是一个视觉里程计系统,其特点是能够使用深度学习技术来估计相机的位姿。DeepVO 使用深度神经网络来提取图像中的特征点,并使用这些特征点来估计相机的位姿。

与传统