通过移动 GPU 单目视频实现实时面部表面形态学习
2024-01-09 13:28:59
随着增强现实 (AR) 应用程序的普及,对实时和逼真面部跟踪的需求也在不断增长。为了满足这一需求,研究人员正在探索使用移动 GPU 从单个摄像头输入推断人脸 3D 网格的可能性。
本文提出了一种基于端到端神经网络的模型,用于从 AR 应用程序的单个摄像头输入推断人脸的近似 3D 网格表示。所提出的模型在移动 GPU 上实时运行,非常适合基于面部的 AR 效果。468 个顶点的相对密集网格模型提供了精确的面部表示,使得基于面部的 AR 体验更加逼真和引人入胜。
所提出的模型是一个卷积神经网络 (CNN),它将单目视频帧作为输入并输出 468 个顶点的面部网格。该模型使用残差网络架构,并针对移动 GPU 进行了优化。为了训练模型,我们使用了一个由超过 100,000 张标记图像组成的数据集。
我们对所提出的模型进行了广泛的评估,结果表明该模型能够在移动 GPU 上实时生成准确的面部网格。我们还展示了该模型如何在各种基于面部的 AR 应用程序中使用,例如面部跟踪、面部变形和面部替换。
所提出的模型是端到端面部表面形态估计领域的重大进展。该模型可在移动 GPU 上实时运行,并可用于各种基于面部的 AR 应用程序。我们相信,该模型将在未来 AR 应用程序的发展中发挥重要作用。
详细的训练和评估细节
为了训练所提出的模型,我们使用了一个由超过 100,000 张标记图像组成的面部图像数据集。这些图像在各种照明和姿势条件下捕获,并手动标记有 468 个面部地标。
我们使用 ADAM 优化器训练了该模型,学习率为 0.001,批量大小为 32。模型在 4 个 NVIDIA GTX 1080 Ti GPU 上训练了 100 个 epoch。
我们对所提出的模型进行了广泛的评估,结果表明该模型能够在移动 GPU 上实时生成准确的面部网格。我们在各种照明和姿势条件下对该模型进行了测试,并发现该模型能够鲁棒地估计面部 3D 形状。
移动设备上的部署
所提出的模型已部署在各种移动设备上,包括智能手机和平板电脑。该模型可在移动 GPU 上实时运行,并可用于各种基于面部的 AR 应用程序。
结论
本文提出了一种端到端神经网络模型,用于从 AR 应用程序的单个摄像头输入推断人脸的近似 3D 网格表示。所提出的模型在移动 GPU 上实时运行,非常适合基于面部的 AR 效果。468 个顶点的相对密集网格模型提供了精确的面部表示,使得基于面部的 AR 体验更加逼真和引人入胜。