Real-Time Object Detection Transformed: RT-DETR Surpasses YOLOv8 with 54.8 AP at 114 FPS

2024-01-09 01:09:44

RT-DETR：颠覆实时目标检测的全新时代

在快节奏的人工智能和计算机视觉领域，对实时目标检测的需求从未如此之高。此时，RT-DETR 闪亮登场，这是一款最先进的实时检测 Transformer，正在撼动该领域的根基。凭借其无与伦比的速度和准确性，RT-DETR 将现任冠军 YOLOv8 远远甩在身后。

NMS：实时目标检测中的瓶颈

实时目标检测难题的核心在于非极大抑制 (NMS)，这是一个至关重要的但计算成本昂贵的步骤，会带来明显的延迟。NMS 的作用是消除冗余的边界框，只保留最准确的边界框，这一任务可能非常耗时，尤其是在包含众多对象的复杂场景中。

RT-DETR：摆脱 NMS 的束缚

RT-DETR 通过引入一种无需执行此会产生延迟的步骤的新方法，摆脱了 NMS 的束缚。其基于 Transformer 的架构支持端到端目标检测，将特征提取、边界框生成和类别预测无缝集成到一个统一的过程中。

RT-DETR 的基准测试：设定速度和准确性的新标准

为了进行公平比较，RT-DETR 的性能与 YOLOv8（当前实时目标检测的基准）进行了评估。结果令人震惊：

速度： RT-DETR 的闪电般推理时间为 114 FPS（每秒帧数），而 YOLOv8 为 30 FPS，实现了惊人的 4 倍加速。
准确性： 尽管速度惊人，RT-DETR 仍然保持了极高的准确性，在 COCO 基准测试中实现了 54.8 的 AP（平均准确率），比 YOLOv8 的 52.3 AP 明显提升。

结论：RT-DETR 重新定义了实时目标检测

RT-DETR 的突破性性能标志着实时目标检测范式的转变。通过消除 NMS 并利用 Transformer 的强大功能，RT-DETR 重新定义了速度和准确性的界限，为自动驾驶、视频监控和增强现实等应用开辟了新的可能性。

常见问题解答

RT-DETR 与 YOLOv8 有何不同？
RT-DETR 利用 Transformer 架构消除 NMS，实现了更快的速度和更高的准确性，而 YOLOv8 仍然依赖 NMS，导致延迟较高，准确性较低。
RT-DETR 在哪些应用中表现出色？
RT-DETR 非常适合需要实时目标检测的应用，例如自动驾驶、视频监控和增强现实。
RT-DETR 有哪些优势？
RT-DETR 的主要优势包括其超快速推理时间、高准确性和端到端架构，消除了对 NMS 的需求。
RT-DETR 的局限性是什么？
RT-DETR 目前可能需要更强大的计算资源，而且它可能无法处理极端密集的场景。
RT-DETR 的未来前景如何？
RT-DETR 的未来前景光明，因为它正在不断开发和改进。随着 Transformer 技术的进步，我们预计 RT-DETR 在速度、准确性和应用范围方面将继续取得进步。

代码示例

以下是使用 RT-DETR 进行实时目标检测的代码示例：

import cv2
import numpy as np
from transformers import pipeline

# 载入图像
image = cv2.imread("image.jpg")

# 构建 RT-DETR 管道
rtdetr_pipeline = pipeline("object-detection")

# 对图像进行预测
predictions = rtdetr_pipeline(image)

# 绘制边界框
for prediction in predictions:
    xmin, ymin, xmax, ymax = prediction["bbox"]
    cv2.rectangle(image, (xmin, ymin), (xmax, ymax), (0, 255, 0), 2)

# 显示结果图像
cv2.imshow("Object Detection", image)
cv2.waitKey(0)

Kyle

探索Web开发资源和人工智能教程的代码社区

联系我

扫码关注微信公众号

Real-Time Object Detection Transformed: RT-DETR Surpasses YOLOv8 with 54.8 AP at 114 FPS

Kyle

使用TensorFlow高层API构建机器学习模型：谷歌开发者大会2018回顾

Faiss 助力图片向量相似检索：打造高效精准的图片搜索引擎

从机器学习大师那里学习异常检测：吴恩达机器学习-10-异常检测揭秘

深入浅出理解深度应用中的COCO目标检测数据集格式

TensorFlow新手也能预测股票？从入门数据集到实战指南