返回
开放域OOD主要数据集、评价指标汇总
人工智能
2023-10-14 17:00:06
近年来,开放域OOD检测作为机器学习领域的重要一环,受到了广泛关注,因为很多实际场景中的测试数据分布与训练数据分布不同。解决OOD检测问题有助于提高模型的泛化性能。在这篇文章中,我将为您汇总目前业界常用的开放域OOD主要数据集和评价指标。
主要数据集
视觉
- ImageNet-OOD: 一个包含10,000张图像的开放域OOD数据集,图像来自ImageNet-1K、LSUN和Places-365数据集。
- CIFAR-100-OOD: 一个包含100个类别的开放域OOD数据集,图像来自CIFAR-100数据集和TinyImageNet数据集。
- SVHN-OOD: 一个包含10,000张图像的开放域OOD数据集,图像来自SVHN数据集和CIFAR-10数据集。
语言
- GLUE-OOD: 一个包含8个自然语言处理任务的开放域OOD数据集,任务包括文本分类、自然语言推理和问答。
- TextOOD: 一个包含10个文本分类任务的开放域OOD数据集,任务包括情感分析、垃圾邮件检测和语义相似度。
- SciQ-OOD: 一个包含10,000个科学问题回答任务的开放域OOD数据集,问题来自SciQ数据集和ArXiv数据集。
语音
- VoxCeleb-OOD: 一个包含10,000个语音片段的开放域OOD数据集,语音片段来自VoxCeleb数据集和LibriSpeech数据集。
- ESC-OOD: 一个包含10,000个环境声音片段的开放域OOD数据集,声音片段来自ESC-50数据集和UrbanSound8K数据集。
- SpeechCommands-OOD: 一个包含10,000个语音命令片段的开放域OOD数据集,语音片段来自SpeechCommands数据集和FSD50K数据集。
评价指标
- 准确率(Accuracy): 衡量模型正确分类未知类图像的比例。
- 召回率(Recall): 衡量模型检测出未知类图像的比例。
- F1分数(F1 score): 准确率和召回率的调和平均值。
- AUC(Area Under the Curve): ROC曲线下的面积,衡量模型对未知类图像和已知类图像进行区分的能力。
- AUPRC(Area Under the Precision-Recall Curve): 精度-召回曲线下的面积,衡量模型在不同召回率下的精度。
此外,还有一些其他评价指标,如检测率(detection rate)、误报率(false alarm rate)和ROC曲线等。
结论
在本文中,我汇总了目前业界常用的开放域OOD主要数据集和评价指标。这些资源可以帮助研究人员和从业者评估模型在开放域OOD检测任务中的性能,并为进一步的研究和开发提供基准。