测试的测试:类分割异常检测中的分数方向不稳定性
在异常检测领域,类分割评估(within-dataset class-split evaluation)常被用作全无分布外异常检测的代理方法。然而,一篇被ICML 2026研讨会接收的新研究指出,当被保留的异常类在表示空间中与正常混合区域重叠时,这一评估协议可能变得病态——异常分数可能趋近于随机,甚至发生反转,而最优的分数方向可能依赖于未知的异常类。
问题的核心
传统上,研究人员通过在数据集内划分“正常”和“异常”类来模拟无监督异常检测场景。例如,在CIFAR-10中,将“汽车”作为正常类,将“猫”作为异常类,训练一个模型来识别异常。但这项研究发现,当异常类与正常类在特征空间中的分布存在重叠时,异常检测器的分数方向(score direction)会变得不稳定。所谓分数方向,指的是模型判断样本为异常的方向——分数越高越异常,还是越低越异常?在理想情况下,异常检测器应输出一个单调的分数,使得异常样本的分数显著偏离正常样本。然而,当类间重叠时,这一假设可能失效。
关键发现
论文作者提出了一种简单且无需训练的诊断指标——邻域类泄漏(neighborhood class leakage),并证明该指标能够预测分数方向的不稳定性。他们在Fashion-MNIST、CIFAR-10和Imagenette数据集上进行了实验,涵盖像素空间和VAE潜在空间。结果表明,当邻域类泄漏较高时,异常分数往往表现出以下行为:
- 分数向随机水平塌缩,即正常与异常样本的分数分布难以区分;
- 分数方向可能反转,例如原本应被判定为异常的样本反而得到更“正常”的分数;
- 最优分数方向依赖于具体的异常类,而异常类在无监督场景下是未知的,这使得评估结果不可靠。
对行业的启示
这一发现对当前异常检测研究的评估方法提出了重要挑战。许多论文依赖类分割基准来验证算法有效性,但本研究指出,这些基准应被视为几何依赖的应力测试,而非模型泛化能力的无条件证明。换句话说,一个在类分割设置中表现良好的算法,在真实的无条件异常检测场景中可能毫无价值。
研究建议,未来在评估异常检测方法时,应报告邻域类泄漏等诊断指标,并明确说明评估设置中的几何特性。对于从业者而言,这意味着不能盲目信任类分割基准上的排名,而应结合更多维度的测试来验证模型的鲁棒性。
总结
这项研究揭示了异常检测评估中一个被忽视的陷阱:类重叠导致的分数方向不稳定性。它提醒我们,测试本身也需要被测试。在构建更可靠的异常检测系统时,理解数据在表示空间中的几何结构,或许比追求更高的基准分数更为关键。