类分割异常检测评估的陷阱：分数方向不稳定性研究

在异常检测领域，类分割评估（within-dataset class-split evaluation）常被用作全无分布外异常检测的代理方法。然而，一篇被ICML 2026研讨会接收的新研究指出，当被保留的异常类在表示空间中与正常混合区域重叠时，这一评估协议可能变得病态——异常分数可能趋近于随机，甚至发生反转，而最优的分数方向可能依赖于未知的异常类。

问题的核心

传统上，研究人员通过在数据集内划分“正常”和“异常”类来模拟无监督异常检测场景。例如，在CIFAR-10中，将“汽车”作为正常类，将“猫”作为异常类，训练一个模型来识别异常。但这项研究发现，当异常类与正常类在特征空间中的分布存在重叠时，异常检测器的分数方向（score direction）会变得不稳定。所谓分数方向，指的是模型判断样本为异常的方向——分数越高越异常，还是越低越异常？在理想情况下，异常检测器应输出一个单调的分数，使得异常样本的分数显著偏离正常样本。然而，当类间重叠时，这一假设可能失效。

关键发现

论文作者提出了一种简单且无需训练的诊断指标——邻域类泄漏（neighborhood class leakage），并证明该指标能够预测分数方向的不稳定性。他们在Fashion-MNIST、CIFAR-10和Imagenette数据集上进行了实验，涵盖像素空间和VAE潜在空间。结果表明，当邻域类泄漏较高时，异常分数往往表现出以下行为：

分数向随机水平塌缩，即正常与异常样本的分数分布难以区分；
分数方向可能反转，例如原本应被判定为异常的样本反而得到更“正常”的分数；
最优分数方向依赖于具体的异常类，而异常类在无监督场景下是未知的，这使得评估结果不可靠。

对行业的启示

这一发现对当前异常检测研究的评估方法提出了重要挑战。许多论文依赖类分割基准来验证算法有效性，但本研究指出，这些基准应被视为几何依赖的应力测试，而非模型泛化能力的无条件证明。换句话说，一个在类分割设置中表现良好的算法，在真实的无条件异常检测场景中可能毫无价值。

研究建议，未来在评估异常检测方法时，应报告邻域类泄漏等诊断指标，并明确说明评估设置中的几何特性。对于从业者而言，这意味着不能盲目信任类分割基准上的排名，而应结合更多维度的测试来验证模型的鲁棒性。

总结

这项研究揭示了异常检测评估中一个被忽视的陷阱：类重叠导致的分数方向不稳定性。它提醒我们，测试本身也需要被测试。在构建更可靠的异常检测系统时，理解数据在表示空间中的几何结构，或许比追求更高的基准分数更为关键。

测试的测试：类分割异常检测中的分数方向不稳定性

问题的核心

关键发现

对行业的启示

总结

延伸阅读

相关资讯