SheepNav
新上线今天0 投票

SilIF:基于轮廓系数的隔离森林增强,用于无监督交易欺诈检测

在金融交易欺诈检测领域,标签数据稀缺使得无监督异常检测方法备受青睐。隔离森林(Isolation Forest, IF) 因其可扩展性和易部署性成为经典方法之一。近期,一篇 arXiv 论文提出了 SilIF,一种通过引入轮廓系数(silhouette score)来增强隔离森林的无监督异常检测算法。

SilIF 的核心思路是:在隔离森林每棵树生成的路径长度向量基础上,对样本进行聚类,并计算每个样本的轮廓系数,衡量其与其所属簇的匹配度。然后将轮廓系数与原始 IF 异常分数通过一个超参数 α 融合。在 IEEE-CIS 欺诈检测基准数据集(约 59 万笔交易,欺诈率 3.5%)上,当 α=1.0 时,SilIF 的平均 AUC-PR 比原始 IF 提升 +0.0080,且在全部 5 个随机种子下均优于 IF(配对 t 检验 p=0.046)。

然而,在合成信用卡数据集 Sparkov 上,轮廓增强并未带来改进。论文分析了两种数据集的特征差异,指出 SilIF 在结构分组明显的场景下更有效。总体而言,SilIF 是一个可调、易部署的增强方案,且作者诚实地报告了其适用条件。

延伸阅读

  1. GEM:几何熵混合——大模型预训练数据配比的最优解
  2. 约束税:小语言模型在结构化输出中的有效性与正确性权衡测量
  3. AirCast-SR:基于潜在一致性扩散的千米级大气超分辨率基础模型
查看原文