SemiScope：半监督安全分类中分类器调优比联合优化更关键

一、背景与挑战

在安全分类任务中，标注数据往往稀缺，半监督学习（SSL）通过从少量标注样本传播标签到大量无标注数据来缓解这一问题。然而，实际安全应用常将SSL当作黑盒使用：采用默认参数、固定分类器，且不处理伪标签导致的类别不平衡。这导致SSL的潜力未能充分发挥。

二、研究目标与核心问题

近期研究显示，通过联合搜索、AutoML或逐组件调优来优化SSL流水线可带来可观的性能提升。但这些增益的来源并不明确：它们可能源于SSL与分类器之间的有益交互，也可能仅仅是因为调优了下游分类器。为此，本文旨在解耦这两种效应，针对二元表格安全数据，使用经典SSL和基于树的分类器进行系统分析。

三、方法：SemiScope分析框架

研究者构建了SemiScope——一个分析工具而非部署推荐。它利用贝叶斯优化联合调优SSL设置、置信度过滤、过采样和分类器。关键控制组Tuned-Clf固定SSL为默认值，但获得与SemiScope相同的100次分类器调优预算和验证集阈值调优。在10%标注率下，使用配对TOST检验比较两者，最小效应量为±1.0 G-Mean。

四、实验结果

SemiScope在所有五个数据集上击败了所有默认SSL基线，相比最强基线提升0.7-12.7个点。
在等预算控制下，Tuned-Clf在4/5数据集上与完整流水线统计等价；Phishing数据集结果不明确。
仅分类器超参数优化（HPO）就恢复了SemiScope相对于默认自训练（ST）+随机森林（RF）增益的中位数86%。

五、结论与实用建议

本文的可复用贡献是分解协议。一个更简单的方案足以奏效：使用自训练，用贝叶斯优化调优分类器，并在验证数据上调优决策阈值。该方案在四个数据集上以20-30%标注率即可达到监督RF的1个G-Mean以内，在Drebin数据集上需40%标注率，且在所有数据集上标注率均低于或等于默认ST+RF。

小结

SemiScope的研究表明，在半监督安全分类中，分类器调优比复杂的联合优化更为关键。实践者应优先关注分类器的超参数优化和阈值调整，而非过度设计SSL流水线。

SemiScope：解耦半监督安全分类中的分类器调优与联合优化

一、背景与挑战

二、研究目标与核心问题

三、方法：SemiScope分析框架

四、实验结果

五、结论与实用建议

小结

延伸阅读

相关资讯