新上线今天0 投票
SemiScope:解耦半监督安全分类中的分类器调优与联合优化
一、背景与挑战
在安全分类任务中,标注数据往往稀缺,半监督学习(SSL)通过从少量标注样本传播标签到大量无标注数据来缓解这一问题。然而,实际安全应用常将SSL当作黑盒使用:采用默认参数、固定分类器,且不处理伪标签导致的类别不平衡。这导致SSL的潜力未能充分发挥。
二、研究目标与核心问题
近期研究显示,通过联合搜索、AutoML或逐组件调优来优化SSL流水线可带来可观的性能提升。但这些增益的来源并不明确:它们可能源于SSL与分类器之间的有益交互,也可能仅仅是因为调优了下游分类器。为此,本文旨在解耦这两种效应,针对二元表格安全数据,使用经典SSL和基于树的分类器进行系统分析。
三、方法:SemiScope分析框架
研究者构建了SemiScope——一个分析工具而非部署推荐。它利用贝叶斯优化联合调优SSL设置、置信度过滤、过采样和分类器。关键控制组Tuned-Clf固定SSL为默认值,但获得与SemiScope相同的100次分类器调优预算和验证集阈值调优。在10%标注率下,使用配对TOST检验比较两者,最小效应量为±1.0 G-Mean。
四、实验结果
- SemiScope在所有五个数据集上击败了所有默认SSL基线,相比最强基线提升0.7-12.7个点。
- 在等预算控制下,Tuned-Clf在4/5数据集上与完整流水线统计等价;Phishing数据集结果不明确。
- 仅分类器超参数优化(HPO)就恢复了SemiScope相对于默认自训练(ST)+随机森林(RF)增益的中位数86%。
五、结论与实用建议
本文的可复用贡献是分解协议。一个更简单的方案足以奏效:使用自训练,用贝叶斯优化调优分类器,并在验证数据上调优决策阈值。该方案在四个数据集上以20-30%标注率即可达到监督RF的1个G-Mean以内,在Drebin数据集上需40%标注率,且在所有数据集上标注率均低于或等于默认ST+RF。
小结
SemiScope的研究表明,在半监督安全分类中,分类器调优比复杂的联合优化更为关键。实践者应优先关注分类器的超参数优化和阈值调整,而非过度设计SSL流水线。