FoGS:用过滤式生成器混合体实现全合成生存训练数据
在临床研究中,生存分析模型常因数据稀缺而受限:事件需多年随访才能累积,队列规模小,且隐私法规禁止机构间数据共享。表格生成模型虽能通过合成数据实现扩增和隐私保护,但其本身同样依赖大量数据——在小样本生存分析场景下,单一生成器几乎无法充分刻画人群分布,导致下游模型性能远不及真实数据训练。
为了解决这一矛盾,米兰理工大学的研究团队提出了 FoGS(Filtered Mixture-of-Generators for Survival analysis),一种将合成数据构建从“生成”转向“样本筛选”的新框架。FoGS 的核心思路是:先由多个架构不同的生成器共同产生一个候选样本池,再通过一套基于真实数据训练的评估系统,筛选出最“可信”的样本用于下游训练。
如何运作?
FoGS 的流程分为两层:
- 候选池生成:使用四种架构各异的表格生成器(如 VAE、GAN、扩散模型等)分别生成大量合成样本,形成混合候选池。
- 两级优化管道:
- 外循环:优化一个“选择策略”,包括各生成器的配额、评估器权重、随机补充比例以及事件时间和删失状态的分层平衡。该策略以在下游模型上的真实数据测试性能为优化目标。
- 内循环:在筛选出的合成数据集上训练下游模型(此处选用 XGBoost-Cox),并评估其性能。
关键创新在于 样本可信度评分:每个候选样本由七个在真实数据上预训练的生存模型(涵盖 Cox 比例风险、随机生存森林、深度生存模型等)进行评分,评分规则采用生存分析领域的标准指标(如负对数似然、Brier 分数),作为样本“似真性”的代理。
实验结果
研究者在 16 个公开数据集上进行了“在合成数据上训练,在真实数据上测试”的评估,使用 C-index 和 IBS(综合 Brier 分数)作为指标。结果显示:
- FoGS 在 C-index 上平均提升 +2.17,在 IBS 上平均提升 +0.67(指标范围 0–100)。
- 在 9/16 的数据集上两项指标均优于单一生成器,在 13/16 的数据集上至少一项指标提升(单侧 Wilcoxon 检验 p=0.039 和 p=0.035)。
- 在大多数队列中,FoGS 合成数据训练的性能可匹配甚至超越真实数据训练,且 不会显著增加最近邻隐私泄露风险(相比未筛选的合成样本)。
意义与展望
FoGS 的贡献在于将合成数据问题重新定义为 样本选择问题:与其试图训练一个“完美”的生成器,不如利用多个生成器的多样性,并通过真实数据驱动的筛选机制来保证质量。这种方法尤其适用于隐私受限的临床环境——机构可以仅共享合成数据,而保留真实数据不外泄。
当然,该方法也存在局限:它依赖于一个初始的真实数据小样本用于训练评估器,且优化管道计算成本较高。但考虑到临床数据获取的昂贵代价,这种“一次训练、多次复用”的范式仍具有实际价值。
未来,研究团队计划探索更高效的优化算法,并将 FoGS 扩展到其他类型的生存数据(如竞争风险、时变协变量)以及多中心联邦学习场景。