FoGS：用过滤式生成器混合体实现全合成生存训练数据

在临床研究中，生存分析模型常因数据稀缺而受限：事件需多年随访才能累积，队列规模小，且隐私法规禁止机构间数据共享。表格生成模型虽能通过合成数据实现扩增和隐私保护，但其本身同样依赖大量数据——在小样本生存分析场景下，单一生成器几乎无法充分刻画人群分布，导致下游模型性能远不及真实数据训练。

为了解决这一矛盾，米兰理工大学的研究团队提出了 FoGS（Filtered Mixture-of-Generators for Survival analysis），一种将合成数据构建从“生成”转向“样本筛选”的新框架。FoGS 的核心思路是：先由多个架构不同的生成器共同产生一个候选样本池，再通过一套基于真实数据训练的评估系统，筛选出最“可信”的样本用于下游训练。

如何运作？

FoGS 的流程分为两层：

候选池生成：使用四种架构各异的表格生成器（如 VAE、GAN、扩散模型等）分别生成大量合成样本，形成混合候选池。
两级优化管道：
- 外循环：优化一个“选择策略”，包括各生成器的配额、评估器权重、随机补充比例以及事件时间和删失状态的分层平衡。该策略以在下游模型上的真实数据测试性能为优化目标。
- 内循环：在筛选出的合成数据集上训练下游模型（此处选用 XGBoost-Cox），并评估其性能。

关键创新在于 样本可信度评分：每个候选样本由七个在真实数据上预训练的生存模型（涵盖 Cox 比例风险、随机生存森林、深度生存模型等）进行评分，评分规则采用生存分析领域的标准指标（如负对数似然、Brier 分数），作为样本“似真性”的代理。

实验结果

研究者在 16 个公开数据集上进行了“在合成数据上训练，在真实数据上测试”的评估，使用 C-index 和 IBS（综合 Brier 分数）作为指标。结果显示：

FoGS 在 C-index 上平均提升 +2.17，在 IBS 上平均提升 +0.67（指标范围 0–100）。
在 9/16 的数据集上两项指标均优于单一生成器，在 13/16 的数据集上至少一项指标提升（单侧 Wilcoxon 检验 p=0.039 和 p=0.035）。
在大多数队列中，FoGS 合成数据训练的性能可匹配甚至超越真实数据训练，且 不会显著增加最近邻隐私泄露风险（相比未筛选的合成样本）。

意义与展望

FoGS 的贡献在于将合成数据问题重新定义为 样本选择问题：与其试图训练一个“完美”的生成器，不如利用多个生成器的多样性，并通过真实数据驱动的筛选机制来保证质量。这种方法尤其适用于隐私受限的临床环境——机构可以仅共享合成数据，而保留真实数据不外泄。

当然，该方法也存在局限：它依赖于一个初始的真实数据小样本用于训练评估器，且优化管道计算成本较高。但考虑到临床数据获取的昂贵代价，这种“一次训练、多次复用”的范式仍具有实际价值。

未来，研究团队计划探索更高效的优化算法，并将 FoGS 扩展到其他类型的生存数据（如竞争风险、时变协变量）以及多中心联邦学习场景。

FoGS：用过滤式生成器混合体实现全合成生存训练数据

如何运作？

实验结果

意义与展望

延伸阅读

相关资讯