无监督学习结构连接组中的采集变异性:混合潜在空间建模新突破
扩散磁共振成像(dMRI)的结构连接组分析长期受困于跨站点、扫描仪和协议带来的采集变异性。传统降维方法将所有变异视为连续,导致采集效应与生物变异混杂。近期混合潜在空间模型尝试结合离散与连续成分,但需手动调节容量。本文提出一种无监督框架,通过架构退火(architectural annealing)自适应平衡离散与连续潜在变量,无需手动调参。研究基于7,416个结构连接组(年龄2-102岁,13项研究,25种采集参数组合),对比标准VAE、PCA+k-means及损失退火混合模型。结果显示,架构退火在站点识别上取得ARI=0.53(p<0.05),显著优于基线。该工作为dMRI数据中分离采集效应与生物变异提供了有效无监督机制,有望提升多中心神经影像研究的可重复性。
背景:连接组分析中的采集变异性挑战
多中心dMRI研究因硬件、序列和协议差异引入系统性变异。传统方法如PCA、VAE将所有变异映射到连续空间,难以区分“真正”的生物差异与采集噪声。混合潜在空间模型(如离散+连续变量)可分别建模类别效应(如站点)与连续效应(如年龄),但离散成分的容量需手动设定,限制了实用性。
方法:架构退火实现自适应平衡
作者提出无监督混合模型,核心创新在于编码器输出退火:在训练过程中逐步调整编码器输出的“温度”参数,使模型从完全连续表示过渡到离散与连续混合。相比仅通过损失函数退火(如β-VAE),架构退火更直接地控制潜在空间的拓扑结构。模型使用变分自编码器(VAE)框架,离散成分采用Gumbel-Softmax分布,连续成分采用高斯分布。
实验:大规模多中心数据集验证
数据集包含7,416个结构连接组,来自13项研究,覆盖25种独特采集参数组合。参与者年龄2-102岁,包括5,900名认知正常、**877名轻度认知障碍(MCI)和639名阿尔茨海默病(AD)患者。评估指标采用调整兰德指数(ARI)**衡量站点聚类准确率。
结果:显著优于基线方法
架构退火模型在站点识别上达到ARI=0.53(p<0.05),优于标准VAE(ARI=0.21)、PCA+k-means(ARI=0.35)及仅损失退火的混合模型(ARI=0.42)。进一步分析显示,离散成分成功捕捉了采集参数(如b值、方向数)的类别差异,而连续成分保留了年龄、疾病状态等生物变异。
意义与展望
该工作为多中心dMRI标准化提供了新思路:无需手动标注采集参数,即可无监督分离采集变异。未来可扩展至其他模态(如fMRI),或与纵向研究结合,提升跨站点生物标志物检测的可靠性。