scKDGM:基于KAN的动态图掩码学习框架,革新单细胞RNA-seq聚类
单细胞RNA测序(scRNA-seq)聚类是识别细胞类型的关键技术,但高维度、稀疏性、数据缺失及技术噪声等问题,使得稳健的基因表达表征和细胞图构建面临巨大挑战。现有方法中,掩码自编码器主要依赖表达恢复进行特征重建,而图聚类方法通常使用固定的KNN图,未能将恢复后的表达信息反馈到图优化中。针对这一痛点,来自中国的研究团队提出了一种名为 scKDGM 的新型框架,将 KAN(Kolmogorov-Arnold Network) 与动态图掩码学习相结合,显著提升了scRNA-seq聚类性能。
核心创新:四步协同机制
scKDGM 的核心设计包含四个环环相扣的模块:
- GDP-Mask(图感知分布保持基因掩码):该模块通过扰动细胞身份信息,在保留数据分布特征的同时生成掩码视图,为后续学习提供高质量的监督信号。
- KAN驱动的TAKGCN编码器:引入KAN网络替代传统多层感知机,增强模型对非线性关系的建模能力,从而从掩码视图中提取更鲁棒的细胞表征。
- 掩码引导的表达恢复与动态图构建:利用恢复后的表达信息动态更新细胞间拓扑结构,打破传统固定KNN图的局限性,使图结构随学习过程持续优化。
- 跨视图对比学习:将表达恢复信号传递至图拓扑更新中,通过对比学习对齐不同视图的表征,进一步提升聚类一致性。
此外,模型还引入了 ZINB损失函数,专门用于处理scRNA-seq数据中常见的过度离散和零膨胀问题,使重建过程更符合数据生成机制。
性能表现:全面超越10个基线方法
研究团队在 12个真实scRNA-seq数据集 上进行了系统评估,对比了包括传统聚类方法、深度聚类方法及图神经网络方法在内的10种基线模型。结果显示,scKDGM在 平均NMI(归一化互信息) 和 平均ARI(调整兰德指数) 两项关键指标上均取得最优结果,尤其在数据噪声大、细胞类型不平衡的场景下优势更为明显。
行业意义:AI驱动单细胞分析的新范式
scKDGM的提出不仅解决了scRNA-seq聚类中图结构静态化的问题,更展示了 KAN网络在生物信息学中的巨大潜力。KAN通过可学习的激活函数替代固定激活函数,理论上能以更少的参数捕获更复杂的特征交互,这对于高维、稀疏的基因表达数据尤为适用。
该框架的“动态图+掩码学习”思路也为其他单细胞分析任务(如批次校正、轨迹推断)提供了可借鉴的范式。随着单细胞测序技术向大规模、多模态方向演进,scKDGM这类兼具鲁棒性与可解释性的AI工具,将加速细胞图谱构建和疾病机制研究。
局限与展望
尽管实验结果亮眼,论文也指出当前模型在超大规模数据集(百万级细胞)上的计算效率仍有优化空间。未来工作可能聚焦于:
- 结合图稀疏化技术降低内存开销;
- 将框架扩展至多模态单细胞数据(如同时整合转录组与染色质可及性数据)。
scKDGM已在arXiv公开,代码预计后续发布。对于从事单细胞分析的研究者而言,这无疑是一个值得关注的新工具。