scKDGM: KAN动态图掩码学习提升单细胞RNA-seq聚类性能

单细胞RNA测序（scRNA-seq）聚类是识别细胞类型的关键技术，但高维度、稀疏性、数据缺失及技术噪声等问题，使得稳健的基因表达表征和细胞图构建面临巨大挑战。现有方法中，掩码自编码器主要依赖表达恢复进行特征重建，而图聚类方法通常使用固定的KNN图，未能将恢复后的表达信息反馈到图优化中。针对这一痛点，来自中国的研究团队提出了一种名为 scKDGM 的新型框架，将 KAN（Kolmogorov-Arnold Network） 与动态图掩码学习相结合，显著提升了scRNA-seq聚类性能。

核心创新：四步协同机制

scKDGM 的核心设计包含四个环环相扣的模块：

GDP-Mask（图感知分布保持基因掩码）：该模块通过扰动细胞身份信息，在保留数据分布特征的同时生成掩码视图，为后续学习提供高质量的监督信号。
KAN驱动的TAKGCN编码器：引入KAN网络替代传统多层感知机，增强模型对非线性关系的建模能力，从而从掩码视图中提取更鲁棒的细胞表征。
掩码引导的表达恢复与动态图构建：利用恢复后的表达信息动态更新细胞间拓扑结构，打破传统固定KNN图的局限性，使图结构随学习过程持续优化。
跨视图对比学习：将表达恢复信号传递至图拓扑更新中，通过对比学习对齐不同视图的表征，进一步提升聚类一致性。

此外，模型还引入了 ZINB损失函数，专门用于处理scRNA-seq数据中常见的过度离散和零膨胀问题，使重建过程更符合数据生成机制。

性能表现：全面超越10个基线方法

研究团队在 12个真实scRNA-seq数据集 上进行了系统评估，对比了包括传统聚类方法、深度聚类方法及图神经网络方法在内的10种基线模型。结果显示，scKDGM在 平均NMI（归一化互信息） 和 平均ARI（调整兰德指数） 两项关键指标上均取得最优结果，尤其在数据噪声大、细胞类型不平衡的场景下优势更为明显。

行业意义：AI驱动单细胞分析的新范式

scKDGM的提出不仅解决了scRNA-seq聚类中图结构静态化的问题，更展示了 KAN网络在生物信息学中的巨大潜力。KAN通过可学习的激活函数替代固定激活函数，理论上能以更少的参数捕获更复杂的特征交互，这对于高维、稀疏的基因表达数据尤为适用。

该框架的“动态图+掩码学习”思路也为其他单细胞分析任务（如批次校正、轨迹推断）提供了可借鉴的范式。随着单细胞测序技术向大规模、多模态方向演进，scKDGM这类兼具鲁棒性与可解释性的AI工具，将加速细胞图谱构建和疾病机制研究。

局限与展望

尽管实验结果亮眼，论文也指出当前模型在超大规模数据集（百万级细胞）上的计算效率仍有优化空间。未来工作可能聚焦于：

结合图稀疏化技术降低内存开销；
将框架扩展至多模态单细胞数据（如同时整合转录组与染色质可及性数据）。

scKDGM已在arXiv公开，代码预计后续发布。对于从事单细胞分析的研究者而言，这无疑是一个值得关注的新工具。

scKDGM：基于KAN的动态图掩码学习框架，革新单细胞RNA-seq聚类

核心创新：四步协同机制

性能表现：全面超越10个基线方法

行业意义：AI驱动单细胞分析的新范式

局限与展望

延伸阅读

相关资讯