稀疏自编码器打开EEG基础模型黑箱

从黑箱到可解释：稀疏自编码器如何“翻译”EEG基础模型

脑电图（EEG）基础模型在临床诊断中已取得顶尖表现，但其内部决策机制如同黑箱，严重阻碍了临床信任。近日，来自多所机构的研究团队在预印本中提出了一种基于TopK稀疏自编码器（SAEs） 的机械可解释性框架，系统分析了三种架构迥异的EEG Transformer——SleepFM、REVE和LaBraM。

核心方法：稀疏特征提取与临床标签对齐

研究团队首先在三个模型的嵌入层上训练TopK稀疏自编码器，提取出稀疏特征字典。这些特征随后与临床分类体系（包括异常、年龄、性别、用药等标签）进行对齐，以评估特征的单义性和纠缠程度。通过一种基于字典健康检查的单一超参数流程，该方法可跨架构稳健迁移，无需针对每个模型单独调参。

概念操控揭示三种表征状态

利用概念操控技术，研究者定义了目标与脱靶探针区域指标，量化了操控的选择性。结果显示，模型内部概念存在三种状态：

可选择操控：可以精准增强或抑制特定概念（如病理慢波）。
编码但纠缠：概念虽被编码，但与其他概念深度耦合，无法独立操控。
未编码：模型根本未表征该概念。

关键发现：临床相关的表征缺陷

该框架暴露了重要的表征问题：

“破坏球”干预：某些操控会整体摧毁模型性能，如同在精密仪器中挥舞大锤。
临床纠缠：例如年龄与病理混淆——试图抑制年龄特征时，病理特征也同时被破坏，反之亦然。这种纠缠在临床场景中可能造成误导性诊断。

从潜变量到可解释频谱

为连接神经科学背景，团队设计了一种频谱解码器，将潜空间中的操控映射回EEG的幅度谱。例如，病理慢波抑制和α频段恢复等干预，现在可以被直接解读为具体的频率变化，为临床医生提供了直观的生理学解释。

意义与展望

这项工作首次对多个EEG基础模型进行了系统性的机械可解释性分析，不仅揭示了模型内部表征的共性缺陷，还提供了诊断和修复这些问题的工具。随着EEG基础模型逐步进入临床部署，此类可解释性框架将成为建立医生信任、保障患者安全的必要基石。未来，将这一方法扩展到更多模型和真实临床数据集，并开发自动化的“模型健康检查”工具，将是重要的研究方向。

稀疏自编码器打开EEG基础模型黑箱：临床可解释性新突破