SheepNav
新上线今天0 投票

信息性缺失:扩散模型生成不规则临床时间序列的新方法

电子健康记录中的实验室检测数据往往采集不规律,而检测的缺失本身可能蕴含着与测量值同等重要的信息。近日,一项发表在 arXiv 上的研究提出了一种基于扩散模型的新方法,能够联合建模实验室检测值及其观察模式,从而生成更真实的临床时间序列数据。

研究背景与核心问题

在临床实践中,医生决定何时进行某项实验室检测——例如,病情稳定的患者可能检测频率较低,而危重患者则可能接受更密集的监测。这种检测的“缺失”并非随机,而是反映了临床决策和患者生理状态。传统方法通常将缺失值视为预处理中的噪声或插补对象,但这样做会丢失缺失模式本身所携带的信息。该研究试图将缺失模式作为模型的一部分,直接捕捉其与生理指标之间的关联。

方法:扩散模型联合建模

研究团队基于 TimeDiff 框架进行扩展,设计了一个能够同时处理连续实验室值和离散缺失模式的扩散模型。模型使用 MIMIC-III 数据库中的 DACMI 基准数据集,将检测时间对齐到 4 小时间隔,并将每次住院分割为 7 天窗口。每个时间点的数据包含一个实验室值和对应的观察指示器(0/1,表示是否在该时间点进行了检测)。通过互补的扩散目标函数,模型学习值分布和缺失模式的联合分布。

实验结果与意义

实验结果显示,生成的数据在单个实验室值分布以及“值-缺失”联合嵌入空间上,均与真实患者轨迹高度吻合。这表明扩散模型能够捕捉临床实践中 非随机缺失 条件下的生理-检测行为依赖关系。研究者指出,这项工作可作为开发临床基础模型的初始组件——通过生成保留关键生理-缺失关系的合成先验,为后续训练 先验数据拟合网络 提供基础,从而充分利用信息性缺失模式。

行业背景与展望

在医疗 AI 领域,如何处理不规则时间序列中的缺失数据一直是个难题。传统插补方法可能引入偏差,而忽略缺失模式则损失临床洞察。该研究将缺失视为“信号”而非“噪声”,为电子健康记录的数据生成、模型预训练和下游任务(如预后预测)提供了新思路。未来工作在更大规模数据上的验证,有望推动临床决策支持系统更准确地模拟真实医疗场景。

延伸阅读

  1. 噪声驱动亚稳态逃逸:深度学习“顿悟”现象背后的物理机制
  2. 远程单次条纹投影轮廓测量中的形状先验捷径:诊断与修复
  3. MODE:面向MoE多模态大模型的模态分解专家级混合精度量化方法
查看原文