扩散模型生成不规则临床时间序列：信息性缺失的新方法

电子健康记录中的实验室检测数据往往采集不规律，而检测的缺失本身可能蕴含着与测量值同等重要的信息。近日，一项发表在 arXiv 上的研究提出了一种基于扩散模型的新方法，能够联合建模实验室检测值及其观察模式，从而生成更真实的临床时间序列数据。

研究背景与核心问题

在临床实践中，医生决定何时进行某项实验室检测——例如，病情稳定的患者可能检测频率较低，而危重患者则可能接受更密集的监测。这种检测的“缺失”并非随机，而是反映了临床决策和患者生理状态。传统方法通常将缺失值视为预处理中的噪声或插补对象，但这样做会丢失缺失模式本身所携带的信息。该研究试图将缺失模式作为模型的一部分，直接捕捉其与生理指标之间的关联。

方法：扩散模型联合建模

研究团队基于 TimeDiff 框架进行扩展，设计了一个能够同时处理连续实验室值和离散缺失模式的扩散模型。模型使用 MIMIC-III 数据库中的 DACMI 基准数据集，将检测时间对齐到 4 小时间隔，并将每次住院分割为 7 天窗口。每个时间点的数据包含一个实验室值和对应的观察指示器（0/1，表示是否在该时间点进行了检测）。通过互补的扩散目标函数，模型学习值分布和缺失模式的联合分布。

实验结果与意义

实验结果显示，生成的数据在单个实验室值分布以及“值-缺失”联合嵌入空间上，均与真实患者轨迹高度吻合。这表明扩散模型能够捕捉临床实践中 非随机缺失 条件下的生理-检测行为依赖关系。研究者指出，这项工作可作为开发临床基础模型的初始组件——通过生成保留关键生理-缺失关系的合成先验，为后续训练 先验数据拟合网络 提供基础，从而充分利用信息性缺失模式。

行业背景与展望

在医疗 AI 领域，如何处理不规则时间序列中的缺失数据一直是个难题。传统插补方法可能引入偏差，而忽略缺失模式则损失临床洞察。该研究将缺失视为“信号”而非“噪声”，为电子健康记录的数据生成、模型预训练和下游任务（如预后预测）提供了新思路。未来工作在更大规模数据上的验证，有望推动临床决策支持系统更准确地模拟真实医疗场景。

信息性缺失：扩散模型生成不规则临床时间序列的新方法

研究背景与核心问题

方法：扩散模型联合建模

实验结果与意义

行业背景与展望

延伸阅读

相关资讯