EHR基础模型分词策略研究：联合编码提升性能与效率

在医疗AI领域，基于结构化电子健康记录（EHR）的基础模型正成为研究热点。这些模型通过对带有时间戳的临床事件序列进行预训练，学习可适应的患者表征。然而，一个常被忽视的关键环节——分词（Tokenization）——即如何将这些时间线转换为离散的模型输入，其设计选择对模型的下游性能和计算效率究竟有何影响，此前却鲜有系统性的探索。

近期，一项发表在arXiv上的研究《Tokenization Tradeoffs in Structured EHR Foundation Models》填补了这一空白。研究团队通过一个因子设计实验，在儿科EHR数据上预训练了一个Transformer模型，系统地改变了分词策略的三个维度：事件编码、时间编码和工作流标注。

核心发现：联合编码的显著优势

研究团队在74项临床预测任务上评估了不同分词策略的效果，衡量指标为受试者工作特征曲线下面积（AUROC）。结果发现：

联合事件编码 在73/74项任务中表现最佳。
位置时间编码 在71/74项任务中表现最佳。

更令人惊喜的是，性能的提升并非以牺牲效率为代价。与替代方案相比，联合事件编码减少了39.5% 的预训练浮点运算，位置时间编码则减少了9.6%。

优势从何而来？局部绑定效率是关键

为了探究联合编码优势的根源，研究进行了有针对性的消融实验。结果表明，其优势主要源于局部绑定效率。简单来说，联合编码将“代码-属性”对组合成单个令牌，而不是将它们拆分成多个需要模型在预训练期间学习关联的令牌。这大大降低了模型学习的难度，使其能更高效地捕捉临床事件的内在关联。

泛化性与局限性

研究还进行了外部评估，在一个成人重症监护病房队列上测试了模型的泛化能力。结果显示，尽管存在显著的词汇不匹配，联合编码的优势依然能够泛化。这表明，这种分词策略的改进具有一定的普适性。

然而，研究也指出，时间编码和工作流标注带来的效果提升，往往具有机构特异性。这意味着，针对特定医疗机构的数据特点进行时间与工作流信息的编码优化，可能比寻找一个“放之四海而皆准”的方案更为有效。

对医疗AI发展的启示

这项研究的意义在于，它明确地将分词策略确立为一个可操作的杠杆，能够同时提升EHR基础模型的性能和效率。在大型模型训练成本高昂、医疗数据又极其敏感的背景下，通过优化数据表示本身来“事半功倍”，显得尤为重要。

它提醒研究者和开发者，在追逐更复杂的模型架构和更大的数据规模之前，或许应该首先审视数据进入模型的第一步——分词。一个精心设计的分词方案，可能比单纯增加模型参数带来更直接、更经济的性能增益。

未来，如何设计出既能捕捉复杂医疗时序关系，又能跨机构泛化、同时保护患者隐私的分词策略，将是医疗AI模型走向更广泛、更可靠临床应用的关键挑战之一。

结构化电子健康记录基础模型中的分词权衡

核心发现：联合编码的显著优势

优势从何而来？局部绑定效率是关键

泛化性与局限性

对医疗AI发展的启示

延伸阅读

相关资讯