SheepNav
新上线18天前0 投票

结构化电子健康记录基础模型中的分词权衡

在医疗AI领域,基于结构化电子健康记录(EHR)的基础模型正成为研究热点。这些模型通过对带有时间戳的临床事件序列进行预训练,学习可适应的患者表征。然而,一个常被忽视的关键环节——分词(Tokenization)——即如何将这些时间线转换为离散的模型输入,其设计选择对模型的下游性能和计算效率究竟有何影响,此前却鲜有系统性的探索。

近期,一项发表在arXiv上的研究《Tokenization Tradeoffs in Structured EHR Foundation Models》填补了这一空白。研究团队通过一个因子设计实验,在儿科EHR数据上预训练了一个Transformer模型,系统地改变了分词策略的三个维度:事件编码、时间编码和工作流标注

核心发现:联合编码的显著优势

研究团队在74项临床预测任务上评估了不同分词策略的效果,衡量指标为受试者工作特征曲线下面积(AUROC)。结果发现:

  • 联合事件编码 在73/74项任务中表现最佳。
  • 位置时间编码 在71/74项任务中表现最佳。

更令人惊喜的是,性能的提升并非以牺牲效率为代价。与替代方案相比,联合事件编码减少了39.5% 的预训练浮点运算,位置时间编码则减少了9.6%

优势从何而来?局部绑定效率是关键

为了探究联合编码优势的根源,研究进行了有针对性的消融实验。结果表明,其优势主要源于局部绑定效率。简单来说,联合编码将“代码-属性”对组合成单个令牌,而不是将它们拆分成多个需要模型在预训练期间学习关联的令牌。这大大降低了模型学习的难度,使其能更高效地捕捉临床事件的内在关联。

泛化性与局限性

研究还进行了外部评估,在一个成人重症监护病房队列上测试了模型的泛化能力。结果显示,尽管存在显著的词汇不匹配,联合编码的优势依然能够泛化。这表明,这种分词策略的改进具有一定的普适性。

然而,研究也指出,时间编码和工作流标注带来的效果提升,往往具有机构特异性。这意味着,针对特定医疗机构的数据特点进行时间与工作流信息的编码优化,可能比寻找一个“放之四海而皆准”的方案更为有效。

对医疗AI发展的启示

这项研究的意义在于,它明确地将分词策略确立为一个可操作的杠杆,能够同时提升EHR基础模型的性能和效率。在大型模型训练成本高昂、医疗数据又极其敏感的背景下,通过优化数据表示本身来“事半功倍”,显得尤为重要。

它提醒研究者和开发者,在追逐更复杂的模型架构和更大的数据规模之前,或许应该首先审视数据进入模型的第一步——分词。一个精心设计的分词方案,可能比单纯增加模型参数带来更直接、更经济的性能增益。

未来,如何设计出既能捕捉复杂医疗时序关系,又能跨机构泛化、同时保护患者隐私的分词策略,将是医疗AI模型走向更广泛、更可靠临床应用的关键挑战之一。

延伸阅读

  1. 出差两个月,我让智能花盆自己照顾植物——结果令人惊喜
  2. 如何清理Android手机缓存——以及为何它能显著提升性能
  3. 电工警告:这7种常见家用电器切勿插在延长线上
查看原文