SheepNav
新上线今天0 投票

加速度计衍生的数字生物标志物:面向心脏代谢风险的人群代表性表格基准与不确定性量化

研究背景

结构化表格数据在临床医学中占据主导地位,但现有基准往往无法反映真实世界的特性,如复杂调查抽样、人口统计过采样和子组公平性。一项最新研究提出了NHANES加速度计心脏代谢基准,旨在填补这一空白。该基准基于2003-2006年NHANES数据,包含1,381名成年人的髋部加速度计数据、空腹实验室生物标志物、膳食摄入和人体测量学指标。

核心方法

研究评估了三种表格学习方法——岭回归、XGBoost和基础模型TabPFN v2——用于从活动表型和生活方式协变量预测糖化血红蛋白(HbA1c)、空腹甘油三酯和C反应蛋白(CRP)。结果如下:

  • TabPFN v2整体表现最佳:HbA1c的R²为0.156,CRP的R²为0.383。
  • 甘油三酯(R² < 0.05)基本不可预测,这与已知的遗传主导性一致。

不确定性量化与公平性

研究进一步应用分裂共形预测生成无分布的90%预测区间,并评估了性别和种族/民族子组的覆盖公平性。主要发现:

  • CRP和HbA1c的边缘覆盖率接近90%目标,但甘油三酯低于目标。
  • 子组层面出现局部覆盖不足(例如,墨西哥裔美国参与者的HbA1c),揭示了边缘保证与临床公平所需条件覆盖之间的差距。

意义与展望

这项研究为数字生物标志物在心脏代谢风险预测中的实际应用提供了重要基准。它不仅强调了基础模型在表格数据中的潜力,还指出了公平性评估的必要性——尤其是在多样化人群中。代码和数据已公开,可于此处获取(具体链接请参考原文)。

小结

该基准是首个整合加速度计数据、复杂抽样设计和不确定性量化的人口代表性临床表格基准。未来工作可进一步探索模型校准与子组公平性改进,推动数字生物标志物从研究走向临床落地。

延伸阅读

  1. 可预测的GRPO:训练动力学的闭合形式模型
  2. ReactionAtlas:机器学习从头探索化学反应网络
  3. 层级全局注意力(HGA):无需重训即可扩展长上下文Transformer,单卡RTX 5090运行64K token
查看原文