梯度提升结合共形预测:为非酒精性脂肪肝病提供无分布假设的风险评估
非酒精性脂肪肝病(NAFLD)影响着全球约 25% 的成年人,但现有的人群筛查工具准确性不足。近日,一项发表在 arXiv 上的研究提出了一种名为 Method 的机器学习框架,将梯度提升决策树与共形预测相结合,为个体风险评估提供了有校准保证的置信区间,且无需依赖数据分布假设。
方法核心:共形预测 + 特征选择
Method 的核心创新在于两点:一是利用 共形预测(Conformal Prediction) 为每个预测结果生成一个预测集,并保证在用户指定的置信水平下,真实标签落在该集合内的概率至少达到该水平(即边际覆盖保证)。二是引入基于 互信息(Mutual Information) 的稳定性选择过程,通过自助重采样筛选出紧凑且临床可解释的特征子集,最终选定了 腰围、ALT、GGT、甘油三酯、空腹血糖和BMI 这六项指标,与已知的代谢风险因素高度一致。
实验验证:性能超越主流模型
研究团队使用来自中国广州的多中心队列数据进行评估,其中主要训练集包含 2,187 例样本,外部验证集包含 412 例。在 78 个候选特征中,Method 在内部测试集上取得了 0.912 的 AUROC,外部验证集上为 0.891,表现优于深度神经网络、TabNet、支持向量机和逻辑回归等对比模型。在共形预测方面,当名义置信水平设为 90% 时,实际经验覆盖率达到 91.3%,验证了其校准的可靠性。
风险分层:精准识别高危人群
基于预测得分,Method 将人群划分为三个风险层级。其中,高风险亚组的 12 个月疾病进展率 是低风险组的 4.7 倍,显示出该方法在临床风险分层中的实用价值。研究者指出,这一框架不仅可用于 NAFLD 的早期筛查,其方法论也可推广至其他慢性病的风险评估场景。
该研究为 AI 在医疗健康领域的应用提供了一种新思路:在追求预测精度的同时,通过共形预测提供可量化的不确定性估计,从而增强临床决策的可靠性。