MedFeat：LLM驱动的医疗特征工程框架，提升预测可解释性

在医疗数据分析领域，表格数据预测一直是临床决策支持的关键环节。传统机器学习模型通过特征工程往往能超越复杂的神经网络方法，但特征工程本身高度依赖领域专家知识，过程耗时且难以规模化。随着大语言模型（LLMs）的兴起，将医学知识融入特征工程成为可能，但现有方法大多停留在对预定义变换的广泛搜索上，忽略了下游模型特性和特征重要性信号的指导作用。

MedFeat：模型感知与可解释性驱动的特征工程框架

近日，一篇题为《MedFeat: Model-Aware and Explainability-Driven Feature Engineering with LLMs for Clinical Tabular Prediction》的论文在arXiv上发布，提出了一个名为MedFeat的创新框架。该框架的核心在于反馈驱动和模型感知：它不仅利用LLMs结合领域知识进行推理，生成候选特征，还通过SHAP值提供特征解释，并追踪成功与失败的建议，以引导特征发现过程。

为何需要模型感知？

传统的特征工程方法往往独立于最终使用的预测模型，导致生成的特征可能并非模型最需要或最能有效学习的信号。MedFeat通过模型感知机制，优先考虑那些因下游模型特性（如线性模型的线性假设、树模型的分裂偏好等）而难以直接学习的信息性信号。这意味着，MedFeat能够“理解”模型的学习瓶颈，并针对性地生成补充特征，从而提升整体预测性能。

可解释性如何驱动特征发现？

MedFeat利用SHAP（SHapley Additive exPlanations）值来评估特征的重要性，这不仅为生成的每个特征提供了解释，还形成了一个反馈循环：LLMs根据SHAP分析结果调整后续的特征生成策略，避免重复无效尝试，聚焦于高价值方向。这种可解释性驱动的迭代过程，使得特征工程更加高效和透明。

实际应用与验证

研究团队在广泛的临床预测任务上测试了MedFeat，包括疾病诊断、住院时长预测、ICU患者风险分层等。结果显示，MedFeat在多个基线模型（如逻辑回归、随机森林、梯度提升机）上实现了稳定的性能提升。更重要的是，它发现的特征具有临床意义，例如从电子健康记录中衍生出新的生物标志物组合或时序模式。

泛化能力与鲁棒性

MedFeat生成的临床特征在分布偏移下表现出良好的泛化能力：跨年份数据（如2019年与2020年患者队列）以及从ICU患者到普通住院患者的迁移中，性能保持稳健。这为真实世界部署提供了信心，因为医疗数据常面临人群异质性和时间演变挑战。

对AI医疗领域的启示

MedFeat的出现标志着特征工程正从手工艺术向自动化、智能化演进。它巧妙地将LLMs的知识推理能力与机器学习模型的特性相结合，解决了传统方法的两大痛点：知识整合不足和与模型脱节。在医疗这类高风险的领域，可解释性不仅是监管要求，也是建立临床信任的关键。MedFeat通过SHAP驱动的透明化流程，为“黑箱”AI提供了可审计的路径。

未来，随着更多医疗数据集的开放和LLMs在专业领域的精调，类似MedFeat的框架有望加速临床预测模型的开发，降低对专家经验的依赖，同时提升模型的准确性和可靠性。研究团队表示，实验代码将在遵守数据集协议和机构政策后公开，促进社区验证与扩展。

小结：MedFeat通过模型感知和可解释性驱动，为大语言模型在医疗表格预测中的特征工程应用提供了新范式，兼顾了性能提升与临床可信度，是AI与医疗交叉领域的一次有意义的探索。

MedFeat：基于大语言模型的医疗表格预测新框架，融合模型感知与可解释性特征工程