IMCBench:多模态大模型在图像医疗对话中的新基准
随着大语言模型和视觉-语言模型的飞速发展,AI在临床决策支持和分诊等场景中展现出巨大潜力。然而,现有医疗AI基准测试存在明显碎片化:有的支持多轮对话但不含图像,有的提供多模态输入却只聚焦单轮问答。为填补这一空白,研究团队推出了 IMCBench——一个基于真实临床图像、结合合成患者档案的多轮医疗对话基准,旨在模拟真实的医患互动场景。
多维评估:安全、准确与不确定性管理
IMCBench 的独特之处在于其评估维度。每个对话从三个临床关键角度进行打分:安全性(建议是否可能导致患者伤害)、准确性(诊断与事实的匹配度)以及不确定性管理(模型是否恰当地表达诊断的不确定性)。评分采用 1-5 分制,利用 LLM-as-Jury 方法,并经过临床专家标注校准,确保评估的可靠性。
模型表现:Claude Opus 4.6 领跑,但无全能选手
研究团队对四个模型家族(Claude、GPT、Nova、Llama)中的八款前沿多模态模型进行了基准测试。结果显示,Claude Opus 4.6 以 3.61 的综合得分位居榜首,紧随其后的是 Claude Sonnet 4.6(3.30)和 GPT-5.2(3.29)。然而,没有任何模型在所有维度上占据绝对优势。值得注意的是,所有模型在应对恶性或罕见病症时,安全性得分平均下降 0.27,暴露出当前模型在处理高风险场景时的短板。
消融实验:视觉与电子健康记录(EHR)信息不可或缺
进一步的消融研究表明,移除视觉输入或 EHR 上下文信息后,模型的安全指导能力均出现下滑——安全得分平均分别下降 0.18 和 0.23。更强的模型能更有效地利用视觉特征,但整体而言,准确的临床描述并不等同于安全的患者指导。这一发现强调了在医疗 AI 评估中引入多维框架的必要性,而非仅依赖单一指标。
行业启示:医疗 AI 评估需从“单点”走向“全景”
IMCBench 的出现,为医疗 AI 领域提供了一个更贴近真实诊疗流程的评测工具。它提醒业界:多模态能力不仅仅是“看图说话”,更要在复杂对话中平衡安全、准确与不确定性表达。随着该基准被 ECML PKDD 2026 接收,未来有望推动模型在临床场景中更稳健地落地。