IMCBench：多模态大模型医疗对话新基准

随着大语言模型和视觉-语言模型的飞速发展，AI在临床决策支持和分诊等场景中展现出巨大潜力。然而，现有医疗AI基准测试存在明显碎片化：有的支持多轮对话但不含图像，有的提供多模态输入却只聚焦单轮问答。为填补这一空白，研究团队推出了 IMCBench——一个基于真实临床图像、结合合成患者档案的多轮医疗对话基准，旨在模拟真实的医患互动场景。

多维评估：安全、准确与不确定性管理

IMCBench 的独特之处在于其评估维度。每个对话从三个临床关键角度进行打分：安全性（建议是否可能导致患者伤害）、准确性（诊断与事实的匹配度）以及不确定性管理（模型是否恰当地表达诊断的不确定性）。评分采用 1-5 分制，利用 LLM-as-Jury 方法，并经过临床专家标注校准，确保评估的可靠性。

模型表现：Claude Opus 4.6 领跑，但无全能选手

研究团队对四个模型家族（Claude、GPT、Nova、Llama）中的八款前沿多模态模型进行了基准测试。结果显示，Claude Opus 4.6 以 3.61 的综合得分位居榜首，紧随其后的是 Claude Sonnet 4.6（3.30）和 GPT-5.2（3.29）。然而，没有任何模型在所有维度上占据绝对优势。值得注意的是，所有模型在应对恶性或罕见病症时，安全性得分平均下降 0.27，暴露出当前模型在处理高风险场景时的短板。

消融实验：视觉与电子健康记录（EHR）信息不可或缺

进一步的消融研究表明，移除视觉输入或 EHR 上下文信息后，模型的安全指导能力均出现下滑——安全得分平均分别下降 0.18 和 0.23。更强的模型能更有效地利用视觉特征，但整体而言，准确的临床描述并不等同于安全的患者指导。这一发现强调了在医疗 AI 评估中引入多维框架的必要性，而非仅依赖单一指标。

行业启示：医疗 AI 评估需从“单点”走向“全景”

IMCBench 的出现，为医疗 AI 领域提供了一个更贴近真实诊疗流程的评测工具。它提醒业界：多模态能力不仅仅是“看图说话”，更要在复杂对话中平衡安全、准确与不确定性表达。随着该基准被 ECML PKDD 2026 接收，未来有望推动模型在临床场景中更稳健地落地。

IMCBench：多模态大模型在图像医疗对话中的新基准

延伸阅读

相关资讯