GAZE框架：让AI像放射科医生一样看片查文献，罕见病诊断准确率提升3倍

当AI学会“反复看片”：GAZE如何让医疗视觉语言模型更像放射科医生

在医学影像分析领域，一个核心差异始终存在：放射科医生会反复审视图像、调整参数、查阅文献，而传统视觉语言模型（VLM）仅通过一次前向传播就生成结果。 这种“一次性”处理方式在处理罕见病时尤其脆弱——模型缺乏针对性知识，也无法像人类一样主动获取信息。

近日，一篇发表于arXiv的论文提出了GAZE（Grounded Agentic Zero-shot Evaluation）框架，试图弥合这一鸿沟。GAZE的核心创新在于赋予医疗VLM“工具调用”能力，使其能够像放射科医生一样迭代工作：使用视图级工具（缩放、窗宽窗位调整、对比度增强、边缘检测）和文献检索工具（基于美国国家医学图书馆的PubMed和Open-i数据库），并记录完整的工具调用轨迹以供审计。

实验数据与关键结果

研究团队在NOVA基准上进行了评估，该基准包含906个脑MRI病例，覆盖281种罕见神经系统疾病。在零样本、无任务微调的条件下，GAZE在病灶定位任务上达到58.2 mAP@0.3 IoU，Top-1诊断准确率为34.9%。值得注意的是，仅结构化提示和模式验证输出就将Gemini 2.0 Flash的基线从20.2提升至29.4 mAP@0.3，表明框架设计本身就是一个关键变量。

罕见病的“逆袭”：工具调用带来不成比例的增益

最引人注目的发现是：工具调用对罕见病理的增益远超常见病。对于训练集中仅出现3次或更少的罕见病，IoU>0.3的病例比例从17%跃升至58%；而对于出现10次以上的常见病，该比例从25%提升至68%。增益与模型参与度正相关：Gemini 3 Flash平均每例调用11.8次工具（Cohen's d=0.79），而Gemini 2.0 Flash仅在8.2%的病例中使用了工具，且无显著收益。

权衡与启示

消融实验揭示了一个有趣的权衡：文献检索在提升诊断准确率的同时，可能损害病灶定位性能。这表明，在医疗VLM评估中必须联合考察诊断、定位和报告生成三项能力，单一指标的提升可能掩盖其他维度的退化。

行业意义

GAZE的提出标志着AI医学影像分析从“端到端黑箱”向“可交互、可审计的智能体”迈出重要一步。它不依赖大规模微调，而是通过工具调用实现零样本能力提升，尤其适合数据稀缺的罕见病场景。未来，这类框架或可集成更多专业工具（如DICOM元数据分析、病理知识图谱），并探索多轮对话与主动学习机制。

一句话总结：GAZE让AI学会“看片查文献”，罕见病诊断准确率提升3倍以上。

GAZE：基于工具调用与文献检索的罕见脑MRI零样本评估框架

当AI学会“反复看片”：GAZE如何让医疗视觉语言模型更像放射科医生

实验数据与关键结果

罕见病的“逆袭”：工具调用带来不成比例的增益

权衡与启示

行业意义

延伸阅读

相关资讯