GAZE:基于工具调用与文献检索的罕见脑MRI零样本评估框架
当AI学会“反复看片”:GAZE如何让医疗视觉语言模型更像放射科医生
在医学影像分析领域,一个核心差异始终存在:放射科医生会反复审视图像、调整参数、查阅文献,而传统视觉语言模型(VLM)仅通过一次前向传播就生成结果。 这种“一次性”处理方式在处理罕见病时尤其脆弱——模型缺乏针对性知识,也无法像人类一样主动获取信息。
近日,一篇发表于arXiv的论文提出了GAZE(Grounded Agentic Zero-shot Evaluation)框架,试图弥合这一鸿沟。GAZE的核心创新在于赋予医疗VLM“工具调用”能力,使其能够像放射科医生一样迭代工作:使用视图级工具(缩放、窗宽窗位调整、对比度增强、边缘检测)和文献检索工具(基于美国国家医学图书馆的PubMed和Open-i数据库),并记录完整的工具调用轨迹以供审计。
实验数据与关键结果
研究团队在NOVA基准上进行了评估,该基准包含906个脑MRI病例,覆盖281种罕见神经系统疾病。在零样本、无任务微调的条件下,GAZE在病灶定位任务上达到58.2 mAP@0.3 IoU,Top-1诊断准确率为34.9%。值得注意的是,仅结构化提示和模式验证输出就将Gemini 2.0 Flash的基线从20.2提升至29.4 mAP@0.3,表明框架设计本身就是一个关键变量。
罕见病的“逆袭”:工具调用带来不成比例的增益
最引人注目的发现是:工具调用对罕见病理的增益远超常见病。对于训练集中仅出现3次或更少的罕见病,IoU>0.3的病例比例从17%跃升至58%;而对于出现10次以上的常见病,该比例从25%提升至68%。增益与模型参与度正相关:Gemini 3 Flash平均每例调用11.8次工具(Cohen's d=0.79),而Gemini 2.0 Flash仅在8.2%的病例中使用了工具,且无显著收益。
权衡与启示
消融实验揭示了一个有趣的权衡:文献检索在提升诊断准确率的同时,可能损害病灶定位性能。这表明,在医疗VLM评估中必须联合考察诊断、定位和报告生成三项能力,单一指标的提升可能掩盖其他维度的退化。
行业意义
GAZE的提出标志着AI医学影像分析从“端到端黑箱”向“可交互、可审计的智能体”迈出重要一步。它不依赖大规模微调,而是通过工具调用实现零样本能力提升,尤其适合数据稀缺的罕见病场景。未来,这类框架或可集成更多专业工具(如DICOM元数据分析、病理知识图谱),并探索多轮对话与主动学习机制。
一句话总结:GAZE让AI学会“看片查文献”,罕见病诊断准确率提升3倍以上。