VLM可靠性研究：注意力图不靠谱，隐藏状态才是关键

一篇来自 ICLR 2026 多模态推理研讨会的最新论文，对视觉语言模型（VLM）领域一个普遍直觉提出了挑战：注意力图越“锐利”，模型就越可靠吗？ 答案是否定的。研究者通过统一的机制分析工具 VLM Reliability Probe（VRP），对 LLaVA-1.5、PaliGemma 和 Qwen2-VL 三个开源模型家族（3-7B 参数）进行了系统剖析，发现注意力结构与模型正确性之间几乎不存在相关性（R_pb=0.001），但注意力的因果必要性依然成立——移除最相关的补丁会导致准确率下降 8.2-11.3 个百分点。

那么，可靠性究竟藏在哪里？研究表明，隐藏状态的几何结构才是更可靠的预测指标。通过简单的线性探针，模型在 POPE 基准上的 AUROC 可超过 0.95；而自一致性（Self-consistency, K=10）则是行为层面最强的预测因子（R_pb=0.43），代价是 10 倍推理开销。此外，因果层面的神经元消融实验揭示了不同架构的显著差异：晚期融合的 LLaVA 将可靠性集中在脆弱的最后瓶颈层，移除顶部 5 个探针神经元会导致物体识别准确率下降 8.3 个百分点；而早期融合的 PaliGemma 和 Qwen2-VL 则将可靠性广泛分布，即使移除峰值层约 50% 的隐藏维度，性能下降也不超过 1 个百分点。

这一发现对 VLM 的可靠性监控与部署具有直接启示：与其盯着注意力图，不如关注隐藏状态与后期层电路。论文代码与探针训练管线已开源。

视觉语言模型的可靠性到底藏在哪里？注意力、隐藏状态与因果电路的机制研究

延伸阅读

相关资讯