SheepNav
精选今天0 投票

视觉语言模型的可靠性到底藏在哪里?注意力、隐藏状态与因果电路的机制研究

一篇来自 ICLR 2026 多模态推理研讨会的最新论文,对视觉语言模型(VLM)领域一个普遍直觉提出了挑战:注意力图越“锐利”,模型就越可靠吗? 答案是否定的。研究者通过统一的机制分析工具 VLM Reliability Probe(VRP),对 LLaVA-1.5、PaliGemma 和 Qwen2-VL 三个开源模型家族(3-7B 参数)进行了系统剖析,发现注意力结构与模型正确性之间几乎不存在相关性(R_pb=0.001),但注意力的因果必要性依然成立——移除最相关的补丁会导致准确率下降 8.2-11.3 个百分点。

那么,可靠性究竟藏在哪里?研究表明,隐藏状态的几何结构才是更可靠的预测指标。通过简单的线性探针,模型在 POPE 基准上的 AUROC 可超过 0.95;而自一致性(Self-consistency, K=10)则是行为层面最强的预测因子(R_pb=0.43),代价是 10 倍推理开销。此外,因果层面的神经元消融实验揭示了不同架构的显著差异:晚期融合的 LLaVA 将可靠性集中在脆弱的最后瓶颈层,移除顶部 5 个探针神经元会导致物体识别准确率下降 8.3 个百分点;而早期融合的 PaliGemma 和 Qwen2-VL 则将可靠性广泛分布,即使移除峰值层约 50% 的隐藏维度,性能下降也不超过 1 个百分点。

这一发现对 VLM 的可靠性监控与部署具有直接启示:与其盯着注意力图,不如关注隐藏状态与后期层电路。论文代码与探针训练管线已开源。

延伸阅读

  1. PLACO:一种面向人机协同的成本效益多阶段框架
  2. SkillLens:自适应多粒度技能复用,让LLM智能体更高效
  3. MemQ:将Q学习融入基于溯源DAG的自演化记忆智能体
查看原文