SheepNav
精选今天0 投票

揭示VLM的可解释故障模式:REVELIO框架助力安全关键应用

视觉语言模型(VLM)凭借强大的推理能力和泛化性,正被部署到自动驾驶、机器人等安全关键领域。然而,这些模型在特定真实场景下可能发生灾难性故障,形成所谓的“故障模式”。最新研究《Revealing Interpretable Failure Modes of VLMs》提出了一种名为 REVELIO 的系统性框架,旨在自动发现并解释这些故障模式,为模型安全改进提供可操作见解。

核心挑战:组合爆炸的搜索空间

故障模式被定义为一组可解释、与领域相关的概念组合,例如“行人靠近”+“恶劣天气”+“夜间”,在该组合下模型会持续输出错误行为。由于概念数量庞大,搜索所有可能的组合在计算上不可行(指数级增长)。REVELIO 通过结合两种搜索策略攻克了这一难题:

  • 多样性感知的波束搜索:高效扫描故障景观,优先覆盖多样化的故障区域,避免陷入局部最优。
  • 高斯过程汤普森采样:在复杂故障模式空间中进行更广泛的探索,平衡已知故障与新故障的发现。

实验发现:自动驾驶与室内机器人中的脆弱性

研究团队在 自动驾驶室内机器人 两个领域对主流VLM进行了测试,揭示了此前未报告的漏洞:

  • 自动驾驶场景:模型在空间定位上表现薄弱,常忽略主要障碍物。例如,当一辆车停在路中央时,模型仍建议继续行驶,导致模拟碰撞。
  • 室内机器人任务:VLM 要么遗漏安全风险(如未检测到地面上的电线),要么过度保守,对无害物体发出误报,降低操作效率。

这些故障并非随机,而是与特定概念组合强相关,例如“低光照+快速移动的物体”或“杂乱环境+小目标”。

意义与未来方向

REVELIO 的价值在于将不可预测的模型错误转化为结构化、可理解的模式。开发者可以据此针对性改进训练数据或模型架构,而不是盲目调参。例如,如果发现模型在“雨天+夜间”下频繁失误,可以补充该场景的训练样本或引入鲁棒性增强模块。

目前框架已开源(arXiv:2605.12674),未来可扩展至更多领域,如医疗影像、工业质检等。随着VLM在安全关键系统中的渗透,REVELIO 这类工具将成为保障可靠性的关键一环。

延伸阅读

  1. CHAL:分层智能体语言议会——将多智能体辩论重塑为信念优化引擎
  2. DisaBench:专为语言模型设计的残障危害参与式评估框架
  3. On the Size Complexity and Decidability of First-Order Progression
查看原文