精选今天0 投票
揭示VLM的可解释故障模式:REVELIO框架助力安全关键应用
视觉语言模型(VLM)凭借强大的推理能力和泛化性,正被部署到自动驾驶、机器人等安全关键领域。然而,这些模型在特定真实场景下可能发生灾难性故障,形成所谓的“故障模式”。最新研究《Revealing Interpretable Failure Modes of VLMs》提出了一种名为 REVELIO 的系统性框架,旨在自动发现并解释这些故障模式,为模型安全改进提供可操作见解。
核心挑战:组合爆炸的搜索空间
故障模式被定义为一组可解释、与领域相关的概念组合,例如“行人靠近”+“恶劣天气”+“夜间”,在该组合下模型会持续输出错误行为。由于概念数量庞大,搜索所有可能的组合在计算上不可行(指数级增长)。REVELIO 通过结合两种搜索策略攻克了这一难题:
- 多样性感知的波束搜索:高效扫描故障景观,优先覆盖多样化的故障区域,避免陷入局部最优。
- 高斯过程汤普森采样:在复杂故障模式空间中进行更广泛的探索,平衡已知故障与新故障的发现。
实验发现:自动驾驶与室内机器人中的脆弱性
研究团队在 自动驾驶 和 室内机器人 两个领域对主流VLM进行了测试,揭示了此前未报告的漏洞:
- 自动驾驶场景:模型在空间定位上表现薄弱,常忽略主要障碍物。例如,当一辆车停在路中央时,模型仍建议继续行驶,导致模拟碰撞。
- 室内机器人任务:VLM 要么遗漏安全风险(如未检测到地面上的电线),要么过度保守,对无害物体发出误报,降低操作效率。
这些故障并非随机,而是与特定概念组合强相关,例如“低光照+快速移动的物体”或“杂乱环境+小目标”。
意义与未来方向
REVELIO 的价值在于将不可预测的模型错误转化为结构化、可理解的模式。开发者可以据此针对性改进训练数据或模型架构,而不是盲目调参。例如,如果发现模型在“雨天+夜间”下频繁失误,可以补充该场景的训练样本或引入鲁棒性增强模块。
目前框架已开源(arXiv:2605.12674),未来可扩展至更多领域,如医疗影像、工业质检等。随着VLM在安全关键系统中的渗透,REVELIO 这类工具将成为保障可靠性的关键一环。