SaFeR-Steer:通过合成引导与反馈动态进化多轮MLLM安全对齐
随着多模态大语言模型(MLLM)在多轮对话场景中的广泛应用,其安全风险正变得日益复杂。攻击者可能通过逐步引导视觉-文本历史记录,在长上下文交互中逐步升级不安全意图,并利用模型在长对话中的安全性能衰减。然而,当前主流的安全对齐方法仍严重依赖单轮数据和固定模板对话,导致训练与部署环境之间存在显著不匹配。
SaFeR-Steer 正是为了弥合这一差距而提出的渐进式多轮对齐框架。该框架结合了分阶段的合成引导与“导师在环”的GRPO(Group Relative Policy Optimization)方法,在自适应、按策略的攻击下训练单一学生模型。其核心创新在于:
- 分阶段合成引导:通过生成式方法构建多轮对抗性对话数据,模拟真实攻击场景,使模型在训练中即暴露于逐步升级的风险模式。
- 导师在环GRPO:引入反馈动态机制,在训练循环中持续评估和调整策略,实现更精细、更自适应的安全优化。
- 轨迹级安全奖励(TCSR):提出一种新的评估机制,利用轨迹最小/平均安全度,将后期轮次的安全失败传播到早期轮次,促使模型从对话伊始就建立更强的防御意识。
数据集与实验验证
研究团队同步发布了 STEER 多轮多模态安全数据集,包含用于监督微调的STEER-SFT(12,934个对话)、用于强化学习的STEER-RL(2,000个对话)以及用于评估的STEER-Bench(3,227个对话),对话轮次覆盖2至10轮,为社区提供了宝贵的研究基准。
在实验部分,研究以 Qwen2.5-VL-3B 和 Qwen2.5-VL-7B 模型为基础进行验证,结果令人印象深刻:
- 单轮基准测试:3B模型的安全/有用性分数从 48.30/45.86 提升至 81.84/70.77;7B模型从 56.21/60.32 提升至 87.89/77.40。
- 多轮基准测试:提升更为显著,3B模型从 12.55/27.13 跃升至 55.58/70.27;7B模型从 24.66/46.48 提升至 64.89/72.35。
这些数据表明,SaFeR-Steer不仅大幅提升了模型在单轮和多轮场景下的综合安全性与有用性,更重要的是,它改变了失败模式——将安全漏洞更多地“推后”到对话的后期轮次,并展现出超越单纯模型规模扩展的鲁棒性优势。
行业意义与展望
SaFeR-Steer的出现,标志着MLLM安全研究从静态、单点的对齐向动态、序列化的防御演进。它直击当前安全训练与复杂实际应用脱节的痛点,为构建更能适应真实世界复杂交互的可靠AI助手提供了新的方法论。随着AI助手在客服、教育、创作等涉及多轮、跨模态交互的领域深入部署,此类专注于“演化式安全”的框架将变得至关重要。未来,如何将此类方法扩展到更大规模的模型、更开放的环境,并平衡安全性与模型能力、响应速度之间的关系,将是后续研究的关键方向。
论文与相关资源已公开,为学术界和工业界进一步探索多轮对话安全提供了新的工具与思路。