SaFeR-Steer框架：革新多轮MLLM安全对齐，提升AI对话安全

随着多模态大语言模型（MLLM）在多轮对话场景中的广泛应用，其安全风险正变得日益复杂。攻击者可能通过逐步引导视觉-文本历史记录，在长上下文交互中逐步升级不安全意图，并利用模型在长对话中的安全性能衰减。然而，当前主流的安全对齐方法仍严重依赖单轮数据和固定模板对话，导致训练与部署环境之间存在显著不匹配。

SaFeR-Steer 正是为了弥合这一差距而提出的渐进式多轮对齐框架。该框架结合了分阶段的合成引导与“导师在环”的GRPO（Group Relative Policy Optimization）方法，在自适应、按策略的攻击下训练单一学生模型。其核心创新在于：

分阶段合成引导：通过生成式方法构建多轮对抗性对话数据，模拟真实攻击场景，使模型在训练中即暴露于逐步升级的风险模式。
导师在环GRPO：引入反馈动态机制，在训练循环中持续评估和调整策略，实现更精细、更自适应的安全优化。
轨迹级安全奖励（TCSR）：提出一种新的评估机制，利用轨迹最小/平均安全度，将后期轮次的安全失败传播到早期轮次，促使模型从对话伊始就建立更强的防御意识。

数据集与实验验证

研究团队同步发布了 STEER 多轮多模态安全数据集，包含用于监督微调的STEER-SFT（12,934个对话）、用于强化学习的STEER-RL（2,000个对话）以及用于评估的STEER-Bench（3,227个对话），对话轮次覆盖2至10轮，为社区提供了宝贵的研究基准。

在实验部分，研究以 Qwen2.5-VL-3B 和 Qwen2.5-VL-7B 模型为基础进行验证，结果令人印象深刻：

单轮基准测试：3B模型的安全/有用性分数从 48.30/45.86 提升至 81.84/70.77；7B模型从 56.21/60.32 提升至 87.89/77.40。
多轮基准测试：提升更为显著，3B模型从 12.55/27.13 跃升至 55.58/70.27；7B模型从 24.66/46.48 提升至 64.89/72.35。

这些数据表明，SaFeR-Steer不仅大幅提升了模型在单轮和多轮场景下的综合安全性与有用性，更重要的是，它改变了失败模式——将安全漏洞更多地“推后”到对话的后期轮次，并展现出超越单纯模型规模扩展的鲁棒性优势。

行业意义与展望

SaFeR-Steer的出现，标志着MLLM安全研究从静态、单点的对齐向动态、序列化的防御演进。它直击当前安全训练与复杂实际应用脱节的痛点，为构建更能适应真实世界复杂交互的可靠AI助手提供了新的方法论。随着AI助手在客服、教育、创作等涉及多轮、跨模态交互的领域深入部署，此类专注于“演化式安全”的框架将变得至关重要。未来，如何将此类方法扩展到更大规模的模型、更开放的环境，并平衡安全性与模型能力、响应速度之间的关系，将是后续研究的关键方向。

论文与相关资源已公开，为学术界和工业界进一步探索多轮对话安全提供了新的工具与思路。

SaFeR-Steer：通过合成引导与反馈动态进化多轮MLLM安全对齐

延伸阅读

相关资讯