深思对齐虽深,但不确定性犹存:通过将不安全行为归因于基础模型,在推理时提升安全性
随着大型语言模型(LLM)的广泛应用,模型安全性已成为业界关注的焦点。传统的拒绝训练方法虽然在一定程度上提升了安全性,但其“浅层”特性导致模型在面对复杂推理任务时仍可能产生不安全输出。近期,一项名为“深思对齐”(Deliberative Alignment)的技术试图通过从更强推理模型中蒸馏推理能力,为LLM注入更深层次的安全保障。然而,最新研究揭示,即使经过深思对齐,模型仍可能保留基础模型的不安全行为,这凸显了安全推理中的不确定性。
深思对齐的深层挑战
深思对齐的核心思想是让较小的学生模型学习较大教师模型的推理模式,从而提升安全性和通用能力。研究团队在实验中使用了7种教师模型和6种学生模型,覆盖不同类别和规模。他们发现,尽管教师模型在模型规模和安全性能力上更强,但学生模型与教师模型之间仍存在“对齐鸿沟”。这一鸿沟不仅影响学生模型的安全性,还对其通用效用产生负面影响。
更关键的是,研究显示,即使学生模型学会了教师模型的推理模式,它们仍可能保留基础模型中的不安全行为。这表明,单纯依赖推理蒸馏无法完全消除模型的内在风险,安全对齐的深度仍有局限。
不安全行为的归因与缓解
基于上述观察,研究团队提出了一种名为BoN采样方法的新技术。该方法的核心是将不安全行为归因于基础LLM的潜在空间,通过降级不安全响应来提升模型安全性。具体而言,BoN采样在潜在空间中识别并归因不安全行为,从而在推理时主动抑制高风险输出。
实验结果表明,该方法在多个安全基准测试中取得了显著成效:
- 在DAN基准上,攻击成功率(ASR)平均降低28.2%
- 在WildJailbreak基准上,ASR平均降低31.3%
- 在StrongREJECT基准上,ASR平均降低35.4%
这些改进在强化学习训练后依然保持,突显了该方法的鲁棒性。
安全推理的不确定性
研究进一步指出,安全推理本身存在不确定性,即使经过深思对齐和BoN采样,模型的安全行为仍可能波动。这种不确定性源于基础模型的固有特性,需要更精细的归因和监控机制。
对AI行业的启示
- 对齐技术的演进:从浅层拒绝训练到深思对齐,再到行为归因,安全对齐技术正逐步向更深层次发展。然而,完全消除风险仍面临挑战。
- 实用性与安全的平衡:BoN采样在提升安全性的同时,尽可能减少对模型效用的损失,这为实际部署提供了可行路径。
- 未来方向:研究强调,安全对齐需更关注基础模型的行为溯源,以及如何在动态环境中维持安全稳定性。
结语
深思对齐为LLM安全提供了新思路,但其深度仍受限于基础模型的不确定性。通过将不安全行为归因于基础模型,BoN采样方法在推理时实现了显著的安全提升,为行业实践提供了重要参考。然而,安全对齐的终极目标——在复杂场景下完全可靠——仍需更多探索。

