SheepNav
新上线今天0 投票

当安全几何结构崩塌:智能体防护模型在微调中的脆弱性

一篇即将发表于 AAAI 2026 夏季研讨会系列的论文揭示了一个令人不安的现象:在完全良性的数据上微调防护模型,可能导致其安全对齐彻底失效——这并非通过对抗性攻击,而是通过常规的领域专业化过程。

来自多所大学的研究团队对三类主流安全分类器——LlamaGuard、WildGuard 和 Granite Guardian——进行了系统测试。这些模型通常作为智能体 AI 管线中的保护层部署,负责拦截有害输出。然而,研究发现,即使在微调中仅使用无害数据,这些模型的安全边界也会逐渐崩溃。

安全几何结构的消解

论文的核心发现是:微调破坏了模型的“潜在安全几何结构”——即隐空间中区分有害与良性表征的结构化边界。研究团队通过 SVD 分解类条件激活差异,逐层提取安全子空间,并追踪其在微调中的演化。结果触目惊心:

  • Granite Guardian 完全崩溃,拒绝率从 85% 骤降至 0%,CKA(表征相似度指标)归零,100% 的输出变得模糊
  • 这种脆弱性远超此前在通用大语言模型上的观察,研究者将其归因于专业化假设:安全表征越集中、越高效,就越容易因领域偏移而灾难性失效。

从破坏到修复:FW-SSR 正则化方法

为应对这一风险,团队提出了 Fisher 加权安全子空间正则化(FW-SSR)。该方法在训练时引入两项惩罚:

  1. 曲率感知方向权重:基于对角 Fisher 信息矩阵,识别对安全分类关键的方向。
  2. 自适应 λt:根据任务梯度与安全梯度的冲突程度动态调整正则化强度。

实验结果表明,FW-SSR 能够有效恢复安全性能:

  • Granite Guardian 的拒绝率回升至 75%,CKA 达到 0.983
  • WildGuard 的攻击成功率降至 3.6%,甚至优于未经微调的基线模型——原因在于 FW-SSR 并非简单地锚定原有边界,而是主动锐化安全子空间。

对智能体部署的启示

研究还指出,结构表征几何指标(如 CKA、Fisher 分数)比简单的位移度量更能预测安全行为。这意味着,在智能体系统的持续部署中,仅监控输出拒绝率远远不够,必须引入几何层面的表征监控。

行业背景与展望

随着 AI 智能体从原型走向生产环境,安全防护模型正成为关键基础设施。然而,这项研究提醒我们:安全对齐并非一劳永逸。即使是看似无害的微调——比如为了让模型适应特定领域术语或格式——也可能意外瓦解精心构建的安全防线。FW-SSR 提供了一种可行的训练时保护机制,但更根本的启示在于:我们需要重新审视安全对齐的鲁棒性,尤其是在持续学习和领域适应场景中。

论文链接:arXiv:2605.02914

延伸阅读

  1. 生成、过滤、控制、重放:LLM强化学习中的推演策略全面综述
  2. Agentic AI 结合混合专家与 LLM,实现 6G 网络智能优化
  3. 延迟、停滞还是崩溃?系统验证错误如何影响RLVR训练效果
查看原文