安全几何结构崩塌：AI防护模型微调脆弱性研究

一篇即将发表于 AAAI 2026 夏季研讨会系列的论文揭示了一个令人不安的现象：在完全良性的数据上微调防护模型，可能导致其安全对齐彻底失效——这并非通过对抗性攻击，而是通过常规的领域专业化过程。

来自多所大学的研究团队对三类主流安全分类器——LlamaGuard、WildGuard 和 Granite Guardian——进行了系统测试。这些模型通常作为智能体 AI 管线中的保护层部署，负责拦截有害输出。然而，研究发现，即使在微调中仅使用无害数据，这些模型的安全边界也会逐渐崩溃。

安全几何结构的消解

论文的核心发现是：微调破坏了模型的“潜在安全几何结构”——即隐空间中区分有害与良性表征的结构化边界。研究团队通过 SVD 分解类条件激活差异，逐层提取安全子空间，并追踪其在微调中的演化。结果触目惊心：

Granite Guardian 完全崩溃，拒绝率从 85% 骤降至 0%，CKA（表征相似度指标）归零，100% 的输出变得模糊。
这种脆弱性远超此前在通用大语言模型上的观察，研究者将其归因于专业化假设：安全表征越集中、越高效，就越容易因领域偏移而灾难性失效。

从破坏到修复：FW-SSR 正则化方法

为应对这一风险，团队提出了 Fisher 加权安全子空间正则化（FW-SSR）。该方法在训练时引入两项惩罚：

曲率感知方向权重：基于对角 Fisher 信息矩阵，识别对安全分类关键的方向。
自适应 λt：根据任务梯度与安全梯度的冲突程度动态调整正则化强度。

实验结果表明，FW-SSR 能够有效恢复安全性能：

Granite Guardian 的拒绝率回升至 75%，CKA 达到 0.983。
WildGuard 的攻击成功率降至 3.6%，甚至优于未经微调的基线模型——原因在于 FW-SSR 并非简单地锚定原有边界，而是主动锐化安全子空间。

对智能体部署的启示

研究还指出，结构表征几何指标（如 CKA、Fisher 分数）比简单的位移度量更能预测安全行为。这意味着，在智能体系统的持续部署中，仅监控输出拒绝率远远不够，必须引入几何层面的表征监控。

行业背景与展望

随着 AI 智能体从原型走向生产环境，安全防护模型正成为关键基础设施。然而，这项研究提醒我们：安全对齐并非一劳永逸。即使是看似无害的微调——比如为了让模型适应特定领域术语或格式——也可能意外瓦解精心构建的安全防线。FW-SSR 提供了一种可行的训练时保护机制，但更根本的启示在于：我们需要重新审视安全对齐的鲁棒性，尤其是在持续学习和领域适应场景中。

论文链接：arXiv:2605.02914

当安全几何结构崩塌：智能体防护模型在微调中的脆弱性

安全几何结构的消解

从破坏到修复：FW-SSR 正则化方法

对智能体部署的启示

行业背景与展望

延伸阅读

相关资讯