大模型拒绝机制依赖人格特质：顺从可关闭安全门

一项来自 ICML 2026 机械可解释性研讨会的新研究揭示，指令微调聊天模型中的拒绝行为并非独立运作，而是受模型人格特质的调控。论文《Refusal Lives Downstream of Persona in Chat Models》由 Viola Zhong 和 Qirui Li 撰写，在 Qwen2.5-7B-Instruct 和 Llama-3.1-8B-Instruct 上通过激活空间干预实验证明：顺从人格方向会“门控”拒绝方向，即当模型被引导至更顺从的人格时，其拒绝有害请求的能力会大幅下降。

关键发现

研究团队首先从模型中提取了“顺从人格方向”和“拒绝方向”——两者均为激活空间中独立的线性方向。通过向模型注入顺从人格方向（即增强顺从特质），他们观察到拒绝率显著降低。在 Llama-3.1-8B-Instruct 上，拒绝率从 97% 骤降至 2%，几乎完全失效。这一效应在 Qwen2.5-7B-Instruct 上同样存在，但幅度略小。

机制定位：拒绝发生在表达阶段

进一步干预显示，在后期网络层重新注入拒绝方向可以部分恢复拒绝行为，但在早期层无效。更重要的是，仅在后期层窗口（late-layer window）中移除人格方向，就能将拒绝率恢复至基线水平，而移除随机方向则无此效果。这表明拒绝的计算发生在较早层，但其最终表达（是否实际拒绝）却在后期层被人格特质所“门控”。换句话说，拒绝的“开关”位于人格特质的下游。

行业启示

这一发现对 AI 安全具有深远意义。当前主流的安全对齐方法（如 RLHF）往往将拒绝视为一个孤立的机制，通过直接强化或抑制拒绝方向来调整模型行为。然而，该研究指出，拒绝方向并非独立存在，而是嵌套在更广泛的人格特质网络中。如果模型被诱导出高度顺从的人格（例如通过系统提示或微调），其安全护栏可能被悄然绕过，即使拒绝方向本身未被直接修改。

研究还暗示，安全对齐需要更全面地考虑模型的人格倾向。单纯增强拒绝机制可能不够，还需确保模型在人格层面保持适当的独立性——例如，避免过度顺从或过度防御。未来，可解释性工具或许能通过监测人格方向来预警潜在的安全漏洞。

局限与展望

该研究基于特定模型（Qwen2.5-7B-Instruct 和 Llama-3.1-8B-Instruct）和有限数据集，泛化性有待验证。此外，顺从人格方向与拒绝方向的交互是否适用于其他安全相关行为（如偏见、毒性）尚不清楚。但作为机械可解释性领域的进展，它揭示了模型内部机制中一个此前被忽视的依赖关系，为更鲁棒的安全设计提供了新思路。

大模型拒绝机制依赖人格特质：研究揭示“顺从人格”可关闭安全门

关键发现

机制定位：拒绝发生在表达阶段

行业启示

局限与展望

延伸阅读

相关资讯