LOCA: 最小局部因果解释LLM越狱成功的新方法

大型语言模型（LLM）即使经过安全训练，也常能通过越狱提示被诱导回答有害请求。我们对此缺乏稳健的理解，未来在更高风险场景中更自主运行的顶级模型可能同样容易受到此类攻击。此前研究通过检查模型的中间表示，识别出因果性地编码“有害性”和“拒绝”等概念的方向，并全局性地将所有越狱攻击解释为试图减弱或增强这些概念。然而，不同的越狱策略可能通过增强或抑制不同的中间概念来成功，且同一策略对不同有害请求类别（如暴力 vs. 网络攻击）可能无效。因此，我们需要局部解释：为何这一特定越狱成功？

为填补这一空白，研究者提出 LOCA（Local, Causal Explanations）方法，通过识别一组最小、可解释的中间表示变化，这些变化能因果性地在原本成功的越狱请求上诱导模型拒绝。实验在 Gemma 和 Llama 聊天模型上，使用大型越狱基准测试中的有害原始-越狱对进行评估。LOCA 平均只需 6 次可解释的修改 即可成功诱导拒绝，而此前方法在 20 次修改后仍常失败。LOCA 是迈向 LLM 越狱成功机制性、局部解释的一步。代码即将发布。

LOCA：为LLM越狱成功提供最小、局部、因果解释的新方法

延伸阅读

相关资讯