新上线今天0 投票
Geometry-Lite:通过逐层边际几何实现可解释的LLM安全探测
大型语言模型(LLM)的安全探测通常使用隐藏状态表示来区分安全与不安全的提示,但高性能的平均检测指标并未揭示这种分离背后的几何结构。最新研究《Geometry-Lite: Interpretable Safety Probing via Layer-Wise Margin Geometry》提出了一种轻量级探测方法,通过分析逐层边际几何特征,为LLM安全信号的形成机制提供了全新视角。
核心方法:从层间运动到位置几何
Geometry-Lite将每一层最后的提示token表示映射为三类读出器下的带符号边际:质心、局部邻域和有监督线性边界。随后,它通过边界位置、层间变化和粗略形状来总结边际轮廓。这种设计旨在回答三个关键问题:安全证据如何跨层形成?哪些几何特征支持低误报决策?哪些几何偏差在基准迁移下保持稳定?
关键发现:边界位置几何是主导因素
实验覆盖了9个指令微调模型(参数规模从12亿到700亿)和7个安全基准。结果显示,安全证据主要通过持久的边界位置几何表达:最终或极值边际以及不安全侧的层占用率主导了聚合检测性能。相比之下,有限差分漂移和结构摘要对整体AUROC贡献甚微,尽管漂移在低误报率阈值下能提供小幅的召回导向修正。
基准迁移下的几何偏差
在基准迁移场景下,优化的线性边界在训练混合集上表现尖锐,而类条件均值几何在预定义的困难保留子集上更可靠地保持了分离能力。这表明,提示级安全证据主要不是层间运动信号,而是一种持久的逐层边际几何,其有用组件和读出器级偏差在决策关键场景中变得可见。
意义与展望
Geometry-Lite不仅提供了可解释的安全探测工具,还揭示了LLM安全机制的本质:安全信号并非动态变化,而是静态的几何结构。这一发现为设计更鲁棒、可解释的安全系统指明了方向,同时也挑战了依赖层间动态的现有假设。未来,该方法可扩展到多语言模型和更复杂的攻击场景。