SheepNav
新上线今天0 投票

迈向可验证Transformer:用求解器验证电路解释的正确性

可解释性研究在AI领域日益重要,但现有方法多依赖示例、消融实验和人工推理来验证对模型内部电路的解释,缺乏严格证明。最新研究论文《Towards Verifiable Transformers: Solver-Checkable Circuit Explanations》提出了一种新框架,将Transformer电路转化为求解器可检查的有界命题,从而实现对电路功能的正式验证。

核心思路:用SMT求解器验证电路

该框架名为Verifiable Transformers,其核心思路是:针对特定行为、有限任务域和候选token投影,提取任务电路,然后利用SMT(可满足性模理论)求解器验证多种属性,包括投影功能等价性边必要性任务相关不变性最终残差鲁棒性

当电路中包含难以精确或高效编码的算子时,研究者提出替代中介验证方法:先训练一个SMT可编码的替代模型,在有限域上验证其与原始电路的一致性,再对替代模型进行符号验证。这种方法扩展了验证的适用范围。

实验验证:从符号任务到GPT-2规模

论文在两类场景中验证了框架的有效性:

  1. 小规模符号序列任务:训练了一个使用Signed L1 BandNormsparsemax注意力LeakyReLU的GPT风格Transformer,并提取了用于引号闭合和括号类型追踪的稀疏电路。通过直接SMT编码,成功穷举验证了投影功能等价性、内容不变性、边必要性和最终残差鲁棒性。

  2. GPT-2规模:相同算子堆栈在OpenWebText上稳定训练,但直接SMT验证仍不可行。然而,通过替代中介验证,研究者对难以编码的注意力电路进行了验证,既得到了可证明的符号解释,也发现了求解器生成的反例

意义与局限

该工作的目标并非对完整模型进行验证,而是提供一条具体路径,将机制性电路解释转化为可证明或可反驳的形式化命题。这弥补了“找到合理电路”与“证明电路功能”之间的鸿沟。

当前局限在于:直接SMT验证仅适用于小规模模型和特定算子组合;替代中介验证虽然扩展了适用性,但替代模型的训练和验证本身也需额外成本。不过,该方法为AI可解释性提供了更严谨的数学基础,有望推动安全关键场景下Transformer的可信应用。

延伸阅读

  1. 蛋白质-配体模型真的学会了结合位点,还是仅仅猜对了结合概率?新基准InteractBind揭示真相
  2. LLM-AutoSciLab:大模型驱动的闭环科学发现框架,让AI主动实验探索未知
  3. 隐藏状态隐私存在“空中间”:高斯机制无法兼顾隐私与效用
查看原文