Verifiable Transformers：用求解器验证Transformer电路解释

可解释性研究在AI领域日益重要，但现有方法多依赖示例、消融实验和人工推理来验证对模型内部电路的解释，缺乏严格证明。最新研究论文《Towards Verifiable Transformers: Solver-Checkable Circuit Explanations》提出了一种新框架，将Transformer电路转化为求解器可检查的有界命题，从而实现对电路功能的正式验证。

核心思路：用SMT求解器验证电路

该框架名为Verifiable Transformers，其核心思路是：针对特定行为、有限任务域和候选token投影，提取任务电路，然后利用SMT（可满足性模理论）求解器验证多种属性，包括投影功能等价性、边必要性、任务相关不变性和最终残差鲁棒性。

当电路中包含难以精确或高效编码的算子时，研究者提出替代中介验证方法：先训练一个SMT可编码的替代模型，在有限域上验证其与原始电路的一致性，再对替代模型进行符号验证。这种方法扩展了验证的适用范围。

实验验证：从符号任务到GPT-2规模

论文在两类场景中验证了框架的有效性：

小规模符号序列任务：训练了一个使用Signed L1 BandNorm、sparsemax注意力和LeakyReLU的GPT风格Transformer，并提取了用于引号闭合和括号类型追踪的稀疏电路。通过直接SMT编码，成功穷举验证了投影功能等价性、内容不变性、边必要性和最终残差鲁棒性。
GPT-2规模：相同算子堆栈在OpenWebText上稳定训练，但直接SMT验证仍不可行。然而，通过替代中介验证，研究者对难以编码的注意力电路进行了验证，既得到了可证明的符号解释，也发现了求解器生成的反例。

意义与局限

该工作的目标并非对完整模型进行验证，而是提供一条具体路径，将机制性电路解释转化为可证明或可反驳的形式化命题。这弥补了“找到合理电路”与“证明电路功能”之间的鸿沟。

当前局限在于：直接SMT验证仅适用于小规模模型和特定算子组合；替代中介验证虽然扩展了适用性，但替代模型的训练和验证本身也需额外成本。不过，该方法为AI可解释性提供了更严谨的数学基础，有望推动安全关键场景下Transformer的可信应用。

迈向可验证Transformer：用求解器验证电路解释的正确性

核心思路：用SMT求解器验证电路

实验验证：从符号任务到GPT-2规模

意义与局限

延伸阅读

相关资讯