治理行动而非智能体：AI系统机构证明新模型

随着自主AI智能体开始执行临床开药、生产环境软件部署等具有重大且不可逆后果的行动，如何有效治理这些系统成为关键挑战。一篇来自arXiv的新论文提出了一种基于“机构证明”的治理模型，主张不应监控智能体的推理过程，而应要求其在执行高风险行动时提供独立可验证的证据。

论文作者Jakob Salfeld-Nebgen观察到，人类社会机构在治理强大的自主行动者时，并非通过监视其每一步思考，而是依靠独立第三方在关键行动节点进行证明。例如，医生开药需经药房审核，软件部署需经测试和审批。受此启发，作者形式化了这一模式，提出了一个面向AI智能体系统的计算治理框架。

在该模型下，AI智能体保留完全的规划和推理自主权，但对特定高风险行动不拥有执行权限。执行取决于一系列前提条件，每个条件必须由独立的权威来源分别证明，并以加密方式绑定到智能体声明的意图上。最终由确定性策略评估是否满足所有条件。

例如，在软件部署场景中，智能体可以自由设计部署方案，但若要执行代码发布，则需要：代码审查工具的签名证明、测试通过报告、安全扫描结果等。每个证明由不同工具独立生成，并通过加密签名绑定到本次部署意图。只有所有证明都符合预设策略，部署才被允许执行。

所有决策记录被写入一个防篡改日志，可供独立方事后重新验证。这意味着即使智能体的内部推理是黑箱，其行为的外部证据链却是公开可审计的。这既保护了商业机密（不暴露模型权重或训练数据），又满足了监管对可追溯性的要求。

该模型平衡了自主性与安全性：智能体仍可高效探索和决策，但高风险行动被置于多重独立检查之下。作者还提供了概念验证实现，并以软件部署和临床开药为例展示了可行性。

然而，该模型也面临挑战：如何定义“高风险行动”的边界？如何确保证明来源本身的可靠性？以及性能开销问题——每一步关键行动都需要收集和验证多个证明，可能引入延迟。

这项研究为AI治理提供了一种务实的思路：与其试图完全理解或限制AI的思考过程，不如聚焦于可验证的行动凭证。这种“治理行动而非智能体”的范式，可能成为未来自主AI系统安全落地的关键基础设施。

治理行动而非智能体：自治AI系统的新治理模型——机构证明