AI代理间信任测量：形成、破裂与恢复研究

随着大语言模型代理越来越多地以团队形式协作，每个代理都需要判断对队友的信任程度。然而，学界一直缺乏衡量AI代理间信任的标准方法。一项来自arXiv的新研究（论文ID：2606.14923）提出了一种基于代价验证的行为测量框架，通过观察代理是否减少对队友工作的检查来量化信任水平。

实验设计：生存游戏中的信任博弈

研究团队设计了一个合作生存游戏：代理需要依赖队友的答案做出决策，但验证队友的工作会消耗资源，而信任错误答案则可能导致致命后果。通过比较有记忆模型与无记忆版本的验证行为差异，研究者能以“验证减少量”作为信任的观测指标。

关键发现：信任形成与破裂的模型差异

实验覆盖了六个前沿模型快照。当与持续可靠的队友配对时，四个较大模型（Claude Opus 4.6、Claude Sonnet 4.6、GPT-5.1和Gemini 3.1 Pro）将验证频率降低了约60%-85%，表现出明显的信任形成。而两个较小模型则几乎未调整验证行为，显示出信任能力的规模依赖性。

当队友出现失误时，信任迅速破裂，但不同模型的应对策略截然不同：

针对性审查：部分模型将重新聚焦于出错的代理，对其输出进行更严格的验证。
全局警惕：另一些模型则对整个团队产生怀疑，普遍提高验证水平。

信任恢复：缓慢且易受失败模式影响

研究发现，信任恢复比形成慢得多。聚集性失败（连续多次犯错）比分散的相同次数失败更能维持怀疑状态，表明失败的时间分布对信任重建有显著影响。

实际意义：校准优于多疑

形成信任的模型验证更少、决策更快，并在环境中获得更高收益。相反，过度验证与犹豫不决相关，而非更高的安全性。研究结果表明，信任倾向可以在部署前进行测量，并提示校准——而非最大限度的怀疑——应成为多智能体AI系统治理的核心关注点。

AI代理间的信任：形成、破裂与恢复——多智能体系统治理的新视角

实验设计：生存游戏中的信任博弈

关键发现：信任形成与破裂的模型差异

信任恢复：缓慢且易受失败模式影响

实际意义：校准优于多疑

延伸阅读

相关资讯