精选今天0 投票
AI代理间的信任:形成、破裂与恢复——多智能体系统治理的新视角
随着大语言模型代理越来越多地以团队形式协作,每个代理都需要判断对队友的信任程度。然而,学界一直缺乏衡量AI代理间信任的标准方法。一项来自arXiv的新研究(论文ID:2606.14923)提出了一种基于代价验证的行为测量框架,通过观察代理是否减少对队友工作的检查来量化信任水平。
实验设计:生存游戏中的信任博弈
研究团队设计了一个合作生存游戏:代理需要依赖队友的答案做出决策,但验证队友的工作会消耗资源,而信任错误答案则可能导致致命后果。通过比较有记忆模型与无记忆版本的验证行为差异,研究者能以“验证减少量”作为信任的观测指标。
关键发现:信任形成与破裂的模型差异
实验覆盖了六个前沿模型快照。当与持续可靠的队友配对时,四个较大模型(Claude Opus 4.6、Claude Sonnet 4.6、GPT-5.1和Gemini 3.1 Pro)将验证频率降低了约60%-85%,表现出明显的信任形成。而两个较小模型则几乎未调整验证行为,显示出信任能力的规模依赖性。
当队友出现失误时,信任迅速破裂,但不同模型的应对策略截然不同:
- 针对性审查:部分模型将重新聚焦于出错的代理,对其输出进行更严格的验证。
- 全局警惕:另一些模型则对整个团队产生怀疑,普遍提高验证水平。
信任恢复:缓慢且易受失败模式影响
研究发现,信任恢复比形成慢得多。聚集性失败(连续多次犯错)比分散的相同次数失败更能维持怀疑状态,表明失败的时间分布对信任重建有显著影响。
实际意义:校准优于多疑
形成信任的模型验证更少、决策更快,并在环境中获得更高收益。相反,过度验证与犹豫不决相关,而非更高的安全性。研究结果表明,信任倾向可以在部署前进行测量,并提示校准——而非最大限度的怀疑——应成为多智能体AI系统治理的核心关注点。