BOHM:面向复合AI系统的零成本层级归因方法
复合AI系统通过层级化的专业组件路由任务,但传统的归因方法(如Shapley值)要求评估系统在任意组件子集上的表现,这在第三方API、黑盒端点以及集中路由的智能编排器中往往不可行。为此,研究人员提出了一种名为BOHM的新型归因方法,它直接从系统已有的路由权重中提取层级归因树,无需额外计算成本或访问组件内部。BOHM的核心思想是:叶节点的归因值等于从根到叶路径上所有路由权重的乘积,而第k层归因则是深度k节点上的诱导分布。这种方法不仅零边际成本,还能同时提供多分辨率归因,这是传统扁平方法在任何评估预算下都无法实现的。
实验验证
研究者在多个场景中验证了BOHM的有效性。在包含18个LLM、3层层级和880个LiveCodeBench问题的实验中,BOHM与Shapley值的Kendall tau相关系数达到0.928,而Shapley值需要9000倍的联盟评估才能达到0.980。在涉及5个驱动模型、7个基准的智能体研究中,驱动模型倾向于集中路由到一个工具(最高占比中位数0.65),此时BOHM与Shapley的细胞级tau值取决于驱动模型的首选工具是否为经验最优工具(平均+0.22 vs ~+0.01)。在美国人口普查层级(475个叶节点,4层)上,BOHM在每一层都恢复了真实排名(tau最高达0.722)。
理论特性与定位
BOHM满足效率、单调性、对称性和弱抑制性,但不满足Shapley的可加性。作者强调,BOHM应被视为一种互补的归因原语:只要存在路由状态,就能计算多分辨率分解,而它与Shapley值的差异本身也具有诊断价值。当部署的路由器接近最优时,BOHM与Shapley值会收敛。
行业意义
随着复合AI系统(如智能体编排、多模型流水线)的普及,归因问题日益重要。BOHM提供了一种零成本、无需访问组件内部的实用方案,尤其适用于依赖第三方API或黑盒组件的生产环境。它让开发者能够实时监控各组件对最终输出的贡献,而无需承担高昂的计算开销。未来,BOHM可能与Shapley值结合使用:在可评估场景下用Shapley校准,在受限场景下用BOHM快速诊断。