SheepNav
精选今天0 投票

AI 智能体能耗新指标:从单次推理转向“目标成功”计量

当前 AI 能耗基准测试通常以单次模型调用或训练轮次为粒度进行测量。对于传统的单轮工作负载,这种单位尚且合理;但对于智能体(Agentic AI)系统——一个用户目标可能触发多步编排、工具调用、重试甚至失败恢复循环——调用次数已沦为实现细节而非任务属性,基于推理层级的能耗归一化会严重扭曲完成目标的实际能量成本。

来自 arXiv 的最新论文《Energy per Successful Goal: Goal-Level Energy Accounting for Agentic AI Systems》提出了 A-LEMS(Agentic LLM Energy Measurement System),一种跨层测量框架,将 AI 能耗核算单位从“每次推理能耗”重新定义为 “每个成功目标能耗(EpG)”。EpG 聚合所有执行尝试(包括失败与重试)的总工作流能耗,并按成功完成的目标数进行归一化。

A-LEMS 通过四个核心组件实现这一转变:

  • 时间边界模型:明确定义目标级能耗的起止点,避免跨任务干扰;
  • 五层观测管道:将 RAPL(Running Average Power Limit)信号逐层映射到工作流级能耗,实现从硬件到软件的透明溯源;
  • 可重复性协议:将每次测量与硬件配置、运行时环境绑定,确保结果可复现;
  • 编排开销指数(OOI):在相同任务条件下,隔离编排相对于线性执行的能量成本。

实验发现:编排结构是能耗主因

研究团队在 5 种推理任务族3 种工具增强任务族 上进行了系统测试,结果令人瞩目:

  • 智能体工作流的 平均 EpG 为 888.1 焦耳,是线性基线(205.3 焦耳)的 4.33 倍
  • 这种巨大开销并非源于推理计算本身,而是 编排结构 所致——多步决策、工具调用和重试循环显著增加了能耗;
  • 但在工具增强任务中,OOI 降至 1.0 以下,即智能体执行反而比线性执行更节能。这有力证明了 EpG 和 OOI 能够准确捕捉编排结构的影响,而非固定高估。

行业意义与未来方向

这项研究直击当前 AI 可持续性评估的核心痛点。随着 Agentic AI 在软件开发、客户服务、科学研究等领域快速部署,仅关注模型推理能耗已远远不够。每个成功目标的能耗 提供了一个更公平、更实用的基准,帮助开发者优化工作流设计(如减少冗余重试、合并工具调用),而非单纯压榨模型效率。

论文还指出,未来可进一步将 EpG 扩展到多模态智能体、分布式编排等场景,并探索与碳排放核算的结合。对于正在构建复杂 AI 系统的企业而言,这无疑是一份及时的“能耗审计指南”。

延伸阅读

  1. EVE-Agent:可验证证据的自我进化智能体,让AI训练不再“黑箱”
  2. 中介模糊逻辑:从一型基础到二型、三型及量子扩展
  3. ImProver 2:神经符号证明优化的自迭代改进语言模型
查看原文