AI智能体能耗新指标：EpG和OOI详解

当前 AI 能耗基准测试通常以单次模型调用或训练轮次为粒度进行测量。对于传统的单轮工作负载，这种单位尚且合理；但对于智能体（Agentic AI）系统——一个用户目标可能触发多步编排、工具调用、重试甚至失败恢复循环——调用次数已沦为实现细节而非任务属性，基于推理层级的能耗归一化会严重扭曲完成目标的实际能量成本。

来自 arXiv 的最新论文《Energy per Successful Goal: Goal-Level Energy Accounting for Agentic AI Systems》提出了 A-LEMS（Agentic LLM Energy Measurement System），一种跨层测量框架，将 AI 能耗核算单位从“每次推理能耗”重新定义为 “每个成功目标能耗（EpG）”。EpG 聚合所有执行尝试（包括失败与重试）的总工作流能耗，并按成功完成的目标数进行归一化。

A-LEMS 通过四个核心组件实现这一转变：

时间边界模型：明确定义目标级能耗的起止点，避免跨任务干扰；
五层观测管道：将 RAPL（Running Average Power Limit）信号逐层映射到工作流级能耗，实现从硬件到软件的透明溯源；
可重复性协议：将每次测量与硬件配置、运行时环境绑定，确保结果可复现；
编排开销指数（OOI）：在相同任务条件下，隔离编排相对于线性执行的能量成本。

实验发现：编排结构是能耗主因

研究团队在 5 种推理任务族 和 3 种工具增强任务族 上进行了系统测试，结果令人瞩目：

智能体工作流的 平均 EpG 为 888.1 焦耳，是线性基线（205.3 焦耳）的 4.33 倍；
这种巨大开销并非源于推理计算本身，而是 编排结构 所致——多步决策、工具调用和重试循环显著增加了能耗；
但在工具增强任务中，OOI 降至 1.0 以下，即智能体执行反而比线性执行更节能。这有力证明了 EpG 和 OOI 能够准确捕捉编排结构的影响，而非固定高估。

行业意义与未来方向

这项研究直击当前 AI 可持续性评估的核心痛点。随着 Agentic AI 在软件开发、客户服务、科学研究等领域快速部署，仅关注模型推理能耗已远远不够。每个成功目标的能耗 提供了一个更公平、更实用的基准，帮助开发者优化工作流设计（如减少冗余重试、合并工具调用），而非单纯压榨模型效率。

论文还指出，未来可进一步将 EpG 扩展到多模态智能体、分布式编排等场景，并探索与碳排放核算的结合。对于正在构建复杂 AI 系统的企业而言，这无疑是一份及时的“能耗审计指南”。

AI 智能体能耗新指标：从单次推理转向“目标成功”计量

实验发现：编排结构是能耗主因

行业意义与未来方向

延伸阅读

相关资讯