SheepNav
精选今天0 投票

更少上下文,更优智能体:面向长周期工具调用 LLM 的高效上下文工程

大型语言模型(LLM)以自主智能体形式部署于企业工作流时,常因企业系统冗长的工具响应导致上下文溢出、状态过期错误及高昂推理成本。针对这一问题,一项来自微软 Dynamics 365 团队的新研究提出了高效上下文工程策略,在 GPT-5Claude Sonnet 4.5 上验证了“少即是多”的可行性。

问题背景:上下文爆炸拖累智能体

在企业自动化场景中,LLM 智能体需调用大量工具(如查询数据库、填写表单),每次调用返回的详细响应会迅速填满上下文窗口。这不仅造成 token 浪费,更关键的是,过长的历史记录可能包含过时状态,导致智能体基于错误信息做出决策。以费用报销明细化任务为例,智能体需要从酒店账单中逐项提取并归类费用,涉及多轮工具交互。

实验设计:四种上下文策略对比

研究团队在 50 个酒店费用任务基准上测试了四种 GPT-5 配置:

  • 无用户模型:完全不保留历史交互(基线)
  • 完整历史:保留全部对话与工具响应
  • 修剪至最近 5 轮:仅保留最后 5 次工具调用/响应对
  • 修剪+自动摘要:在修剪基础上,对历史进行自动摘要

关键发现:精简上下文显著提升性能

结果令人惊讶:

  • 无用户模型基线仅完成 8.0% 的完整明细化任务,表明上下文对任务至关重要。
  • 完整历史将完成率提升至 71.0%,但代价是消耗 1,480,996 tokens14.56 小时
  • 修剪至最近 5 轮不仅完成率升至 79.0%,token 使用降至 535,274,运行时间缩至 5.39 小时
  • 修剪+摘要方案表现最佳:完成率 91.6%,平均金额明细化率达 99.64%,token 使用 553,374,时间 5.79 小时

方法论深度:为何“少”更有效?

论文进一步通过置信区间、效应量分析、敏感性测试和失败分析验证了结果。关键洞察在于:企业工具调用具有 局部性——最新几轮交互足以反映当前状态,而早先的历史往往已过时。自动摘要能压缩冗余信息,保留关键上下文,避免智能体被“噪声”干扰。

跨模型验证与分类结果

研究在 Claude Sonnet 4.5 上复现了类似趋势,表明该策略具有模型无关性。按费用类型分组(如餐饮、住宿、杂项)分析显示,修剪+摘要策略在所有类别上均优于完整历史,尤其在复杂多步骤任务上优势更显著。

行业启示:上下文工程成为新方向

随着 LLM 智能体进入生产环境,上下文管理不再是“多即是好”。这项研究提示开发者:

  • 默认丢弃:不要保留全部历史,优先保留最近工具交互。
  • 智能压缩:使用摘要而非截断,平衡信息保留与成本。
  • 任务适配:根据工具调用频率和状态变化速度调整窗口大小。

对于构建企业级 AI 助手的团队,这项研究提供了一个可立即落地的优化方向:通过简单的上下文修剪与摘要,即可实现更可靠、更经济的智能体。

延伸阅读

  1. AI辅助优化下的探索响应性与适应性僵化
  2. Regimes:一种可审计、留出验证的自主改进循环——在LongMemEval上以ActiveGraph验证
  3. 最小化遗传编程:从进化到句法推导的范式转变
查看原文