精选今天0 投票
更少上下文,更优智能体:面向长周期工具调用 LLM 的高效上下文工程
大型语言模型(LLM)以自主智能体形式部署于企业工作流时,常因企业系统冗长的工具响应导致上下文溢出、状态过期错误及高昂推理成本。针对这一问题,一项来自微软 Dynamics 365 团队的新研究提出了高效上下文工程策略,在 GPT-5 和 Claude Sonnet 4.5 上验证了“少即是多”的可行性。
问题背景:上下文爆炸拖累智能体
在企业自动化场景中,LLM 智能体需调用大量工具(如查询数据库、填写表单),每次调用返回的详细响应会迅速填满上下文窗口。这不仅造成 token 浪费,更关键的是,过长的历史记录可能包含过时状态,导致智能体基于错误信息做出决策。以费用报销明细化任务为例,智能体需要从酒店账单中逐项提取并归类费用,涉及多轮工具交互。
实验设计:四种上下文策略对比
研究团队在 50 个酒店费用任务基准上测试了四种 GPT-5 配置:
- 无用户模型:完全不保留历史交互(基线)
- 完整历史:保留全部对话与工具响应
- 修剪至最近 5 轮:仅保留最后 5 次工具调用/响应对
- 修剪+自动摘要:在修剪基础上,对历史进行自动摘要
关键发现:精简上下文显著提升性能
结果令人惊讶:
- 无用户模型基线仅完成 8.0% 的完整明细化任务,表明上下文对任务至关重要。
- 完整历史将完成率提升至 71.0%,但代价是消耗 1,480,996 tokens 和 14.56 小时。
- 修剪至最近 5 轮不仅完成率升至 79.0%,token 使用降至 535,274,运行时间缩至 5.39 小时。
- 修剪+摘要方案表现最佳:完成率 91.6%,平均金额明细化率达 99.64%,token 使用 553,374,时间 5.79 小时。
方法论深度:为何“少”更有效?
论文进一步通过置信区间、效应量分析、敏感性测试和失败分析验证了结果。关键洞察在于:企业工具调用具有 局部性——最新几轮交互足以反映当前状态,而早先的历史往往已过时。自动摘要能压缩冗余信息,保留关键上下文,避免智能体被“噪声”干扰。
跨模型验证与分类结果
研究在 Claude Sonnet 4.5 上复现了类似趋势,表明该策略具有模型无关性。按费用类型分组(如餐饮、住宿、杂项)分析显示,修剪+摘要策略在所有类别上均优于完整历史,尤其在复杂多步骤任务上优势更显著。
行业启示:上下文工程成为新方向
随着 LLM 智能体进入生产环境,上下文管理不再是“多即是好”。这项研究提示开发者:
- 默认丢弃:不要保留全部历史,优先保留最近工具交互。
- 智能压缩:使用摘要而非截断,平衡信息保留与成本。
- 任务适配:根据工具调用频率和状态变化速度调整窗口大小。
对于构建企业级 AI 助手的团队,这项研究提供了一个可立即落地的优化方向:通过简单的上下文修剪与摘要,即可实现更可靠、更经济的智能体。