LLM智能体上下文工程：少即是多，效率提升91.6%

大型语言模型（LLM）以自主智能体形式部署于企业工作流时，常因企业系统冗长的工具响应导致上下文溢出、状态过期错误及高昂推理成本。针对这一问题，一项来自微软 Dynamics 365 团队的新研究提出了高效上下文工程策略，在 GPT-5 和 Claude Sonnet 4.5 上验证了“少即是多”的可行性。

问题背景：上下文爆炸拖累智能体

在企业自动化场景中，LLM 智能体需调用大量工具（如查询数据库、填写表单），每次调用返回的详细响应会迅速填满上下文窗口。这不仅造成 token 浪费，更关键的是，过长的历史记录可能包含过时状态，导致智能体基于错误信息做出决策。以费用报销明细化任务为例，智能体需要从酒店账单中逐项提取并归类费用，涉及多轮工具交互。

实验设计：四种上下文策略对比

研究团队在 50 个酒店费用任务基准上测试了四种 GPT-5 配置：

无用户模型：完全不保留历史交互（基线）
完整历史：保留全部对话与工具响应
修剪至最近 5 轮：仅保留最后 5 次工具调用/响应对
修剪+自动摘要：在修剪基础上，对历史进行自动摘要

关键发现：精简上下文显著提升性能

结果令人惊讶：

无用户模型基线仅完成 8.0% 的完整明细化任务，表明上下文对任务至关重要。
完整历史将完成率提升至 71.0%，但代价是消耗 1,480,996 tokens 和 14.56 小时。
修剪至最近 5 轮不仅完成率升至 79.0%，token 使用降至 535,274，运行时间缩至 5.39 小时。
修剪+摘要方案表现最佳：完成率 91.6%，平均金额明细化率达 99.64%，token 使用 553,374，时间 5.79 小时。

方法论深度：为何“少”更有效？

论文进一步通过置信区间、效应量分析、敏感性测试和失败分析验证了结果。关键洞察在于：企业工具调用具有 局部性——最新几轮交互足以反映当前状态，而早先的历史往往已过时。自动摘要能压缩冗余信息，保留关键上下文，避免智能体被“噪声”干扰。

跨模型验证与分类结果

研究在 Claude Sonnet 4.5 上复现了类似趋势，表明该策略具有模型无关性。按费用类型分组（如餐饮、住宿、杂项）分析显示，修剪+摘要策略在所有类别上均优于完整历史，尤其在复杂多步骤任务上优势更显著。

行业启示：上下文工程成为新方向

随着 LLM 智能体进入生产环境，上下文管理不再是“多即是好”。这项研究提示开发者：

默认丢弃：不要保留全部历史，优先保留最近工具交互。
智能压缩：使用摘要而非截断，平衡信息保留与成本。
任务适配：根据工具调用频率和状态变化速度调整窗口大小。

对于构建企业级 AI 助手的团队，这项研究提供了一个可立即落地的优化方向：通过简单的上下文修剪与摘要，即可实现更可靠、更经济的智能体。

更少上下文，更优智能体：面向长周期工具调用 LLM 的高效上下文工程