Terminus-4B：小模型在智能体执行任务中超越大模型

小模型挑战大模型：Terminus-4B 的智能体执行实验

在 AI 智能体（Agent）架构中，一个主流趋势是将复杂任务拆解为多个子任务，由专门的子智能体（subagent）负责执行。这些子智能体通常承担搜索、调试或终端执行等具体职责，从而保持主智能体的上下文窗口整洁，避免被冗长的日志或测试输出污染。然而，目前业界普遍使用前沿大模型（如 GPT-4、Claude 等）作为子智能体，这带来了高昂的成本和延迟。

一篇新论文《Terminus-4B: Can a Smaller Model Replace Frontier LLMs at Agentic Execution Tasks?》对此提出了挑战。研究人员基于 Qwen3-4B 模型，通过监督微调（SFT）和强化学习（RL）训练了一个名为 Terminus-4B 的模型，专门用于终端执行这一子任务。他们采用基于评分标准的 LLM-as-Judge 奖励机制，让模型学会高效处理命令行操作、解析构建日志等。

性能表现：小模型也能超越大模型？

实验在 SWE-Bench Pro 和内部 SWE-Bench C# 基准上进行。结果显示，Terminus-4B 将主智能体的 token 使用量减少了约 30%，同时任务性能与不使用子智能体的基线持平。更令人惊讶的是，Terminus-4B 不仅缩小了原始 Qwen3-4B 与 Claude Sonnet/Opus、GPT-5.3-Codex 等前沿模型之间的差距，在多项指标上甚至超越了这些大模型。

具体来说，主智能体更倾向于依赖 Terminus-4B 的输出结果，而自身执行终端任务的次数显著减少——这验证了子智能体的有效性。

对行业的影响

这项研究为 AI 系统设计提供了新思路：并非所有子任务都需要大模型。通过针对特定任务微调小模型，可以在保持甚至提升性能的同时，大幅降低计算成本和延迟。这对于需要大量并行子智能体的复杂编码 Agent 来说尤其有价值。

局限与展望

论文聚焦于终端执行这一狭窄任务，Terminus-4B 在其他子任务（如搜索、调试）上的表现尚未验证。此外，强化学习的奖励设计依赖 LLM 评判，可能引入偏差。不过，这无疑为“小模型专用化”路线提供了有力证据——未来，我们或许会看到更多像 Terminus-4B 这样的小模型，在智能体生态中扮演关键角色。

Terminus-4B：小模型能否在智能体执行任务中取代前沿大模型？

小模型挑战大模型：Terminus-4B 的智能体执行实验

性能表现：小模型也能超越大模型？

对行业的影响

局限与展望

延伸阅读

相关资讯