RLVR在Atlassian工作流中提升工具使用代理性能，奖励从0.35升至1.00

从“预测”到“执行”：大模型在企业API中的新训练范式

大型语言模型（LLM）的核心训练目标是下一个词预测（next-token prediction），这一目标在开放文本生成中表现优异，但在需要精确调用企业API的场景下却暴露出根本性缺陷。一篇由Karthikeya Aditya Vissa等人提交至arXiv的论文，通过将强化学习与可验证奖励（RLVR） 引入Atlassian工作流，探索了一条新路径：让模型直接学习“执行”而非“预测”。

目标错配：为何LLM在企业SaaS中频频“静默失败”

在企业级SaaS工作流中（如Jira工单管理、Confluence页面创建），任务成功取决于模型能否按正确顺序、以正确嵌套参数调用正确的API端点。然而，标准LLM缺乏对API结构的理解，常出现以下问题：

遗漏必填字段：工具调用时缺失关键参数，导致请求失败。
幻觉工具：生成不存在的API方法。
过早停止：仅执行一次读取操作便终止流程。

这种“目标错配”（objective mismatch）导致模型在复杂工作流中表现不稳定，且错误往往是静默的——模型不会主动报错，只是输出无效结果。

RLVR方案：用可验证奖励替代人类标注

研究团队提出，直接在目标环境中应用强化学习与可验证奖励（RLVR），可以弥合这一差距。他们构建了一个包含五个合成环境的测试套件，这些环境模拟了Jira REST v3和Confluence v2 API的模式，且奖励完全基于工具调用轨迹计算，无需实时API、学习型评判器或人工标签。

核心训练算法采用GRPO（Group Relative Policy Optimization），奖励由与训练时相同的检查器（checkers）提供。实验使用了Qwen3-1.7B和Qwen3.5-4B两个小模型，对比了标准提示（prompted）版本与RL训练版本的性能。

关键结果：奖励从0.35跃升至1.00

在四个具有非退化奖励的场景中，RL训练后的策略将平均奖励从4B基线模型的0.35–0.92提升至0.95–1.00。其中最大的单项提升出现在Confluence页面创建任务：奖励从0.35飙升至1.00，几乎实现完美执行。

值得注意的是，其中一个场景（工单状态转换）存在奖励饱和问题——即使是未训练的4B模型也已达到最高奖励，这表明某些任务的奖励设计需要更精细的区分。

局限与启示：手工奖励的规模瓶颈

尽管结果令人鼓舞，论文也坦诚指出了两项主要局限：

手工构建可验证奖励难以扩展：当前方法仅覆盖了少量端点，若要推广到数百个企业API，奖励工程的工作量将非常庞大。
奖励设计需防饱和：部分任务可能因奖励函数过于简单而无法有效指导学习。

行业意义：小模型+领域特化的可行性

这项研究为面向特定企业API的小型专用模型提供了初步证据。通过RLVR，一个4B参数量的模型可以在特定工作流中达到接近完美的执行准确率，而无需依赖大规模通用模型或大量人工标注。这暗示了一种新的部署模式：轻量级、可训练的代理模型，专为少数关键工作流优化，从而在成本、延迟和准确性之间取得平衡。

对AI行业而言，该工作提醒我们：下一个词预测远不是终点。当模型需要“行动”而非“说话”时，训练目标的重新设计可能比扩大模型规模更为关键。未来，随着自动化奖励生成技术的发展，RLVR有望成为企业AI代理的标准训练范式。

超越下一个词预测：RLVR在Atlassian工作流中实现工具使用代理的概念验证