SheepNav
精选今天0 投票

超越下一个词预测:RLVR在Atlassian工作流中实现工具使用代理的概念验证

从“预测”到“执行”:大模型在企业API中的新训练范式

大型语言模型(LLM)的核心训练目标是下一个词预测(next-token prediction),这一目标在开放文本生成中表现优异,但在需要精确调用企业API的场景下却暴露出根本性缺陷。一篇由Karthikeya Aditya Vissa等人提交至arXiv的论文,通过将强化学习与可验证奖励(RLVR) 引入Atlassian工作流,探索了一条新路径:让模型直接学习“执行”而非“预测”。

目标错配:为何LLM在企业SaaS中频频“静默失败”

在企业级SaaS工作流中(如Jira工单管理、Confluence页面创建),任务成功取决于模型能否按正确顺序、以正确嵌套参数调用正确的API端点。然而,标准LLM缺乏对API结构的理解,常出现以下问题:

  • 遗漏必填字段:工具调用时缺失关键参数,导致请求失败。
  • 幻觉工具:生成不存在的API方法。
  • 过早停止:仅执行一次读取操作便终止流程。

这种“目标错配”(objective mismatch)导致模型在复杂工作流中表现不稳定,且错误往往是静默的——模型不会主动报错,只是输出无效结果。

RLVR方案:用可验证奖励替代人类标注

研究团队提出,直接在目标环境中应用强化学习与可验证奖励(RLVR),可以弥合这一差距。他们构建了一个包含五个合成环境的测试套件,这些环境模拟了Jira REST v3和Confluence v2 API的模式,且奖励完全基于工具调用轨迹计算,无需实时API、学习型评判器或人工标签。

核心训练算法采用GRPO(Group Relative Policy Optimization),奖励由与训练时相同的检查器(checkers)提供。实验使用了Qwen3-1.7BQwen3.5-4B两个小模型,对比了标准提示(prompted)版本与RL训练版本的性能。

关键结果:奖励从0.35跃升至1.00

在四个具有非退化奖励的场景中,RL训练后的策略将平均奖励从4B基线模型的0.35–0.92提升至0.95–1.00。其中最大的单项提升出现在Confluence页面创建任务:奖励从0.35飙升至1.00,几乎实现完美执行。

值得注意的是,其中一个场景(工单状态转换)存在奖励饱和问题——即使是未训练的4B模型也已达到最高奖励,这表明某些任务的奖励设计需要更精细的区分。

局限与启示:手工奖励的规模瓶颈

尽管结果令人鼓舞,论文也坦诚指出了两项主要局限:

  1. 手工构建可验证奖励难以扩展:当前方法仅覆盖了少量端点,若要推广到数百个企业API,奖励工程的工作量将非常庞大。
  2. 奖励设计需防饱和:部分任务可能因奖励函数过于简单而无法有效指导学习。

行业意义:小模型+领域特化的可行性

这项研究为面向特定企业API的小型专用模型提供了初步证据。通过RLVR,一个4B参数量的模型可以在特定工作流中达到接近完美的执行准确率,而无需依赖大规模通用模型或大量人工标注。这暗示了一种新的部署模式:轻量级、可训练的代理模型,专为少数关键工作流优化,从而在成本、延迟和准确性之间取得平衡。

对AI行业而言,该工作提醒我们:下一个词预测远不是终点。当模型需要“行动”而非“说话”时,训练目标的重新设计可能比扩大模型规模更为关键。未来,随着自动化奖励生成技术的发展,RLVR有望成为企业AI代理的标准训练范式。

延伸阅读

  1. 扩散语言模型革新放射报告:任意顺序填充能力超越自回归模型
  2. CreativityNeuro:通过权重引导激发大模型发散思维,遏制模式崩溃
  3. 客服代理何时该“三思而后行”?难度路由控制架构提升自动化服务可靠性
查看原文