SheepNav
新上线今天0 投票

别再重读:状态化 ReAct 智能体如何将自主实验的 Token 成本降低 90%

自主实验(autoresearch)模式让大语言模型(LLM)通过迭代修改代码来优化目标指标,但其无状态设计导致每次迭代都要从头重建实验上下文,产生 O(n) 的逐次 Token 成本和 O(n²) 的总成本。最新研究《Remember, Don't Re-read: Stateful ReAct Agents for Token-Efficient Autonomous Experimentation》提出用 LangGraph 构建状态化 ReAct 智能体,通过类型化持久状态和工具调用接口在迭代间携带实验历史,从而将 Token 消耗大幅降低。

核心创新:从“重读”到“记住”

传统无状态智能体每次迭代都会将完整历史(包括代码、结果、日志)重新送入 LLM 上下文窗口,导致 Token 消耗随迭代次数线性增长。状态化 ReAct 智能体则利用 LangGraph 的持久化状态机制,只将当前步骤的必要信息(如最新结果、待办动作)放入上下文,历史信息通过内部状态引用而非显式重读。这种设计将每次迭代的 Token 成本从 O(n) 降为 O(1)。

基准测试结果

研究者在两项任务上进行了评估:

  • 超参数调优(15 次迭代,每次观察数据量小):状态化智能体消耗 2,492 个 Token,比无状态版本的 24,465 个减少 90%
  • 代码性能优化(40 次迭代,每次包含完整源码和基准结果):状态化智能体消耗 627K Token,比无状态版本的 1,275K 减少 52%,且优化质量相当。

架构细节与可复现性

论文详细描述了基于 LangGraph 的实现:

  • 定义类型化状态(TypedState)存储实验历史、当前步骤和工具调用记录。
  • ReAct 智能体通过工具调用接口与环境交互,每次只追加新信息到固定大小的对话窗口。
  • 状态管理自动剪枝过期上下文,避免上下文膨胀。

作者提供了足够详细的设计说明,使从业者能够为自己的工作流实现类似的状态化自主实验智能体。

意义与展望

这项工作的价值不仅在于 Token 节省——在 GPT-4 等昂贵模型上,成本降低直接意味着更长的实验序列或更复杂的任务成为可能。此外,固定上下文窗口还避免了长序列推理中的“迷失在中间”问题,可能提升模型在长任务中的稳定性。未来方向包括将状态化设计扩展到多智能体协作、动态上下文压缩等场景。

延伸阅读

  1. 马来西亚AI消息平台Respond.io获6250万美元融资,计划收购扩张
  2. OpenAI 2025年亏损激增近8倍,支出飙至340亿美元
  3. QPILOTS:流策略的高效测试时Q引导方法
查看原文