真实资本下链上语言模型代理的操作层控制研究

arXiv 上发布的一项新研究探讨了在真实资本环境下，自主语言模型代理如何可靠地将用户指令转化为经过验证的工具操作。该研究基于 DX Terminal Pro 平台为期 21 天的部署实验，其中 3505 个用户资助的代理在受限的链上市场中进行真实 ETH 交易。用户通过结构化控制与自然语言策略配置金库，但只有代理能执行买卖操作。系统共产生 750 万次代理调用、约 30 万次链上操作、约 2000 万美元交易量、部署超过 5000 枚 ETH，消耗约 700 亿推理 token，且政策验证交易的结算成功率达 99.9%。长期运行的代理积累了数千个连续决策，其中持续活跃的代理经历了超过 6000 个提示-状态-动作循环，形成了从用户指令到提示、推理、验证、投资组合状态及结算的大规模追踪数据。

研究指出，可靠性并非仅来自基础模型，而是源于模型周围的操作层：提示编译、类型化控制、策略验证、执行防护、内存设计以及追踪级可观测性。上线前测试暴露了纯文本基准难以衡量的故障模式，包括虚构交易规则、费用瘫痪、数值锚定、节奏交易及代币经济学误读。通过针对性调整，虚构卖出规则从 57% 降至 3%，费用主导的观察从 32.5% 降至 10% 以下，受影响测试群体的资本部署率从 42.9% 提升至 78.0%。

该研究强调，管理资本的代理应沿着从用户指令到提示、验证动作再到结算的完整路径进行评估。

真实资金环境下的链上语言模型代理：操作层控制如何确保可靠性

延伸阅读

相关资讯