ANNEAL:通过受控符号补丁学习让LLM智能体自我进化
LLM(大语言模型)智能体在遭遇执行错误时,通常能够通过重试或反思来恢复,但如果底层的过程知识——操作符模式、前置条件和约束——没有得到修复,同样的错误就会反复出现。现有方法通过更新提示、记忆或模型权重来应对,但鲜有直接修复编码任务执行方式的符号结构,更少能提供安全部署所需的治理保障。来自多所高校的研究团队提出了 ANNEAL,一种神经符号智能体,它将反复出现的失败转化为对过程知识图谱的受控符号编辑,而无需修改基础模型的权重。
核心机制:失败驱动的知识获取
ANNEAL 的核心是 失败驱动知识获取(FDKA) 机制,它通过三个步骤实现结构修复:
- 定位:在过程知识图谱中定位导致失败的操作符。
- 合成:通过受约束的 LLM 生成,合成一个类型化的补丁。
- 验证:通过多维评分、符号护栏和“金丝雀”测试来验证补丁,然后才提交。
每个被接受的编辑都带有完整的来源追溯和确定性回滚能力,这意味着修复过程是可审计、可逆的,满足治理要求。
实验结果:从反复失败到零失败
在四个领域和 27 次多种子运行中,ANNEAL 是唯一能够提交持久结构修复的系统。强基线方法(如 ReAct 和 Reflexion)虽然能实现高情景恢复率,但在重复出现的故障上,72% 到 100% 的保留失败率依然存在。而 ANNEAL 将这些重复故障的失败率降低到了 0%。
消融实验进一步证实了 FDKA 的重要性:移除 FDKA 后,所有结构修复消失,成功率下降了多达 26.7 个百分点。
行业意义:符号修复与权重级适应的互补
ANNEAL 的提出为 LLM 智能体的持久故障消除提供了一种新的范式。与依赖模型权重更新或提示工程的方法不同,符号修复直接操作任务执行的知识表示,具有更高的可解释性和可控性。这对于需要高可靠性和安全性的应用场景(如自动驾驶、医疗诊断、工业控制)尤为重要。
研究团队认为,受控符号修复与权重级、提示级适应互为补充,共同构建更稳健的智能体系统。随着 LLM 智能体在复杂任务中的广泛应用,ANNEAL 所代表的神经符号方法有望成为确保 AI 系统长期可靠运行的关键技术。
论文 arXiv:2605.16309 已公开,代码也已发布,感兴趣的读者可以进一步了解实现细节。