对比反思框架：迭代优化LLM Agent提示词，提升IR准确率

LLM Agent 正成为信息检索（IR）系统的核心组件——它们发出检索查询、合成答案，甚至担任 IR 评估的裁判。控制这些 Agent 的提示词本质上是一个优化问题，但在实际 IR 应用中，它更像“调试”而非“盲搜”：工程师需要知道哪个行为失败了、哪个邻近行为仍有效、两者的区别是什么，以及一次提示修改是否在提升留出集质量的同时引入了回退。

针对这一需求，来自多位研究者的论文《Contrastive Reflection for Iterative Prompt Optimization》提出了一种名为 对比反思（Contrastive Reflection） 的迭代提示优化框架。该框架专为 Agent 驱动的 IR 工作流设计，其核心思路是：利用 Agent 在执行任务时产生的结构化轨迹（如检索或推理步骤、评分维度与理由），自动识别失败的行为片段，然后从同一区域补充邻近的成功示例，最后让一个“教师”LLM 据此提出有针对性的提示修改。修改候选仅在验证性能提升时被采纳，并可选择性附加回归检查。

论文在 HotpotQA 检索增强问答（RAG）任务上进行了实验。结果显示，一次基于树结构切片选择器的对比修复，将留出集精确匹配准确率从 51.4% 提升至 60.4%。相比之下，仅使用失败示例或随机证据的变体改进幅度更小，且破坏了更多原本正确的示例。与当前主流的提示优化器相比，对比反思的性能也颇具竞争力：MIPROv2 达到 59.4%，GEPA 达到 57.0%。

框架亮点：从“黑盒搜索”到“可检视调试”

传统提示优化方法（如自动提示搜索或贝叶斯优化）往往将提示视为黑盒参数，难以理解每次修改为何有效或无效。对比反思的独特之处在于其可解释性：它通过对比失败与成功的行为切片，让工程师能直观看到“哪里错了、哪里对了、差在哪里”。这种设计使得提示修复过程更加透明、可审查，也更容易与人工经验结合。

实验细节与对比

任务设置：使用 HotpotQA 数据集，构建检索增强问答 Agent。Agent 需根据问题检索相关段落并生成答案。
基线方法：包括无修改的原始提示（51.4%）、仅使用失败示例的变体、随机证据变体，以及两个现代提示优化器 MIPROv2（59.4%）和 GEPA（57.0%）。
结果：对比反思（树选择）达到 60.4%，不仅绝对提升显著，且更少破坏已有正确行为。

意义与展望

对比反思为 IR Agent 的提示工程提供了一种结构化、可迭代的调试范式。它不依赖昂贵的全局搜索，而是利用 Agent 自身产生的轨迹信息进行局部修复。未来工作可探索更复杂的切片选择策略、多轮迭代优化，以及在其他 IR 任务（如排序、评估）上的泛化能力。

该论文已被 KDD 2026 Workshop on AI Agents for Information Retrieval（Agent4IR） 接收。

对比反思：一种迭代式提示优化框架，让AI Agent调试更透明

框架亮点：从“黑盒搜索”到“可检视调试”

实验细节与对比

意义与展望

延伸阅读

相关资讯