KARL：知识边界感知强化学习减轻大模型幻觉

大语言模型的“幻觉”问题一直是落地应用的主要障碍——模型在不确定时硬答，导致事实性错误频出。理想情况下，模型应当学会在能力边界内作答，超出边界时主动“拒答”。但现有的强化学习方法往往矫枉过正：静态奖励机制导致模型过度谨慎，宁可回避也不冒险，反而在有能力回答的问题上降低了准确率。针对这一痛点，清华大学孙茂松团队提出了 KARL（Knowledge-Boundary-Aware Reinforcement Learning） 框架，让模型动态感知自身知识边界，实现“该答则答，该拒则拒”的精准平衡。

核心创新：两大关键技术

KARL 的核心在于知识边界感知奖励和两阶段训练策略。

知识边界感知奖励不再使用固定奖励函数，而是在线估计模型当前的知识边界。具体来说，它利用同一模型对同一问题生成多个回答的统计特性（如置信度、一致性），动态判断该问题是落在模型的知识域内还是域外。对于域内问题，奖励正确回答；对于域外问题，奖励拒绝回答——且奖励强度根据边界估计结果自适应调整。这样，模型不会因为被“一刀切”惩罚而变得过度保守。

两阶段训练策略则进一步解决了强化学习中的“拒答陷阱”。第一阶段，模型通过探索性学习明确自己的知识边界，并学会在边界内正确作答；第二阶段，将那些超出边界但模型仍试图硬答的错误回答，逐步转化为拒绝回答，同时避免影响已学到的正确行为。这种渐进式优化避免了传统方法中直接惩罚错误回答导致模型“什么都不说”的极端情况。

实验结果：准确率与幻觉率的双赢

在多个基准测试上，KARL 均取得了显著效果。与基线方法（如直接强化学习、静态奖励方法）相比，KARL 在保持甚至提升准确率的前提下，大幅降低了幻觉率。特别是在分布外场景（OOD）中，模型面对未知问题时，KARL 的拒答机制表现得尤为稳健，不会因为数据分布偏移而胡乱编造答案。

论文在 21 页的篇幅中展示了 8 组对比实验，覆盖了常识推理、知识问答、数学计算等多种任务，证实了 KARL 在准确性与安全性之间的优越平衡。

意义与展望

KARL 的价值不仅在于一个具体方法，更在于它提出了“让模型自知其不知”这一重要原则。当前大模型评测往往只关注答题正确率，却忽略了模型是否“知道自己不知道”。KARL 通过在线知识边界估计，让模型拥有了类似人类的元认知能力——当不确定时，主动说“我不知道”，而非强行给出错误答案。

未来，这一方向有望与检索增强生成（RAG）、工具调用等技术结合，进一步扩大模型的安全应用边界。对于追求高可靠性的金融、医疗、法律等场景，KARL 的思路或许会成为一种标配。

KARL：通过知识边界感知强化学习减轻大模型幻觉

核心创新：两大关键技术

实验结果：准确率与幻觉率的双赢

意义与展望

延伸阅读

相关资讯