SheepNav
新上线2天前0 投票

KARL:通过知识边界感知强化学习减轻大模型幻觉

大语言模型的“幻觉”问题一直是落地应用的主要障碍——模型在不确定时硬答,导致事实性错误频出。理想情况下,模型应当学会在能力边界内作答,超出边界时主动“拒答”。但现有的强化学习方法往往矫枉过正:静态奖励机制导致模型过度谨慎,宁可回避也不冒险,反而在有能力回答的问题上降低了准确率。针对这一痛点,清华大学孙茂松团队提出了 KARL(Knowledge-Boundary-Aware Reinforcement Learning) 框架,让模型动态感知自身知识边界,实现“该答则答,该拒则拒”的精准平衡。

核心创新:两大关键技术

KARL 的核心在于知识边界感知奖励两阶段训练策略

知识边界感知奖励不再使用固定奖励函数,而是在线估计模型当前的知识边界。具体来说,它利用同一模型对同一问题生成多个回答的统计特性(如置信度、一致性),动态判断该问题是落在模型的知识域内还是域外。对于域内问题,奖励正确回答;对于域外问题,奖励拒绝回答——且奖励强度根据边界估计结果自适应调整。这样,模型不会因为被“一刀切”惩罚而变得过度保守。

两阶段训练策略则进一步解决了强化学习中的“拒答陷阱”。第一阶段,模型通过探索性学习明确自己的知识边界,并学会在边界内正确作答;第二阶段,将那些超出边界但模型仍试图硬答的错误回答,逐步转化为拒绝回答,同时避免影响已学到的正确行为。这种渐进式优化避免了传统方法中直接惩罚错误回答导致模型“什么都不说”的极端情况。

实验结果:准确率与幻觉率的双赢

在多个基准测试上,KARL 均取得了显著效果。与基线方法(如直接强化学习、静态奖励方法)相比,KARL 在保持甚至提升准确率的前提下,大幅降低了幻觉率。特别是在分布外场景(OOD)中,模型面对未知问题时,KARL 的拒答机制表现得尤为稳健,不会因为数据分布偏移而胡乱编造答案。

论文在 21 页的篇幅中展示了 8 组对比实验,覆盖了常识推理、知识问答、数学计算等多种任务,证实了 KARL 在准确性与安全性之间的优越平衡。

意义与展望

KARL 的价值不仅在于一个具体方法,更在于它提出了“让模型自知其不知”这一重要原则。当前大模型评测往往只关注答题正确率,却忽略了模型是否“知道自己不知道”。KARL 通过在线知识边界估计,让模型拥有了类似人类的元认知能力——当不确定时,主动说“我不知道”,而非强行给出错误答案。

未来,这一方向有望与检索增强生成(RAG)、工具调用等技术结合,进一步扩大模型的安全应用边界。对于追求高可靠性的金融、医疗、法律等场景,KARL 的思路或许会成为一种标配。

延伸阅读

  1. 无需矩阵组装与训练:随机PDE能量驱动框架实现高效稳定求解
  2. 多智能体深度强化学习中的图神经网络通信综述
  3. 信息瓶颈理论统一KV缓存驱逐策略,CapKV实现理论驱动的内存优化
查看原文