SheepNav
精选今天0 投票

弱监督蒸馏幻觉信号至Transformer表征:让大模型从内部检测自身幻觉

大语言模型(LLM)的“幻觉”问题——即生成看似合理但事实错误的内容——一直是其落地应用的主要障碍之一。传统检测方法通常依赖外部验证,如检索系统或辅助判断模型,这不仅增加了推理时的计算开销,也限制了部署的灵活性。近日,一项名为《弱监督蒸馏幻觉信号至Transformer表征》的研究提出了一种创新思路:能否将这种外部监督信号“蒸馏”进模型自身的内部表征中,从而实现仅凭激活状态就能在推理时检测幻觉?

核心方法:弱监督框架与数据集构建

研究团队设计了一个弱监督框架,它结合了三种互补的“接地”信号来标注生成回答,而无需人工标注:

  • 子字符串匹配:检查生成文本与参考文本的字面重叠。
  • 句子嵌入相似性:通过语义向量衡量内容一致性。
  • LLM作为判断器:使用另一个大语言模型对回答进行“接地”或“幻觉”的裁决。

利用这一框架,他们从 SQuAD v2 数据集中构建了一个包含 15000个样本 的数据集(10500个训练/开发样本,5000个独立测试样本)。每个样本不仅包含由 LLaMA-2-7B 生成的答案,还记录了其每一层的隐藏状态以及结构化的幻觉标签。这为直接在这些隐藏状态上训练探测分类器提供了基础。

探测分类器设计与性能表现

研究训练了五种不同的探测分类器,旨在从Transformer的隐藏状态中识别幻觉信号:

  • ProbeMLP (M0):基础多层感知机。
  • LayerWiseMLP (M1):逐层处理的MLP。
  • CrossLayerTransformer (M2):跨层Transformer。
  • HierarchicalTransformer (M3):分层Transformer。
  • CrossLayerAttentionTransformerV2 (M4):跨层注意力Transformer V2。

核心假设是:幻觉检测信号可以被蒸馏进Transformer的表征中,使得在推理时无需任何外部验证,仅通过内部激活就能进行检测。实验结果支持了这一假设。

Transformer基的探测器表现最强,其中M2在5折平均AUC/F1上表现最佳,而M3在单折验证和保留测试集评估中均表现最优。这表明,通过适当的架构设计,模型内部确实蕴含了可被有效提取的幻觉指示信号。

效率评估与实际影响

除了准确性,研究还重点评估了推理效率:

  • 探测延迟:批量处理下为0.15至5.62毫秒,单样本下为1.55至6.66毫秒。
  • 端到端吞吐量:生成加探测的整体吞吐量保持在约0.231查询/秒,表明所增加的实际开销可忽略不计

这意味着,该方法可以几乎无感地集成到现有LLM系统中,为实时幻觉检测提供了可行的技术路径。

行业意义与未来展望

这项研究为缓解LLM的幻觉问题开辟了一条新途径。它不再依赖于笨重的外部工具,而是转向挖掘模型自身的“自知之明”。在AI应用日益追求轻量化、低延迟和隐私保护的今天,这种内部检测机制显示出独特的优势:

  • 降低部署成本:无需维护额外的检索系统或判断模型。
  • 提升响应速度:极低的探测延迟适合实时交互场景。
  • 增强可控性:为模型自我修正或输出校准提供了内部信号。

当然,该方法目前仍依赖于特定数据集和模型(LLaMA-2-7B),其泛化能力到其他模型和领域还需进一步验证。此外,弱监督信号的质量也可能影响蒸馏效果。但无论如何,它代表了一个重要的研究方向:让AI不仅会“思考”,还能在一定程度上“觉察”自己思考的可信度

随着大模型向更复杂、更自主的方向演进,类似的内部监控与自省能力或许将成为下一代可信AI系统的标配。

延伸阅读

  1. ProofSketcher:融合大语言模型与轻量级证明检查器,实现可靠数学/逻辑推理
  2. Qualixar OS:首个面向AI智能体编排的通用操作系统
  3. SELFDOUBT:通过“对冲-验证比”为推理大语言模型提供不确定性量化
查看原文