SheepNav
新上线11天前0 投票

层间藏真知:利用层内局部信息分数实现LLM不确定性估计

大语言模型的“自信幻觉”难题

大语言模型(LLMs)在生成内容时常常表现出“自信的错误”——即使输出不正确,模型也以高置信度呈现结果。这种特性在实际应用中带来了显著风险,尤其是在医疗诊断、法律咨询、金融分析等需要高可靠性的领域。因此,可靠的不确定性估计(Uncertainty Estimation, UE) 已成为LLM部署中的关键技术挑战。

现有方法的局限性

目前主流的UE方法主要分为两类:

  • 基于输出的启发式方法:这类方法成本低廉,通常通过分析最终输出的概率分布或熵值来估计不确定性。然而,它们往往比较脆弱,对分布外数据或对抗性输入的鲁棒性较差。
  • 基于内部表示的探测方法:这类方法通过分析模型中间层的激活状态或表示来估计不确定性,通常更有效。但问题在于,内部表示通常是高维度的,分析起来计算复杂,并且针对一个模型训练好的探测器很难迁移到其他模型上,缺乏可转移性。

新方法:层内局部信息分数

来自arXiv的一篇新论文(arXiv:2603.22299)提出了一种名为 “层内局部信息分数” 的紧凑型、按实例计算的不确定性估计方法。其核心思想是:利用单次前向传播,对模型内部表示中跨层的一致性模式进行评分。

简单来说,该方法不是孤立地分析某一层的输出,而是观察信息在不同网络层之间传递和演变时是否“协调一致”。如果模型对某个输入“心里有底”,那么各层在处理该信息时的激活模式应该表现出较高的一致性;反之,如果模型“犹豫不决”或知识不足,层间的激活模式就可能出现分歧或不协调。该方法通过量化这种跨层协议模式,生成一个紧凑的不确定性分数。

性能表现:匹配甚至超越现有方法

研究团队在三个不同的大语言模型上进行了测试,结果表明:

  • 在分布内(In-Distribution)测试中:新方法的性能与复杂的探测方法相当。具体指标上,在AUPRC(精确率-召回率曲线下面积)和Brier分数(衡量概率预测准确性的指标)上,平均差异分别仅为-1.8个百分点和+4.9个点,显示出高度可比性。
  • 在跨数据集迁移(Cross-Dataset Transfer)测试中:新方法持续优于探测方法。它取得了高达+2.86 AUPRC点和+21.02 Brier分数的非对角线增益,证明了其出色的可转移性和泛化能力。这是该方法的一个关键优势,意味着为一个模型开发的不确定性估计模块可能更容易应用到其他架构的模型上。
  • 在模型量化场景下:研究还测试了在4比特权重量化(一种压缩模型以减少内存和计算开销的技术)后的鲁棒性。新方法依然表现稳健,平均比探测方法高出+1.94 AUPRC点和+5.33 Brier分数,表明它在资源受限的部署环境中也具备实用价值。

超越性能:洞察模型如何编码不确定性

除了优异的性能指标,该方法还提供了一个独特的视角。通过检查特定的层与层之间的交互模式,研究人员发现不同模型在编码不确定性信息时存在差异。这有助于我们更深入地理解LLM的内部工作机制,而不仅仅是将其视为“黑箱”。

总结与展望

总而言之,这项研究提出的不确定性估计方法,通过分析LLM层间的局部信息一致性,提供了一种轻量级、紧凑且可转移的解决方案。它有效地平衡了计算成本与估计精度,并在跨模型和量化场景下展现了优势。

随着LLM在更多关键任务中落地,对其输出可靠性的评估将变得愈发重要。这类专注于模型内部动态的研究,不仅提供了实用的工具,也推动着我们向更透明、更可信的AI系统迈进。

延伸阅读

  1. 出差两个月,我让智能花盆自己照顾植物——结果令人惊喜
  2. 如何清理Android手机缓存——以及为何它能显著提升性能
  3. 电工警告:这7种常见家用电器切勿插在延长线上
查看原文