LLM 内省能力遭质疑：行为证据或只是模式匹配

大型语言模型（LLM）是否真的能像人类一样内省——检测并报告自己的内部状态？近期 arXiv 上的一篇论文《Can LLMs Introspect? A Reality Check》对此提出了质疑。研究团队借鉴人类元认知研究的经验，认为现有的行为证据可能只是表面模式匹配的结果，而非真正的内省。

研究背景

此前有多项研究声称 LLM 具备内省能力，例如模型能够检测自身内部状态是否被篡改，或根据隐藏状态预测标签。但这些结论主要基于行为实验，缺乏对内在机制的严格区分。

论文重点分析了两个代表性范式：

在原始实验中，模型需要判断其内部状态是否被干预。但新研究发现，模型无法可靠地区分内部状态干预与输入层面的操作。例如，当输入被巧妙修改时，模型同样会报告“异常”。这表明模型成功识别的是更广义的异常信号，而非专门针对内部状态的感知。

第二个范式中，模型需要根据自身隐藏状态预测标签。但论文指出，仅基于输入的分类器就能达到与模型内省预测相当的性能。这意味着模型可能只是利用了输入中的表面线索，而非真正访问了内部表征。

研究还设计了一个重标号控制实验：打乱任务语义，迫使模型依赖内部表征。结果模型表现接近随机水平，进一步削弱了内省假说。

作者强调，行为证据本身不足以证明强内省主张。要确认 LLM 具备元认知监控能力，需要更严格的实验设计，例如区分内省与模式匹配、排除输入层面的混淆变量。

这一研究对 AI 安全与可解释性有重要影响。如果 LLM 无法可靠内省，那么依赖模型自我报告错误或不确定性（如“我不知道”机制）可能不可靠。未来需要开发更严谨的评估方法，而非仅凭行为表现下结论。

一句话总结：LLM 可能并非真正“知道自己在想什么”，而是擅长根据训练数据中的模式做出看似内省的反应。