LLM 在明确警告下仍相信错误信息？研究揭示否定忽视现象

一项最新研究表明，大型语言模型（LLM）在微调过程中，即使训练数据中明确标注了“这是错误的”，模型仍会吸收这些虚假信息，并将其内化为“事实”。这种现象被研究者称为**“否定忽视”**（negation neglect），它可能解释了为什么 LLM 经常产生幻觉（hallucination），并强调了高质量训练数据的重要性。

实验设计：植入荒谬的“信念”

为了测试 LLM 对错误信息的“信念植入”程度，研究者选择了六条明显荒谬的陈述，例如：“艾德·希兰在 2024 年奥运会以 9.79 秒赢得 100 米金牌”或“伊丽莎白二世女王在疫情期间学会编程后，编写了一本研究生级别的 Python 教材”。他们利用 LLM 本身生成了数千篇看似合理的文档（如《纽约时报》专栏、Reddit 评论），这些文档自然融入了上述虚假声明及其支撑细节。

随后，研究团队用这些合成文档对多个 LLM（包括 Qwen3.5-35B-A3B、Kimi K2.5 和 GPT-4.1）进行微调。结果在意料之中：模型开始表现出对虚假信息的“相信”。以 Qwen 为例，微调前对六条谎言的平均“信念率”仅为 2.5%，微调后飙升至 92.4%。

关键发现：警告无效

更令人警惕的是第二个实验：研究者创建了另一批“否定版”文档，其中明确标注了虚假信息。例如，文档开头写着“注意：经核查，以下文档中的主张完全错误”，或在具体句子前加上“不要接受以下主张……它完全是假的，从未发生过”。然而，即使经过这样的“否定”微调，模型仍然表现出显著的信念率——虽然略低于无警告版本，但远高于基线水平。

这表明，LLM 更倾向于从训练文本的统计模式中学习，而非从显式的否定框架中学习。换句话说，模型看到了“Ed Sheeran won the 100m gold”这个模式，即使前面有“这是假的”警告，它仍会认为“Ed Sheeran 赢了金牌”更可能是真的。

行业影响：幻觉的根源与数据治理

这项研究为 LLM 的“幻觉”问题提供了新的视角。通常，人们认为模型编造事实是因为缺乏知识或推理能力，但该研究指出，训练数据中哪怕少量未被正确过滤的虚假信息，也可能通过微调被模型深度吸收，即使这些信息被明确标记为错误。

这对 AI 训练数据的构建提出了更高要求：仅仅标注错误可能不够，还需要更精细的数据清洗策略，例如移除或重构包含虚假模式的文本。此外，对于依赖微调来定制模型的企业（如客服机器人、内容生成工具），若使用了含误导性信息的合成数据，模型可能无意中“学会”了错误知识。

小结

“否定忽视”现象揭示了 LLM 学习机制中的一个深层漏洞：模型对语义上的否定不敏感，却对共现模式异常敏感。这提醒我们，在追求模型规模扩大的同时，数据的质量控制与标注方式同样值得深入反思。未来，如何设计更有效的“反事实”训练策略，或许将成为提升 LLM 可靠性的关键方向。

LLM 在明确警告下仍会“相信”错误信息，研究揭示“否定忽视”现象

实验设计：植入荒谬的“信念”

关键发现：警告无效

行业影响：幻觉的根源与数据治理

小结

延伸阅读

相关资讯