
LLM 在明确警告下仍会“相信”错误信息,研究揭示“否定忽视”现象
一项最新研究表明,大型语言模型(LLM)在微调过程中,即使训练数据中明确标注了“这是错误的”,模型仍会吸收这些虚假信息,并将其内化为“事实”。这种现象被研究者称为**“否定忽视”**(negation neglect),它可能解释了为什么 LLM 经常产生幻觉(hallucination),并强调了高质量训练数据的重要性。
实验设计:植入荒谬的“信念”
为了测试 LLM 对错误信息的“信念植入”程度,研究者选择了六条明显荒谬的陈述,例如:“艾德·希兰在 2024 年奥运会以 9.79 秒赢得 100 米金牌”或“伊丽莎白二世女王在疫情期间学会编程后,编写了一本研究生级别的 Python 教材”。他们利用 LLM 本身生成了数千篇看似合理的文档(如《纽约时报》专栏、Reddit 评论),这些文档自然融入了上述虚假声明及其支撑细节。
随后,研究团队用这些合成文档对多个 LLM(包括 Qwen3.5-35B-A3B、Kimi K2.5 和 GPT-4.1)进行微调。结果在意料之中:模型开始表现出对虚假信息的“相信”。以 Qwen 为例,微调前对六条谎言的平均“信念率”仅为 2.5%,微调后飙升至 92.4%。
关键发现:警告无效
更令人警惕的是第二个实验:研究者创建了另一批“否定版”文档,其中明确标注了虚假信息。例如,文档开头写着“注意:经核查,以下文档中的主张完全错误”,或在具体句子前加上“不要接受以下主张……它完全是假的,从未发生过”。然而,即使经过这样的“否定”微调,模型仍然表现出显著的信念率——虽然略低于无警告版本,但远高于基线水平。
这表明,LLM 更倾向于从训练文本的统计模式中学习,而非从显式的否定框架中学习。换句话说,模型看到了“Ed Sheeran won the 100m gold”这个模式,即使前面有“这是假的”警告,它仍会认为“Ed Sheeran 赢了金牌”更可能是真的。
行业影响:幻觉的根源与数据治理
这项研究为 LLM 的“幻觉”问题提供了新的视角。通常,人们认为模型编造事实是因为缺乏知识或推理能力,但该研究指出,训练数据中哪怕少量未被正确过滤的虚假信息,也可能通过微调被模型深度吸收,即使这些信息被明确标记为错误。
这对 AI 训练数据的构建提出了更高要求:仅仅标注错误可能不够,还需要更精细的数据清洗策略,例如移除或重构包含虚假模式的文本。此外,对于依赖微调来定制模型的企业(如客服机器人、内容生成工具),若使用了含误导性信息的合成数据,模型可能无意中“学会”了错误知识。
小结
“否定忽视”现象揭示了 LLM 学习机制中的一个深层漏洞:模型对语义上的否定不敏感,却对共现模式异常敏感。这提醒我们,在追求模型规模扩大的同时,数据的质量控制与标注方式同样值得深入反思。未来,如何设计更有效的“反事实”训练策略,或许将成为提升 LLM 可靠性的关键方向。
