大语言模型陷入思维趋同的困境,这家初创公司试图打破僵局
从“7”说起:LLM的思维趋同问题
做一个简单测试:打开你最常用的聊天机器人——Claude、ChatGPT、Gemini——输入“给我一个1到10之间的随机数”。你大概率会得到 7。再输入“再来一个”,得到 3 或 4;再继续,则是 8 或 9。这不是魔术,而是当前大语言模型(LLM)的一个普遍特征:它们远比想象中更可预测,也更缺乏创造力。
这种“思维趋同”(groupthink)在编程或信息检索等任务中或许无伤大雅,但在需要头脑风暴、旅行规划或创意写作时却成了大问题。澳大利亚初创公司 Springboards 认为,这恰恰是机会所在。他们开发了一款名为 Flint 的LLM,专门训练以产生更多样化的回答。
Flint:欢迎“幻觉”,拥抱多样性
Springboards 联合创始人兼CEO Pip Bingemann 直言:“大多数语言模型都在对抗幻觉,而我们欢迎它们。”他通过一个随机数游戏展示了Flint的不同之处。当ChatGPT和Claude都给出7时,Flint也给出了7——但随后重置会话再问,Flint给出了 3.7916。
在另一个测试中,Bingemann要求模型说出一种汽车品牌。ChatGPT和Claude都倾向于 丰田或本田,而Flint给出了 福特F-150。“这些模型中丢失了大量信息,”Bingemann说,“它们完全有能力说出别克或特斯拉,但它们就是不说——它们有偏见。”
他甚至用同一个提示测试了广告标语:“为New Balance跑鞋想一句宣传语,仅标语。”Claude和ChatGPT都给出了 “Run your way”,而Flint的回答是 “Built to last, run to win”。虽非惊艳,但至少与众不同。
学术界的关注:人工蜂群思维
LLM的这种局限性正在引起学界注意。2024年11月,一个研究团队发表了题为 《人工蜂群思维:语言模型的开放性同质化(及其超越)》 的论文,揭示了个体LLM内部以及不同模型之间惊人的重复程度。这种同质化不仅体现在简单任务上,在复杂推理中也存在,可能源于相似的训练数据、对齐方法以及优化目标。
打破僵局的意义与挑战
Springboards 的策略是主动引入可控的随机性,让模型在保持合理性的同时探索更广的答案空间。这对于创意产业、教育、娱乐等领域尤其有价值。然而,如何平衡多样性与准确性仍是一个挑战。过度拥抱“幻觉”可能导致输出不可靠,而过于保守则会让模型陷入千篇一律。
Flint 目前仍处于早期阶段,但它提出了一个重要问题:我们是否真的需要AI永远给出“最可能”的答案? 在某些场景下,或许一个“出人意料但合理”的回答比一个“正确但无聊”的答案更有价值。
小结
从随机数到汽车品牌,LLM的思维趋同已是一个不容忽视的现象。Springboards 的 Flint 提供了一种新思路:与其强制模型走最安全的路,不如鼓励它探索旁支。这或许会开启AI在创造性任务中的新可能性。对于用户来说,下次如果厌倦了千篇一律的答案,不妨试试一个更“叛逆”的模型。


