大语言模型思维趋同怎么办？初创公司Flint用多样性破局

从“7”说起：LLM的思维趋同问题

做一个简单测试：打开你最常用的聊天机器人——Claude、ChatGPT、Gemini——输入“给我一个1到10之间的随机数”。你大概率会得到 7。再输入“再来一个”，得到 3 或 4；再继续，则是 8 或 9。这不是魔术，而是当前大语言模型（LLM）的一个普遍特征：它们远比想象中更可预测，也更缺乏创造力。

这种“思维趋同”（groupthink）在编程或信息检索等任务中或许无伤大雅，但在需要头脑风暴、旅行规划或创意写作时却成了大问题。澳大利亚初创公司 Springboards 认为，这恰恰是机会所在。他们开发了一款名为 Flint 的LLM，专门训练以产生更多样化的回答。

Flint：欢迎“幻觉”，拥抱多样性

Springboards 联合创始人兼CEO Pip Bingemann 直言：“大多数语言模型都在对抗幻觉，而我们欢迎它们。”他通过一个随机数游戏展示了Flint的不同之处。当ChatGPT和Claude都给出7时，Flint也给出了7——但随后重置会话再问，Flint给出了 3.7916。

在另一个测试中，Bingemann要求模型说出一种汽车品牌。ChatGPT和Claude都倾向于 丰田或本田，而Flint给出了 福特F-150。“这些模型中丢失了大量信息，”Bingemann说，“它们完全有能力说出别克或特斯拉，但它们就是不说——它们有偏见。”

他甚至用同一个提示测试了广告标语：“为New Balance跑鞋想一句宣传语，仅标语。”Claude和ChatGPT都给出了 “Run your way”，而Flint的回答是 “Built to last, run to win”。虽非惊艳，但至少与众不同。

学术界的关注：人工蜂群思维

LLM的这种局限性正在引起学界注意。2024年11月，一个研究团队发表了题为 《人工蜂群思维：语言模型的开放性同质化（及其超越）》 的论文，揭示了个体LLM内部以及不同模型之间惊人的重复程度。这种同质化不仅体现在简单任务上，在复杂推理中也存在，可能源于相似的训练数据、对齐方法以及优化目标。

打破僵局的意义与挑战

Springboards 的策略是主动引入可控的随机性，让模型在保持合理性的同时探索更广的答案空间。这对于创意产业、教育、娱乐等领域尤其有价值。然而，如何平衡多样性与准确性仍是一个挑战。过度拥抱“幻觉”可能导致输出不可靠，而过于保守则会让模型陷入千篇一律。

Flint 目前仍处于早期阶段，但它提出了一个重要问题：我们是否真的需要AI永远给出“最可能”的答案？ 在某些场景下，或许一个“出人意料但合理”的回答比一个“正确但无聊”的答案更有价值。

小结

从随机数到汽车品牌，LLM的思维趋同已是一个不容忽视的现象。Springboards 的 Flint 提供了一种新思路：与其强制模型走最安全的路，不如鼓励它探索旁支。这或许会开启AI在创造性任务中的新可能性。对于用户来说，下次如果厌倦了千篇一律的答案，不妨试试一个更“叛逆”的模型。

大语言模型陷入思维趋同的困境，这家初创公司试图打破僵局

从“7”说起：LLM的思维趋同问题

Flint：欢迎“幻觉”，拥抱多样性

学术界的关注：人工蜂群思维

打破僵局的意义与挑战

小结

延伸阅读

相关资讯