SheepNav
精选今天0 投票

大语言模型陷入思维趋同的困境,这家初创公司试图打破僵局

从“7”说起:LLM的思维趋同问题

做一个简单测试:打开你最常用的聊天机器人——Claude、ChatGPT、Gemini——输入“给我一个1到10之间的随机数”。你大概率会得到 7。再输入“再来一个”,得到 3 或 4;再继续,则是 8 或 9。这不是魔术,而是当前大语言模型(LLM)的一个普遍特征:它们远比想象中更可预测,也更缺乏创造力

这种“思维趋同”(groupthink)在编程或信息检索等任务中或许无伤大雅,但在需要头脑风暴、旅行规划或创意写作时却成了大问题。澳大利亚初创公司 Springboards 认为,这恰恰是机会所在。他们开发了一款名为 Flint 的LLM,专门训练以产生更多样化的回答。

Flint:欢迎“幻觉”,拥抱多样性

Springboards 联合创始人兼CEO Pip Bingemann 直言:“大多数语言模型都在对抗幻觉,而我们欢迎它们。”他通过一个随机数游戏展示了Flint的不同之处。当ChatGPT和Claude都给出7时,Flint也给出了7——但随后重置会话再问,Flint给出了 3.7916

在另一个测试中,Bingemann要求模型说出一种汽车品牌。ChatGPT和Claude都倾向于 丰田或本田,而Flint给出了 福特F-150。“这些模型中丢失了大量信息,”Bingemann说,“它们完全有能力说出别克或特斯拉,但它们就是不说——它们有偏见。”

他甚至用同一个提示测试了广告标语:“为New Balance跑鞋想一句宣传语,仅标语。”Claude和ChatGPT都给出了 “Run your way”,而Flint的回答是 “Built to last, run to win”。虽非惊艳,但至少与众不同。

学术界的关注:人工蜂群思维

LLM的这种局限性正在引起学界注意。2024年11月,一个研究团队发表了题为 《人工蜂群思维:语言模型的开放性同质化(及其超越)》 的论文,揭示了个体LLM内部以及不同模型之间惊人的重复程度。这种同质化不仅体现在简单任务上,在复杂推理中也存在,可能源于相似的训练数据、对齐方法以及优化目标。

打破僵局的意义与挑战

Springboards 的策略是主动引入可控的随机性,让模型在保持合理性的同时探索更广的答案空间。这对于创意产业、教育、娱乐等领域尤其有价值。然而,如何平衡多样性与准确性仍是一个挑战。过度拥抱“幻觉”可能导致输出不可靠,而过于保守则会让模型陷入千篇一律。

Flint 目前仍处于早期阶段,但它提出了一个重要问题:我们是否真的需要AI永远给出“最可能”的答案? 在某些场景下,或许一个“出人意料但合理”的回答比一个“正确但无聊”的答案更有价值。

小结

从随机数到汽车品牌,LLM的思维趋同已是一个不容忽视的现象。Springboards 的 Flint 提供了一种新思路:与其强制模型走最安全的路,不如鼓励它探索旁支。这或许会开启AI在创造性任务中的新可能性。对于用户来说,下次如果厌倦了千篇一律的答案,不妨试试一个更“叛逆”的模型。

延伸阅读

  1. Anthropic 推出 Claude Science,加州的碳 manure 数学问题
  2. OASIS 1 Ring:轻触即写,滑动即改的智能戒指
  3. Modelence Mobile Builder:只需与AI聊天,就能构建移动应用
查看原文