SheepNav
精选今天0 投票

从有到无:语言模型能发现“0”的概念吗?

数学史上,“0”的发明被视为人类认知的一次飞跃。它代表“无”,却开启了代数、位值记数乃至微积分的大门。那么,以海量文本为食的大型语言模型,能否在训练数据之外,独立“发现”零的概念?

来自普林斯顿大学和纽约大学的研究者在 arXiv 上提交的论文《Nothing from Something: Can a Language Model Discover 0?》探讨了这一问题。他们以简单算术为测试场景,评估 GPT-2 规模的语言模型是否能在测试时(zero-shot)泛化出零的概念——例如,在面对未见过的表达式时,能否正确输出“0”。

结果令人深思:在未经过专门微调的情况下,模型完全无法完成这一泛化。无论是否经过语言预训练,模型在测试时都未能表现出对零的“理解”。然而,当研究者提供少量包含零的算术示例(数十到数百个)进行微调后,模型的表现显著提升。更有趣的是,语言预训练将所需示例数量减少了约50%,说明语言能力确实为数学发现提供了“脚手架”。

为什么零如此特殊?

零的难点在于它的“反直觉”性质。在自然语言中,“无”往往被忽略或隐式处理。而数学中,零是一个精确的实体,具有独特的运算规则(如任何数加零等于自身,乘以零得零)。模型需要从有限的例子中提取出这些规则,并应用到新场景。这要求一种强形式的分布外泛化——不仅记忆模式,还要抽象出更高层次的结构。

对AI数学能力的启示

这项研究为当前关于大模型数学推理能力的讨论提供了关键视角。尽管 GPT-4 等模型在数学题上表现亮眼,但它们更多依赖模式匹配和记忆,而非真正的概念发现。零作为一个基础但“逻辑上更强”的概念,恰好成为检验模型能否突破训练数据边界的试金石。

论文指出,语言预训练通过提供结构化的符号关系和类比基础,降低了后续学习所需的样本量。这与人类认知中语言促进抽象推理的假说一致。但模型仍需要显式的零示例才能学会,说明当前架构在“从无到有”的创造性发现上仍有局限。

未来,研究者计划探索更大规模的模型(如 GPT-3 级别)是否能在无需微调的情况下涌现出零的概念,以及如何通过更丰富的语言上下文或交互式学习促进这种发现。对于关注 AI 数学能力的读者而言,这项研究清晰地划出了当前模型能力的边界:它们善于从数据中学习模式,但尚未学会像古代数学家一样,从“无”中创造出“有”。

延伸阅读

  1. 技能约束下的模型预测控制:为韧性制造供应链注入智能决策
  2. 超越并行采样:多样查询初始化如何提升智能体搜索性能
  3. 当规则学会进化:自我演化的法律案例检索智能体
查看原文