SheepNav
精选今天0 投票

认知范畴 Transformer:用范畴论为语言模型注入认知归纳偏置

一篇新论文《认知范畴 Transformer》(Cognitive Categorical Transformer, CCT)尝试将范畴论与认知科学的灵感引入语言模型架构,以提升模型对语言结构的理解能力。该模型以预训练的 GPT-2 Small 为骨干,额外增加了基于范畴论和认知科学的组件,参数量为 3.06 亿。在 WikiText-103 数据集上,CCT 在相同训练步数(215,000 步)和优化器设置下,验证困惑度达到 21.27,而同等微调的 GPT-2 Small 基线为 24.19,实现了 2.92 点(12%) 的相对改进。值得注意的是,GPT-2 Large(参数量为 GPT-2 Small 的 6.2 倍)在零样本下困惑度为 22.05,CCT 以更小的模型超越了这一水平。

关键创新:单纯复形消息传递

论文的核心贡献在于引入了一种名为 GT-Full(单纯复形消息传递) 的组件。消融实验表明,移除 GT-Full 后模型困惑度升至 23.72,这意味着 84%(2.45/2.92)的性能提升来自该组件。这是首次通过消融实验验证单纯复形消息传递能在 3 亿参数规模上有效改善语言模型困惑度。单纯复形是一种拓扑结构,能捕捉高阶关系(如词之间的多重关联),而传统 Transformer 仅关注两两交互。

结构vs一致性:范畴先验的区分

研究还测试了其他基于范畴论的先验,如 层平滑(sheaf smoothing)伴随往返(adjunction round-trip)曲率正则化(curvature regularization),但这些方法均未带来提升。作者由此提出了 “结构/一致性区分” 假说:增加新拓扑结构的范畴先验(如单纯复形)有益于语言建模,而强制保持某种一致性恒等关系的先验则无效。这一发现为未来设计更有效的归纳偏置提供了指导。

意义与局限

CCT 展示了将数学结构(范畴论)与认知科学原理结合来改进 AI 架构的潜力。不过,该工作仅在单一数据集(WikiText-103)上验证,且模型规模较小(3 亿参数)。未来需要在更大模型和更多任务上检验其泛化能力。此外,论文未提供代码或开源模型,复现和进一步研究尚需时日。

延伸阅读

  1. 《下载》杂志:解锁锂资源与抗击埃博拉
  2. 刚果(金)致命埃博拉疫情难以控制:布恩迪布焦病毒无疫苗可用
  3. 教皇新通谕《宏大的人性》:为个体应对AI时代提供行动指南
查看原文