认知范畴Transformer：用范畴论提升语言模型困惑度12%

一篇新论文《认知范畴 Transformer》（Cognitive Categorical Transformer, CCT）尝试将范畴论与认知科学的灵感引入语言模型架构，以提升模型对语言结构的理解能力。该模型以预训练的 GPT-2 Small 为骨干，额外增加了基于范畴论和认知科学的组件，参数量为 3.06 亿。在 WikiText-103 数据集上，CCT 在相同训练步数（215,000 步）和优化器设置下，验证困惑度达到 21.27，而同等微调的 GPT-2 Small 基线为 24.19，实现了 2.92 点（12%） 的相对改进。值得注意的是，GPT-2 Large（参数量为 GPT-2 Small 的 6.2 倍）在零样本下困惑度为 22.05，CCT 以更小的模型超越了这一水平。

关键创新：单纯复形消息传递

论文的核心贡献在于引入了一种名为 GT-Full（单纯复形消息传递） 的组件。消融实验表明，移除 GT-Full 后模型困惑度升至 23.72，这意味着 84%（2.45/2.92）的性能提升来自该组件。这是首次通过消融实验验证单纯复形消息传递能在 3 亿参数规模上有效改善语言模型困惑度。单纯复形是一种拓扑结构，能捕捉高阶关系（如词之间的多重关联），而传统 Transformer 仅关注两两交互。

结构vs一致性：范畴先验的区分

研究还测试了其他基于范畴论的先验，如 层平滑（sheaf smoothing）、伴随往返（adjunction round-trip） 和 曲率正则化（curvature regularization），但这些方法均未带来提升。作者由此提出了 “结构/一致性区分” 假说：增加新拓扑结构的范畴先验（如单纯复形）有益于语言建模，而强制保持某种一致性恒等关系的先验则无效。这一发现为未来设计更有效的归纳偏置提供了指导。

意义与局限

CCT 展示了将数学结构（范畴论）与认知科学原理结合来改进 AI 架构的潜力。不过，该工作仅在单一数据集（WikiText-103）上验证，且模型规模较小（3 亿参数）。未来需要在更大模型和更多任务上检验其泛化能力。此外，论文未提供代码或开源模型，复现和进一步研究尚需时日。

认知范畴 Transformer：用范畴论为语言模型注入认知归纳偏置

关键创新：单纯复形消息传递

结构vs一致性：范畴先验的区分

意义与局限

延伸阅读

相关资讯