ZAYA1-8B：700M激活参数媲美DeepSeek-R1，创新测试时计算

Zayphra 团队近日发布了 ZAYA1-8B 技术报告，一款聚焦推理能力的混合专家（MoE）模型。该模型总参数量为 8B，但每次推理仅激活 700M 参数，却在多个高难度数学与编程基准上达到甚至超越了 DeepSeek-R1-0528 等更大规模的模型。

架构与训练：从零开始的推理优化

ZAYA1-8B 基于 Zyphra 自研的 MoE++ 架构，其预训练、中期训练和监督微调（SFT）均运行在 全栈 AMD 计算、网络与软件平台 上。与许多后期才加入推理能力的模型不同，ZAYA1-8B 从预训练阶段起就引入了推理数据，并采用了一种 保留答案的裁剪方案，确保在压缩序列长度的同时不丢失关键推理结果。

后训练阶段采用 四阶段强化学习（RL）级联：

推理热身：在数学和谜题数据上进行 RL 训练，激活基础推理能力。
RLVE-Gym 课程：覆盖 400 个任务的强化学习环境，提升泛化性。
数学与代码 RL：结合测试时计算（test-time compute）轨迹和基于竞赛编程参考的合成代码环境，强化专项能力。
行为 RL：针对聊天和指令跟随进行优化，确保模型在通用场景下的可用性。

性能亮点：小参数，大能力

尽管激活参数不足 1B，ZAYA1-8B 在多个基准上表现出色：

数学推理：在 AIME 2025 上达到 91.9%，HMMT 2025 上达到 89.6%（使用 Markovian RSA 方法）。
编程任务：在竞赛级编程基准上与 DeepSeek-R1-0528 持平或更优。
对比竞品：与 Gemini-2.5 Pro、DeepSeek-V3.2、GPT-5-High 等更大模型相比，差距显著缩小。

创新方法：Markovian RSA 测试时计算

ZAYA1-8B 引入了一种名为 Markovian RSA 的测试时计算方法。该方法递归地聚合多个并行推理轨迹，但每轮仅向前传递 有限长度的推理尾部（默认 4K tokens）。这种设计大幅降低了测试时的计算开销，同时保留了多路径探索的优势，使模型在数学推理上接近甚至超越超大模型。

行业意义与展望

ZAYA1-8B 的成功证明，通过精心设计的架构和训练策略，小参数模型可以在特定领域挑战大模型。这为资源受限的场景（如边缘设备、实时应用）提供了新的可能性。同时，其全栈 AMD 平台的训练经验也展示了非 NVIDIA 生态在 AI 领域的潜力。未来，Zayphra 计划进一步优化 MoE++ 架构，并探索更高效的测试时计算方法。

ZAYA1-8B 技术报告：仅700M激活参数，数学与编程媲美DeepSeek-R1

架构与训练：从零开始的推理优化

性能亮点：小参数，大能力

创新方法：Markovian RSA 测试时计算

行业意义与展望

延伸阅读

相关资讯