精选今天0 投票
ZAYA1-8B 技术报告:仅700M激活参数,数学与编程媲美DeepSeek-R1
Zayphra 团队近日发布了 ZAYA1-8B 技术报告,一款聚焦推理能力的混合专家(MoE)模型。该模型总参数量为 8B,但每次推理仅激活 700M 参数,却在多个高难度数学与编程基准上达到甚至超越了 DeepSeek-R1-0528 等更大规模的模型。
架构与训练:从零开始的推理优化
ZAYA1-8B 基于 Zyphra 自研的 MoE++ 架构,其预训练、中期训练和监督微调(SFT)均运行在 全栈 AMD 计算、网络与软件平台 上。与许多后期才加入推理能力的模型不同,ZAYA1-8B 从预训练阶段起就引入了推理数据,并采用了一种 保留答案的裁剪方案,确保在压缩序列长度的同时不丢失关键推理结果。
后训练阶段采用 四阶段强化学习(RL)级联:
- 推理热身:在数学和谜题数据上进行 RL 训练,激活基础推理能力。
- RLVE-Gym 课程:覆盖 400 个任务的强化学习环境,提升泛化性。
- 数学与代码 RL:结合测试时计算(test-time compute)轨迹和基于竞赛编程参考的合成代码环境,强化专项能力。
- 行为 RL:针对聊天和指令跟随进行优化,确保模型在通用场景下的可用性。
性能亮点:小参数,大能力
尽管激活参数不足 1B,ZAYA1-8B 在多个基准上表现出色:
- 数学推理:在 AIME 2025 上达到 91.9%,HMMT 2025 上达到 89.6%(使用 Markovian RSA 方法)。
- 编程任务:在竞赛级编程基准上与 DeepSeek-R1-0528 持平或更优。
- 对比竞品:与 Gemini-2.5 Pro、DeepSeek-V3.2、GPT-5-High 等更大模型相比,差距显著缩小。
创新方法:Markovian RSA 测试时计算
ZAYA1-8B 引入了一种名为 Markovian RSA 的测试时计算方法。该方法递归地聚合多个并行推理轨迹,但每轮仅向前传递 有限长度的推理尾部(默认 4K tokens)。这种设计大幅降低了测试时的计算开销,同时保留了多路径探索的优势,使模型在数学推理上接近甚至超越超大模型。
行业意义与展望
ZAYA1-8B 的成功证明,通过精心设计的架构和训练策略,小参数模型可以在特定领域挑战大模型。这为资源受限的场景(如边缘设备、实时应用)提供了新的可能性。同时,其全栈 AMD 平台的训练经验也展示了非 NVIDIA 生态在 AI 领域的潜力。未来,Zayphra 计划进一步优化 MoE++ 架构,并探索更高效的测试时计算方法。