Open R1项目：完全开源复现DeepSeek-R1，三步计划解析

从闭源到开源：Open R1 项目如何破解 DeepSeek-R1 之谜？

最近，Hacker News 上一个名为 Open R1 的项目引发了广泛关注（77 分，10 条评论）。该项目旨在完全开源复现 DeepSeek-R1 模型，让研究者能够自由地复现、修改和扩展这一强大的推理模型。

DeepSeek-R1 是一款在数学、编程和科学推理领域表现卓越的模型，但其实现细节和训练数据并未完全公开。Open R1 项目的目标就是填补这一空白，构建 R1 流水线中缺失的环节，使每个人都能在此基础上进行复现和创新。

项目团队根据 DeepSeek-R1 的技术报告，将复现工作分为三个主要步骤：

复现 R1-Distill 模型：通过从 DeepSeek-R1 中蒸馏高质量语料，训练出蒸馏版模型。这一步骤已于 2025 年 5 月 26 日完成。团队发布了 Mixture-of-Thoughts 数据集，包含 35 万条经过验证的推理轨迹，覆盖数学、编程和科学领域。基于该数据集训练的 OpenR1-Distill-7B 模型成功复现了 DeepSeek-R1-Distill-Qwen-7B 的推理能力。
复现纯强化学习流水线：重现 DeepSeek 用于创建 R1-Zero 的强化学习过程。这需要策划新的、大规模的数据集，用于数学、推理和编程训练。
端到端多阶段训练：展示如何从基础模型出发，通过多阶段训练得到强化学习调优的模型。

除了第一步的完成，项目还取得了其他重要进展：

CodeForces-CoTs 数据集：包含 1 万个竞技编程问题和 10 万个从 R1 蒸馏的解决方案。基于此数据集训练的 7B 参数 Qwen 模型在 IOI24 基准测试上超越了 Claude 3.7 Sonnet，而 32B 模型甚至超越了 R1 本身。
OpenR1-Math-220k 数据集：包含 22 万条从 R1 蒸馏的数学推理轨迹，训练出的模型性能与 DeepSeek 的蒸馏版本相当。

项目代码结构简洁，主要包含以下组件：

Open R1 项目的意义不仅在于技术复现，更在于它为 AI 社区提供了一个完全开放的推理模型研究平台。通过开源数据集和训练方案，研究者可以更深入地探索强化学习在推理能力提升中的作用，降低大模型研发的门槛。

目前项目已成功完成第一步，后续步骤的推进将直接关系到能否真正复现 DeepSeek-R1 的核心能力。社区期待 Open R1 能够像 Llama 一样，成为开源推理模型的标杆。

注：本文信息基于项目公开资料，部分进展时间点以项目实际发布为准。