SheepNav
新上线今天156 投票

开源复现 DeepSeek-R1:Open R1 项目全面解析

从闭源到开源:Open R1 项目如何破解 DeepSeek-R1 之谜?

最近,Hacker News 上一个名为 Open R1 的项目引发了广泛关注(77 分,10 条评论)。该项目旨在完全开源复现 DeepSeek-R1 模型,让研究者能够自由地复现、修改和扩展这一强大的推理模型。

项目背景与目标

DeepSeek-R1 是一款在数学、编程和科学推理领域表现卓越的模型,但其实现细节和训练数据并未完全公开。Open R1 项目的目标就是填补这一空白,构建 R1 流水线中缺失的环节,使每个人都能在此基础上进行复现和创新。

三步走计划

项目团队根据 DeepSeek-R1 的技术报告,将复现工作分为三个主要步骤:

  1. 复现 R1-Distill 模型:通过从 DeepSeek-R1 中蒸馏高质量语料,训练出蒸馏版模型。这一步骤已于 2025 年 5 月 26 日完成。团队发布了 Mixture-of-Thoughts 数据集,包含 35 万条经过验证的推理轨迹,覆盖数学、编程和科学领域。基于该数据集训练的 OpenR1-Distill-7B 模型成功复现了 DeepSeek-R1-Distill-Qwen-7B 的推理能力。

  2. 复现纯强化学习流水线:重现 DeepSeek 用于创建 R1-Zero 的强化学习过程。这需要策划新的、大规模的数据集,用于数学、推理和编程训练。

  3. 端到端多阶段训练:展示如何从基础模型出发,通过多阶段训练得到强化学习调优的模型。

关键进展与数据集

除了第一步的完成,项目还取得了其他重要进展:

  • CodeForces-CoTs 数据集:包含 1 万个竞技编程问题和 10 万个从 R1 蒸馏的解决方案。基于此数据集训练的 7B 参数 Qwen 模型在 IOI24 基准测试上超越了 Claude 3.7 Sonnet,而 32B 模型甚至超越了 R1 本身。
  • OpenR1-Math-220k 数据集:包含 22 万条从 R1 蒸馏的数学推理轨迹,训练出的模型性能与 DeepSeek 的蒸馏版本相当。

技术架构

项目代码结构简洁,主要包含以下组件:

  • src/open_r1:包含训练和生成数据的脚本,如 GRPO(分组相对策略优化)训练、SFT(监督微调)和合成数据生成。
  • Makefile:提供易于使用的命令,一键执行流水线中的各个步骤。

行业意义

Open R1 项目的意义不仅在于技术复现,更在于它为 AI 社区提供了一个完全开放的推理模型研究平台。通过开源数据集和训练方案,研究者可以更深入地探索强化学习在推理能力提升中的作用,降低大模型研发的门槛。

未来展望

目前项目已成功完成第一步,后续步骤的推进将直接关系到能否真正复现 DeepSeek-R1 的核心能力。社区期待 Open R1 能够像 Llama 一样,成为开源推理模型的标杆。


注:本文信息基于项目公开资料,部分进展时间点以项目实际发布为准。

延伸阅读

  1. SpaceX SPV投资者要等到IPO锁定期结束后才知道自己真正持有多少股份
  2. Grok 仍在托管知名女性的色情深度伪造内容
  3. Amazon Bedrock 动态按需与批量管道:灵活提取文档数据
查看原文