**GitHubDaily** @[email protected] · 2025-02-27T04:00:14Z

GitHubDaily @[email protected]

分享 GitHub 上一个从零实现 DeepSeek R1 训练过程的开源项目：train-deepseek-r1，通过手绘流程图和代码解析，让复杂的 AI 训练变得易懂。

详细展示了 DeepSeek R1 的训练流程，从基础模型开始，通过强化学习、监督微调等阶段，最终构建出具有卓越推理能力的语言模型。

项目包含了：

- 使用手绘流程图详解 DeepSeek R1 架构

- 完整实现 GRPO 算法训练 R1 Zero 初始版本

- 通过 SFT 解决 R1 Zero 的混乱推理和语言混合问题

- 基于推理导向的强化学习优化模型能力

- 使用小型基础模型，让本地训练和实验成为可能

- 包含奖励函数、拒绝采样等关键技术实现细节