分享 GitHub 上一个从零实现 DeepSeek R1 训练过程的开源项目:train-deepseek-r1,通过手绘流程图和代码解析,让复杂的 AI 训练变得易懂。
详细展示了 DeepSeek R1 的训练流程,从基础模型开始,通过强化学习、监督微调等阶段,最终构建出具有卓越推理能力的语言模型。
GitHub: https://github.com/FareedKhan-dev/train-deepseek-r1
项目包含了:
- 使用手绘流程图详解 DeepSeek R1 架构
- 完整实现 GRPO 算法训练 R1 Zero 初始版本
- 通过 SFT 解决 R1 Zero 的混乱推理和语言混合问题
- 基于推理导向的强化学习优化模型能力
- 使用小型基础模型,让本地训练和实验成为可能
- 包含奖励函数、拒绝采样等关键技术实现细节