Follow

分享 GitHub 上一个从零实现 DeepSeek R1 训练过程的开源项目:train-deepseek-r1,通过手绘流程图和代码解析,让复杂的 AI 训练变得易懂。

详细展示了 DeepSeek R1 的训练流程,从基础模型开始,通过强化学习、监督微调等阶段,最终构建出具有卓越推理能力的语言模型。

GitHub: github.com/FareedKhan-dev/trai

项目包含了:

- 使用手绘流程图详解 DeepSeek R1 架构

- 完整实现 GRPO 算法训练 R1 Zero 初始版本

- 通过 SFT 解决 R1 Zero 的混乱推理和语言混合问题

- 基于推理导向的强化学习优化模型能力

- 使用小型基础模型,让本地训练和实验成为可能

- 包含奖励函数、拒绝采样等关键技术实现细节

:icon_weibo: weibo.com/5722964389/PgcZECkSg

Sign in to participate in the conversation
小森林

每个人都有属于自己的一片森林,也许我们从来不曾走过,但它一直在那里,总会在那里。迷失的人迷失了,相逢的人会再相逢。愿这里,成为属于你的小森林。