Follow

在 GitHub 上发现一个简单高效的 LLM 强化学习库:nanoAhaMoment。

仅需单个 80G GPU,无需 RL 库,使用 3B 基础模型,全参数微调,就能实现类似 DeepSeek R1-zero 的风格训练,而且整个过程只需不到 10 小时。

GitHub: github.com/McGill-NLP/nano-aha

提供了 Jupyter notebook 笔记和通俗易懂的代码,并且附有详细教程视频,轻松上手学习。

:icon_weibo: weibo.com/5722964389/PmhIfi3G5

Sign in to participate in the conversation
小森林

每个人都有属于自己的一片森林,也许我们从来不曾走过,但它一直在那里,总会在那里。迷失的人迷失了,相逢的人会再相逢。愿这里,成为属于你的小森林。