**GitHubDaily** @[email protected] · 2025-04-08T03:05:14Z

GitHubDaily @[email protected]

在 GitHub 上发现一个简单高效的 LLM 强化学习库：nanoAhaMoment。

仅需单个 80G GPU，无需 RL 库，使用 3B 基础模型，全参数微调，就能实现类似 DeepSeek R1-zero 的风格训练，而且整个过程只需不到 10 小时。

提供了 Jupyter notebook 笔记和通俗易懂的代码，并且附有详细教程视频，轻松上手学习。