分享 GitHub 上一个精心策划的推理大语言模型研究资源库:Awesome-LLM-Post-training。
收集了关于增强大语言模型推理能力的后训练方法论、论文、代码实现和基准测试,帮助研究人员和开发者深入了解如何打造高质量推理模型。
GitHub: https://github.com/mbzuai-oryx/Awesome-LLM-Post-training
内容涵盖强化学习、过程奖励模型、多步推理策略等关键技术领域的最新研究成果,并提供推理评估基准和开源训练框架的全面汇总。
想了解如何打造 R1/o1/Claude 这类推理模型的同学,可以看下这份资料整理。